El reto del exposoma: ¿cómo determinar relaciones de causa-efecto entre cientos o miles de datos?

El reto del exposoma: ¿cómo determinar relaciones de causa-efecto entre cientos o miles de datos?

07.12.2022
joshua_sortino-unsplash
Foto: Joshua Sortino / Unsplash

"Tus suposiciones son tus ventanas al mundo" (Isaac Asimov)

Al parecer, existe una correlación significativa entre el número de personas que se ahogan en una piscina y el número de películas protagonizadas por Nicolas Cage. Tal vez a estas personas no les gustaron sus películas, aunque lo más probable es que se trate de una relación espuria. Es decir, estos dos acontecimientos están efectivamente asociados, pero no de forma causal. Ver una película del Sr. Cage no hará que te ahogues. Y hay muchas relaciones de este tipo. En este caso, por suerte, la interpretemos como causal o no, probablemente no tendrá consecuencias relevantes. Excepto, quizás, para las finanzas de Cage.

Pero supongamos que queremos investigar los efectos de la exposición a una sustancia química, como un posible carcinógeno o un nuevo medicamento. Pues bien, ahora nuestra interpretación de los resultados podría tener consecuencias mucho más catastróficas. Una sustancia química considerada segura podría causar en realidad graves efectos sobre la salud, o un fármaco que no mostró ningún resultado "estadísticamente significativo" podría ser, de hecho, beneficioso. En ambos casos, existe la posibilidad concreta de que una gran proporción de la población salga perjudicada. Establecer la causalidad no solo es recomendable, sino imperativo.

La mayoría de epidemiólogos conocen la frase "correlación no implica causalidad", que hoy en día se recita casi como un mantra. A la mayoría nos da casi miedo afirmar el objetivo causal de nuestros esfuerzos científicos

Curiosamente, la mayoría de epidemiólogos conocen la frase "correlación no implica causalidad", que hoy en día se recita casi como un mantra. El caso es que a la mayoría nos da casi miedo afirmar el objetivo causal de nuestros esfuerzos científicos. De hecho, si escogemos al azar un artículo epidemiológico, es muy probable que los autores y las autoras hayan concluido el manuscrito escribiendo algo parecido a "Debido a la naturaleza observacional de nuestro estudio, no podemos establecer la causalidad". Y, por desgracia, en algunos casos, los autores y autoras no se esforzaron mucho en el intento de establecer la causalidad. Como escribe Miguel A. Hernán: "Las preguntas asociativas son fáciles de formular y sencillas de responder cuando se dispone de datos".

 

 

Una causa común de asociaciones espurias es lo que llamamos factores de confusión. Un factor de confusión puede describirse como un acontecimiento o una variable que se asocia tanto con la exposición (por ejemplo, nuestra sustancia química) como con el resultado (por ejemplo, el cáncer). Los factores de confusión pueden distorsionar nuestras conclusiones y, en algunos casos, pueden incluso cambiar la dirección de un efecto. La buena noticia es que existen métodos para "controlar" estas variables, que reducen así su influencia en el efecto de interés. La mala noticia es que la selección de los factores de confusión adecuados, cuando están disponibles para nuestra pregunta específica, es como mínimo difícil. No hay ningún método para identificarlos automáticamente, se necesita un conocimiento específico del tema. Esto requiere tiempo y dinero, algo muy valioso en el mundo académico.

La selección de los factores de confusión adecuados, cuando están disponibles para nuestra pregunta específica, es como mínimo difícil. No hay ningún método para identificarlos automáticamente, se necesita un conocimiento específico del tema. Esto requiere tiempo y dinero, algo muy valioso en el mundo académico

Las cosas se complican aún más, pero seguramente resultan más relevantes e interesantes, cuando queremos estudiar los efectos sobre la salud de quizás cientos o incluso miles de exposiciones simultáneas. De hecho, nuestra salud está determinada por múltiples aspectos de nuestro entorno. La suma de todos estos determinantes no genéticos de la salud se conoce ahora como el exposoma. Y el interés por este campo de investigación se ha disparado en los últimos años. Muchos actores de todo el mundo han expresado o están expresando su interés por este concepto innovador. ISGlobal es actualmente una de las instituciones líderes en este campo. Forma parte de grandes proyectos europeos sobre el exposoma como ATHLETEEqual-LifeEXPANSE y EPHOR.

 

Estos proyectos están recogiendo ingentes cantidades de datos para relacionar las exposiciones químicas, sociales y urbanas con las respuestas moleculares y los resultados de salud. Estos macrodatos (big data) son necesarios para responder a estas cuestiones complejas, pero no son suficientes para establecer la causalidad. La inteligencia de datos no puede sustituir, y nunca lo hará, el pensamiento meticuloso y el conocimiento específico del campo. Y si las cosas son complicadas para una exposición y un resultado, ya nos podemos imaginar las dificultades que surgirán cuando tratemos de identificar los factores de confusión necesarios para establecer la causalidad de estos efectos complejos. Es una tarea desalentadora, pero también necesaria.

Nos podemos imaginar las dificultades que surgen cuando tratamos de identificar los factores de confusión necesarios para establecer la causalidad de efectos complejos

El pensamiento causal ha ganado popularidad también en la epidemiología ambiental. De hecho, las preguntas causales son las que en última instancia impulsan las intervenciones y el cambio de políticas. Por desgracia, ahora está claro que los métodos estadísticos tradicionales que los investigadores e investigadoras han estado utilizando durante décadas no son apropiados para los macrodatos, como es el caso de la investigación del exposoma. Por suerte, los y las especialistas en estadística han desarrollado algunas soluciones "inteligentes". Estos métodos estadísticos modernos nos permiten integrar, analizar e interpretar grandes cantidades de datos. Y obtener estimaciones precisas de las cantidades objetivo. Las investigadoras y los investigadores aplicados que trabajan con datos no experimentales ya no pueden pretender que estas preguntas no tienen respuesta. En el Exposome Data Challenge organizado por ISGlobal, los ejemplos de métodos de inferencia causal incluyeron el análisis de mediación utilizando datos ómicos, métodos de g-computación y el uso de bosques aleatorios causales. Todos estos métodos y el código asociado se recogen en un artículo reciente (Maitre et al. 2022 https://www.sciencedirect.com/science/article/pii/S016041202200349X#s0100).

 

La exposición a factores ambientales durante el embarazo y la niñez podría afectar la tensión arterial en niños y niñasAutoría: Warembourg, C. et al. J Am Coll Cardiol. 2019;74(10):1317–28.

Los métodos estadísticos tradicionales que los investigadores e investigadoras han estado utilizando durante décadas no son apropiados para los datos de alta dimensión, como es el caso de la investigación del exposoma. Por suerte, los especialistas en estadística han desarrollado algunas soluciones "inteligentes"

Y podemos hacer más. Hoy en día es bastante común obtener datos de múltiples fuentes (por ejemplo, la integración sistemática de conocimientos toxicológicos y biológicos), a menudo independientes entre sí. De esta manera, podemos intentar triangular las pruebas con la esperanza de reducir el sesgo y acercarnos a la verdad. Por ejemplo, dentro del proyecto OBERON, en el que también participa ISGlobal, estamos tratando de estudiar los impactos en la salud de una determinada clase de sustancias químicas basándonos en pruebas in vitro, in silico (hecho por ordenador o vía simulación computacional) y epidemiológicas.

En conclusión, el resultado de estos grandes proyectos de investigación del exposoma puede proporcionar la comprensión necesaria para prevenir los efectos de una multitud de peligros ambientales, desde las primeras etapas de la vida. Puedes obtener más información sobre el exposoma y el papel de liderazgo de ISGlobal en este campo aquí.