Investigación

Un equipo de ISGlobal desarrolla una herramienta para facilitar los análisis de ‘big data’

El equipo adaptó una plataforma existente para permitir el análisis de una gran cantidad y variedad de datos sin comprometer su protección

09.04.2021
Orchestrating privacy-protected big data analyses of data from different resources with R and DataSHIELD. By Juan Ramon Gonzalez
Foto: Juan Ramón González

El big data o, en otras palabras, la capacidad de analizar una gran cantidad y variedad de datos a gran velocidad, tiene el potencial de revolucionar la biomedicina y la atención médica. Sin embargo, quedan varios obstáculos por resolver antes de que el big data alcance su máximo potencial. Uno de ellos es encontrar la manera de compartir datos de las y los participantes en estudios entre diferentes equipos investigadores o instituciones, pero respetando la protección de datos y cumpliendo con el marco legal de la Unión Europea o de otras regiones. Otro reto es escoger entre enviar los datos a un repositorio centralizado (o almacén de datos) para facilitar su análisis, o no. La ventaja de no hacerlo, y de dejarlo en los servidores originales, es que los datos físicos permanecen bajo el control de su depositario, y los datos pueden actualizarse rápidamente sin necesidad de volverlos a enviar al servidor central.

La plataforma DataShield, desarrollada a lo largo de los últimos diez años en el Reino Unido, permite este tipo de análisis “federado”: los datos de los estudios permanecen en el servidor respectivo de cada institución responsable de los mismos, y la persona que analiza los datos no tiene acceso a información individual sobre los participantes del estudio. “Sin embargo, el análisis de big data con DataShield se ha visto limitado por la manera en que se almacenan los datos y las capacidades de análisis de la plataforma,” comenta Juan Ramón González, investigador de ISGlobal y coordinador del estudio.

Para resolver este problema, González, en colaboración con Yannick Marcon de Epigeny y el equipo de DataShield liderado por Paul Burton, desarrollaron una nueva arquitectura para DataShield (y su almacén de datos llamado Opal) para permitir el uso de bases de datos grandes y complejas desde su localización original, en su formato original, y con equipos de cómputo externos . El equipo además proporciona ejemplos reales de cómo se puede usar la herramienta en proyectos geoespaciales o de genómica. De hecho, este estudio contó con el apoyo del proyecto VEIS (financiado por FEDER), que busca facilitar la integración y análisis de datos del Archivo Genómico Europeo. También podría utilizarse en muchas otras disciplinas donde haya cuestiones de confidencialidad, dicen las y los autores. Por ejemplo, en el análisis de neuroimágenes, o combinando big data con inteligencia artificial para el diagnóstico clínico.

“En particular, nuestra herramienta podría aplicarse a la iniciativa europea del genoma llamada Beyond One Million Genomes (B1MG),” dice González. El objetivo de esta iniciativa, firmada por 22 países europeos, es dar acceso transfronterizo a un millón de genomas secuenciados para el 2022 . Lanzada por la organización ELIXIR, también busca ir más allá de la genómica y avanzar en el desarrollo de infraestructura para compartir datos que “ayude al personal médico a avanzar en la medicina personalizada y a beneficiar a sus pacientes, al personal científico a entender mejor las enfermedades, y a las personas innovadores a contribuir e impulsar la economía europea”. “La estructura que describimos en el estudio responde bien a este objetivo,” señala González.

El equipo desarrollador ha generado un libro online para ayudar a los y las investigadores a utilizar esta herramienta ( https://isglobal-brge.github.io/resource_bookdown ).

El proyecto VEIS ha sido cofinanciado en un 50% por el Fondo Europeo de Desarrollo Regional de la Unión Europea en el marco del Programa Operativo FEDER de Cataluña 2014-2020, con el apoyo de la Generalitat de Cataluña.

Referencia

Marcon Y, Bishop T, Avraam D, Escriba-Montagut X, Ryser-Welch P, et al. (2021) Orchestrating privacy-protected big data analyses of data from different resources with R and DataSHIELD. PLOS Computational Biology 17(3): e1008880. https://doi.org/10.1371/journal.pcbi.1008880