Analizar las mutaciones del genoma humano, descomponiéndolo en pequeños trozos para luego volverlos a montar es la tarea diaria del Centro Nacional de Análisis Genómico (CNAG-CRG), una institución que participa en proyectos de secuenciación a gran escala en temas tan diversos como la genética del cáncer o las enfermedades raras, entre otros. Creado en 2009, nació con el objetivo de llevar a cabo proyectos de secuenciación y análisis de ADN y colocar a España en el área estratégica de la genómica. El ADN es l mapa genético donde están los rasgos que comparte con todos los humanos y las pequeñas variaciones que le hacen único: desde los atributos físicos hasta la predisposición a sufrir enfermedades
Poder visitar sus instalaciones y conocer de primera mano cómo se realiza este análisis genómico es todo un lujo. Superordenadores como los de Intel que utilizan en el CNAG han ayudado a mejorar el diagnóstico, a identificar el mejor tratamiento para un enfermo de cáncer o descubrir qué tipo de mutación causa una de esas llamadas enfermedades raras.
Para llevar a cabo todas estas investigaciones, el CNAG colabora en diferentes consorcios internacionales de investigación, como el Consorcio Internacional del Genoma del Cáncer (ICGC) que tiene como objetivo secuenciar más de 50 cánceres distintos de alrededor del mundo. En este caso, España se encargó de secuenciar la leucemia linfática crónica (LLC) desde el CNAG. “En este proyecto se han secuenciado 500 pacientes con ese tipo de cáncer y hemos encontrado mutaciones que son causales de este cáncer y además hemos conseguido clasificar los pacientes en subtipos, en función de las mutaciones que tienen”, comenta Sergi Beltrán, director de la unidad de bioinformática del CNAG. También colabora con el Consorcio Internacional de Investigaciones sobre Enfermedades Raras (IRDiRC) y el Consorcio Internacional sobre el Epigenoma Humano (IHEC).La institución está financiada con fondos del Ministerio de Economía y Competitividad y la Generalitat de Cataluña y actualmente colabora en 300 proyectos de secuenciación y análisis.
El CNAG tiene actualmente capacidad para secuenciar hasta 20 genomas humanos cada 24 horas, gracias a los 12 secuenciadores Illumina y cuenta con un personal formado por 70 profesionales, el 50% de ellos con un doctorado. “Secuenciar es obtener la secuencia genómica del ADN de un individuo. Es decir, saber cuál es el orden de las letras que conforman cada uno de los cromosomas de un individuo. Una persona tiene en cada una de sus células 23 pares de cromosomas. Estos 23 pares de cromosomas en total si los pusiéramos uno detrás de otro serían 3.300 millones de letras”, explica Beltrán.
Como un puzle
Realizar esta secuenciación no es una tarea fácil. Un cromosoma tiene 4 letras: A, C, D y G y es el orden de estas letras lo que importa en la secuenciación, un código que dará información a las proteínas para saber de qué tipo son. Tecnológicamente, en la actualidad no es posible secuenciar un genoma completo. “Todos los genomas son un 99,9 % idénticos, pero lo que buscamos son las variaciones de ese 0,1% restante. Para encontrarlas necesitamos descomponer cada genoma en cadenas de cientos de bases (o más), secuenciar las cadenas cortas y volver a componerlas. Es como hacer un rompecabezas con miles de millones de piezas”, comenta Ivo Glynne Gut, director del CNAG. Este puzle es el que se encargan de hacer las máquinas.
El proceso comienza cogiendo un conjunto de células y rompiéndolas en pequeñas partes para secuenciarlos posteriormente con el equipo del que dispone el CNAG para esta tarea. Se trata de 12 secuenciadores Illumina de segunda generación que producen más de 2.000 Gigabases de datos de secuenciación al día, y tres de Oxford Nanopore colocados en una sala blanca con una temperatura constante de 20º. En este punto, es cuando se produce el alineamiento de los pequeños trozos en los que se ha dividido previamente el ADN. Tan sólo esta fase necesita de unas 300 horas de CPU, para la secuenciación posterior, se necesita al menos una semana. Todo el proceso, desde que se reciben los datos hasta que se dan los resultados, tarda unos 15 días.
Supercomputación y Big Data
Encontrar las múltiples variedades de mutaciones entre los millones de bases de cada genoma requiere de una gran cantidad de tiempo y horas de CPU y, por otra parte, una plataforma informática potente capaz de analizar todos estos datos extraídos. Es aquí donde entra en juego el Big Data. “Lo que nos interesa es esta gran cantidad de información: la posibilidad de identificar los conocimientos realmente valiosos de las secuencias que tenemos frente a nosotros. Para hacer esto bien, necesitamos buenos datos, buenas analíticas y buenas herramientas. Y nosotros realizamos un control de calidad minucioso de todos estos elementos”, explica el director del CNAG. La capacidad de secuenciación del CNAG genera 30 terabytes diarios que necesitan un análisis rápido y preciso.
Por eso, recientemente la institución ha mejorado la plataforma de superinformática con procesadores Intel Xeon que, según las estimaciones del CNAG, ha contribuido a un incremento x10 en el rendimiento del software que utilizan para realizar analíticas. La supercomputadora está actualmente situada en la torre I del Parque Científico de Barcelona, y cuenta con unos 3.500 cores y más de 7 Petabytes de almacenamiento. Las mejoras aportadas por estos superordenadores servirán para ofrecer unos conocimientos más detallados y variados a los usuarios finales.
En el caso concreto del cáncer, el análisis se hace a partir de células sanas del paciente y por otra parte de las células infectadas o tumorales, para encontrar las mutaciones que son distintas en el tumor respecto a las células normales del individuo. En 2016, el CNAG trabajó con unas 5.000 muestras, tanto humanas como de otras especies.
Tratamientos personalizados
El objetivo es contar con el mayor número de secuencias porque las mutaciones registradas en los estudios se comparan con las muestras para comprobar si son frecuentes en la población. Es decir, se buscan mutaciones muy poco frecuentes que no se hayan escrito nunca en la población. “Como tenemos genoma secuenciado de mucha gente, sabemos si cada posición del genoma está mutada en mucha gente o no. Si está mutada en mucha gente seguro que no causa enfermedad”, afirma Beltrán.
Al conocer las mutaciones podría saber exactamente en qué genes se ha producido la mutación que ha derivado en cáncer. «No se trata solo de saber qué tipo de cáncer es sino cuál es la causa molecular, cuáles son los genes que están mutados y a los que hay que atacar», comenta Beltrán. El siguiente paso pasa por saber con qué medicamentos se puede tratar cada mutación. Sería el inicio de un diagnóstico y sobre todo tratamiento más personalizado, que a la vez podrá ser más exacto.
«Nuestra misión es que cuando un paciente con un cáncer con origen genético llegue al médico, se le pueda hacer un análisis genético, ofrecer un diagnóstico más preciso y darle un tratamiento personalizado. Todo ello en un día y con un coste por debajo de los 100 euros», indica Carlos Clerencia, director de Intel Iberia, cuyas máquinas posibilitan la magia de la secuenciación.
Menos tiempo y costes
La tecnología ha ayudado a que estos procesos sean más rápidos y que se reduzcan los costes. El primer genoma tardó unos 10 o 15 años en hacerse y costó millones de dólares, mientras que actualmente se puede hacer en 15 días por unos 1.000 euros. El objetivo sería conseguir reducir el tiempo a un día, algo en manos de la tecnología. Otra cosa es que bajen los costes.
«No estamos tan lejos de tener el anlásis genómico en un día. El principal obstáculo para lograr recortar el tiempo es tecnológico, se necesitan procesadores y secuenciadores más potentes. Pero el precio sí está más lejos, tienen que bajar muchos costes», explica Beltrán.
Algún día no muy lejano, quizás cada uno tengamos nuestro genoma secuenciado y almacenado en el sistema. Y cuando vayamos al médico, este pueda acceder y darnos un diagnóstico más preciso, así como un tratamiento personalizado.