ENCODE o la enciclopedia del ADN: una linterna en la basura
El proyecto Genoma desveló que solo el 1,5% de nuestro ADN eran genes. Ahora un nuevo proyecto internacional, llamado ENCODE, afirma que hasta el 80% de nuestro genoma tiene actividad. Sus interpretaciones son aún controvertidas, pero los datos alumbran nuevas interpretaciones y prometedoras aplicaciones en la investigación biomédica.

Escritor y periodista científico. MD, PhD

**
Resumen para lectores con prisa:
La vida, instrucciones de uso

En la novela “La vida, instrucciones de uso”, George Perec construyó un rompecabezas a modo de catálogo total con el que representar la vida entera de un edificio y de sus gentes. El autor retira la pared de la fachada y nos muestra, en 99 capítulos como piezas de un acta notarial, las vidas de los inquilinos a través de la descripción exhaustiva y pormenorizada de sus cuadros, de sus muebles y recuerdos, de sus conversaciones. Partiendo de que nada se debe desdeñar, vamos descubriendo desde lo absolutamente particular los mecanismos que gobiernan el edificio entero a partir de sus intersecciones, como si se formara la figura de un mosaico a partir de la suma de sus habitaciones. Podemos suponer que el ADN es el edificio de Perec. Y si el ADN, ese libro de cuatro letras, contiene la información necesaria para transmitir y desarrollar la inmensa complejidad de la vida, no es difícil suponer que se precise de una guía de lectura para poder entender sus innumerables habitaciones, intersecciones y vericuetos. Y que esta guía sea una enciclopedia que pueda ocupar una biblioteca entera.
Lo que puede resultar más sorprendente es que una gran parte de esta biblioteca la hayamos tenido que rescatar de la basura.
.
10 años después del Proyecto Genoma

Si tenemos que reducirnos y escoger qué es lo que somos, en última instancia somos proteínas. Pero para fabricar estas proteínas —estos ladrillos— se necesitan instrucciones, los planos que vienen cifrados en los genes del ADN. En el año 2001, los resultados del Proyecto Genoma Humano dieron lugar a una poco menos que desconcertante conclusión. De los tres mil millones de letras que hay en el ADN, sólo el 1,5% parecían ser genes. Éstos sumaban aproximadamente 22.000, un número reducidísimo y no muy diferente del que poseen ciertos gusanos o algunos tipos de moscas. Y el resto, un inmenso 98,5%, se asemejaba a un esqueleto en cierto modo inerte, sin función aparente, sin relación directa con el edificio. A este porcentaje restante se le consideró, despectivamente, como ADN basura, un término acuñado en realidad en 1972 por el biólogo Susumu Ohno, y que incluía, entre otros, largas secuencias de letras repetitivas o virus que en algún momento se fueron incorporando a nuestro ADN (ver sección aparte). Algo más de 10 años después, el proyecto ENCODE (acrónimo en inglés de Enciclopedia de elementos de ADN) ha reciclado buena parte de esa basura. El pasado 5 de septiembre, y de una forma casi inaudita, se publicaron simultáneamente 30 trabajos entre las revistas Nature, Genome Research y Genome Biology que incluían los resultados de 5 años de trabajo de más de 400 científicos de todo el mundo. El propósito del proyecto era, en cierto modo, y más allá de los genes conocidos, identificar cada letra del ADN en el genoma que estuviera haciendo algo. Para ello, lo que estos equipos han hecho, de forma ímproba y coordinada, ha sido analizar mediante 24 tipos de experimentos 147 tipos de células diferentes y en distintos momentos del desarrollo. ¿Las conclusiones anunciadas? Que, lejos de aquel ínfimo 1,5%, el 80% del genoma está vivo y tiene algún tipo de actividad bioquímica, ya sea porque se esté transcribiendo a ARN (“leyendo”), porque influya en la actividad de otros genes, porque se le esté uniendo algún tipo de proteína o porque afecte a cómo el ADN esté empaquetado. Cualquier tipo de actividad. Y entre este poco menos que asombroso 80% se encuentran hasta 4 millones de potenciadores, una suerte de interruptores (o más exactamente moduladores) que influyen en que determinados genes puedan estar activos o silentes. Que controlan cuándo y dónde se producen las proteínas. O lo que es lo mismo, una auténtica ciudad de apariencia caótica donde más allá de sus habitantes —o genes— casi cada señal, cada semáforo, cada bombilla de cada dormitorio participa en su ordenación y suerte final. Las señales que regulan y que permiten explicar cómo algo tan complejo como un ser humano puede ser el resultado de apenas 22.000 genes. Pero, ¿ha terminado realmente ENCODE con el ADN basura?
Es muy posible que no.
.
Reciclando la basura, hasta un punto
La comunicación de los resultados del ENCODE por parte de los propios científicos ha sido en cierto modo confusa. Este 80% del ADN activo es considerado en sus publicaciones y comunicados valiente y directamente como funcional. Y no sólo eso. Ewan Birney, uno de los coordinadores del proyecto, ha llegado a afirmar que, cuando se analicen todos los tipos de células del cuerpo, “este 80% es probable que llegue al 100%”. Y Tom Gingeras, uno de los científicos participantes, aseguró que “casi cada nucleótido (cada letra) del ADN se asocia con algún tipo de función”. La mayor parte de las críticas de la comunidad científica a estos trabajos se centra en estas conclusiones. Porque resulta difícil aceptar que muchas de estas actividades no sean simplemente algún tipo de ruido, sin ninguna función relevante en la célula. Semáforos funcionando en carreteras no transitadas. Si fuera cierto lo que desde el ENCODE afirman, sería difícil explicar que gran parte del genoma no esté sometido a la presión de la evolución (acumula cambios sin aparente repercusión), o que un saltamontes tenga 100 veces más cantidad de ADN que una mosca con prácticamente el mismo número de genes. Y un saltamontes no parece ser exageradamente más complejo que una mosca. De hecho, en otras declaraciones, el propio Birney matiza diciendo que, siendo conservadores, pueden asegurar que “al menos el 20% del ADN tiene alguna función, en el sentido tradicional”. Es muy posible que el verdadero número esté entre esos 20 y 80%.
Por otro lado, que había ADN considerado erróneamente como basura era algo que ya se sabía y se venía estudiando en los últimos años. Y muchas voces sostenían que el término era incorrecto y que habría que sustituirlo por otro más apropiado, como “ADN de función desconocida” o simplemente “ADN oscuro”. Lo que ENCODE ha hecho, aun escogiendo el citado 20%, ha sido iluminar, detallar y multiplicar la cantidad de ADN que parecía basura y que no lo es. Se trata de una revolución cuantitativa, pero de tal extremo que puede considerarse incluso cualitativa. Porque no sólo afecta a nuestro entendimiento de la biología, sino también a la investigación de múltiples enfermedades.
.
Una ciudad en 3D

El ADN tiende a verse como un libro, pero seguramente deberíamos imaginarlo como un desplegable. En realidad, las letras se van enrollando dando lugar a formas y grumos, de tal suerte que lo que en línea recta se encontraría a kilómetros de distancia, puede estar casi tocándose en la realidad celular. Dos vecinos amigos en la casa de Perec pueden vivir en pisos contiguos, pero también en las esquinas opuestas del edificio. Y esto hace que muchos de los interruptores génicos descritos puedan estar actuando en genes lejanísimos, incluso en cromosomas distintos. Y que cada edificio —cada tipo de célula— tenga su disposición particular, de forma que cada tejido —el hígado, el corazón— exprese las proteínas que deba expresar. Como afirma Jon Dekker, de la Universidad de Massachussets, “me gusta decir que nada en el genoma tiene sentido salvo en 3D”.
.
Una nueva vía para la investigación biomédica
El proyecto Genoma supuso un hito y una decepción. En los años siguientes a su consecución, y creyendo poseer la piedra Rosetta, proliferaron un tipo de estudios denominados GWAS (genome wide association study): grandes trabajos que comparaban el ADN de enfermos con el de personas sanas, buscando las variaciones en la secuencia de letras que pudieran explicar la aparición de la enfermedad. Los resultados, sin embargo, fueron decepcionantes: en general, los porcentajes de enfermos que podían asignarse a cambios específicos en el ADN eran muy reducidos, casi irrelevantes en la realidad. Ahora, ENCODE ha abierto una nueva vía para interpretar estos datos: lo que se ha visto es que de entre todas las variaciones, sólo el 12% se encuentran en los genes, mientras que la gran mayoría recaen en lo que ahora se ha reconsiderado como funcional, especialmente en los interruptores de dichos genes. La información que hasta ahora prácticamente se desechaba, porque se pensaba fruto del azar y sin conexión con la biología, adquiere una nueva luz. En el ENCODE se han analizado los datos de más de 400 enfermedades, entre ellas la diabetes, ciertos tipos de leucemias o la esclerosis múltiple, buscando nuevas asociaciones (incluso, más allá de la enfermedad, posibles variaciones en el ADN asociadas con la altura de los individuos). Un ejemplo: la enfermedad de Crohn es una enfermedad autoinmune de origen desconocido en la que las propias defensas atacan al intestino, pudiendo dar lugar a síntomas graves e incluso aumentando la posibilidad de desarrollar un cáncer. El proyecto ENCODE ha encontrado múltiples variaciones asociadas a un determinado factor de transcripción —una proteína que se une al ADN—, algunas de las cuales parecen asociarse con genes que participan en la inflamación. Como afirma Ewan Birney, “eso no era algo que los científicos que estudian el Crohn tuvieran en su radar”. O lo que es lo mismo, que es una vía nueva. E inesperada.
Hasta qué punto la revolución será cuantitativa o cualitativa, sólo el tiempo lo dirá. Ya lo anuncia Jon Dekker, que todo esto no es sino “un rompecabezas para el futuro de la ciencia del genoma.”
¿Un rompecabezas? En el fondo, siempre acaban refiriéndose a Perec.
.
.
Y además
Nuevas formas de compartir la ciencia

La ciencia será colaborativa o no será El proyecto ENCODE ha sido financiado con casi 200 millones de dólares por parte del NIH (Institutos Nacionales de Salud, en los Estados Unidos) y ha generado cerca de 15 terabytes de información. La comunicación de los resultados no podía ser convencional. Para hacerlo, los datos se dieron a conocer simultáneamente mediante 30 artículos en 3 de las revistas más prestigiosas, junto con otros trabajos accesorios en diversas publicaciones también del más alto impacto. Y, siguiendo con una tendencia creciente, toda la información se encuentra disponible en abierto, en lo que se ha dado en llamar open access. De esta forma, cualquier científico puede acceder a los datos y cotejarlos con los suyos, facilitando así que las investigaciones avancen más rápidamente. Además, el portal web de ENCODE permite seguir informaciones específicas a través de “hilos” que guían al visitante entre la maraña de todas las publicaciones. Y, en un esfuerzo de transparencia, han diseñado una “máquina virtual” que permite seguir el proceso de análisis que los científicos realizaron. Sólo una pega se les ha puesto: varias publicaciones, para poder ser simultáneas, se demoraron entre 6 meses y 1 año, privando de consultar esos datos a muchos científicos con investigaciones en marcha.
.
¿Redefinir el gen?

La visión clásica dice que un gen es aquella parte del ADN cuya secuencia se transcribe para formar una proteína. Aunque la definición ha ido variando con los años, “los datos del ENCODE obligan a redefinir el concepto de gen”, según Roderic Guigó, bioinformático del Centro de Regulación Genómica, en Barcelona, y coordinador de parte del proyecto. Lo que se ha visto es que la proporción del ADN que se transcribe es mucho mayor de la que se pensaba en un principio, pero que además lo puede hacer de múltiples formas diferentes y alternativas, incluso conectando zonas y superponiendo genes que en un principio no parecían estar relacionados. Por eso ya hay quien aboga por proponer como átomo del genoma, más allá del gen, al transcrito de ARN (la lectura del ADN original). Un gen sería en realidad una colección de transcritos que se unen por un factor común para cumplir una función.
.
El ADN basura y el test de la cebolla
El concepto de ADN basura fue acuñado en 1972 por el biólogo Susumu Ohno para referirse a todo el conjunto de ADN que no codifica para proteínas y que aparentemente parecía “no estar haciendo nada”. Incluye diversos tipos de secuencias, como virus antiguos que se incorporaron en algún momento a nuestro ADN, pseudogenes —genes defectuosos— o secuencias ampliamente repetidas, entre otras. Aunque pareciera inerte, se le suponían posibles funciones, como dar espacio suficiente para que la maquinaria de la célula funcionase correctamente, o servir de reserva para posibles mutaciones que supusieran una ventaja en la evolución. Las conclusiones del proyecto ENCODE, de ser ciertas en su totalidad, desterrarían prácticamente la existencia del ADN basura. Ésta es la parte del consorcio que más críticas ha recibido. Entre otras razones porque choca con el conocido como “test de la cebolla”: si todo al ADN hiciera algo, sería difícil explicar que algunas clases de cebollas posean 5 veces más ADN que otras. O que, atención, puedan tener 10 veces más que un humano.