Segunda parte: GENOMA

¡Datos, Watson, necesito datos! No se puede construir una casa sin ladrillos.
Sir Arthur Conan Doyle, Estudio en escarlata

CAPÍTULO 4. LOS OTROS PROYECTOS GENOMA

Cuando se acordaba de los primeros inicios de todas las cosas, le inundaba una caridad todavía mayor y daba a los animales mudos, por pequeños que fueran, los nombres de hermano y hermana, puesto que reconocía en ellos el mismo origen que en sí mismo.
San Buenaventura, La vida de San Francisco

No es bueno que el hombre esté solo

Casi desde el mismo comienzo de la idea de secuenciar el genoma humano, la mayoría de los biólogos estuvieron de acuerdo en que sería mucho más útil tener datos sobre genomas de otros organismos relacionados. La utilidad es clara, desde el punto de vista de que resulta éticamente imposible realizar experimentos de genética humana. A nadie se le ocurriría modificar deliberadamente un par de bases del ADN humano, e implantar el óvulo así fecundado en el útero de una mujer, sólo para ver qué ocurre. Pero los experimentos genéticos con bacterias, levaduras o ratones, por ejemplo, no plantean tantos problemas. Esta consideración, unida al hecho de que la gran mayoría de los genes presentes en el genoma humano se espera que tengan su contrapartida en los genomas de otras especies filogenéticamente relacionadas, explica por qué puede merecer la pena gastar semejante cantidad de esfuerzo y de dinero en la secuenciación de otros genomas, algunos de ellos tan grandes como el nuestro.
Uno de los problemas con los que nos encontraremos cuando tengamos secuenciado el genoma humano, será que tendremos miles de secuencias que posiblemente codifiquen proteínas de las cuales sólo podremos conocer su secuencia de aminoácidos; a partir de la secuenciación del ADN, no podremos saber nada directamente sobre su bioquímica, su estructura o su función. En muchas ocasiones, será posible deducir indirectamente algunos de estos rasgos, por comparación con otras proteínas conocidas en otros organismos diferentes, con las cuales la secuencia de la proteína en cuestión presente homología.
Es por ello que, en la actualidad, se están llevando a cabo, o se han completado ya, proyectos para secuenciar los genomas completos de algunos organismos escogidos. Se trata de organismos que podrían resultar válidos como modelos de la genética humana, como el ratón, o que presentan potencial como fuente de alimentación, como el arroz, o que pueden tener importancia industrial o médica, como los genomas de algunas bacterias o protozoos parásitos. Por último, otros organismos cuyos genomas están siendo secuenciados no tienen características especiales que los distingan especialmente de otros; sencillamente, han tenido la suerte (o la desgracia) de resultar simpáticos a los biólogos y se está trabajando en ellos por mero amor a la ciencia. En esta categoría entran la planta Arabidopsis thaliana, el nematodo Caenorhabditis elegans o la mosca de la fruta.
El estudio de todos estos genomas de organismos no humanos nos permitirá avances sin precedentes en la historia de la biología evolutiva. Ya se han producido las primeras sorpresas, una de las cuáles ha sido el descubrimiento de que las llamadas "arqueobacterias", seres procariotas con características bioquímicas "excéntricas", consideradas, hasta hace muy poco tiempo, como muy primitivas y evolutivamente anteriores a las bacterias verdaderas o "eubacterias", están genéticamente más relacionadas con las células eucariotas que con las eubacterias. Esto ha cambiado la forma del árbol evolutivo principal, como veremos más adelante.
La genética evolutiva es una fuente inagotable de sorpresas. En 1985, se descubrió que los gatos adquirieron un virogén de papión (un mono africano bastante agresivo) en algún lugar a orillas del mediterráneo, hace de cinco a diez millones de años. El mecanismo fue el siguiente: un retrovirus atacó a un papión, incorporando a su genoma uno de los genes del simio. Posteriormente, los descendientes de este retrovirus llegaron de algún modo a parasitar a un único gato o a un pequeño número de gatos que pasaban por allí, transfiriendo el gen del simio al genoma del felino. Toda esta secuencia de acontecimientos ha podido ser reconstruida mediante comparaciones entre algunos de los genes de ambos animales. Del mismo modo, se sabe que existen en ciertos peces genes que fueron de bacterias y también, en ciertas bacterias, ¡genes que fueron de peces!. Los procedimientos "artificiales" de la ingeniería genética para fabricar quimeras no parecen ahora tan nuevos; la evolución los había inventado ya hace millones de años. Es prácticamente seguro que la investigación conjunta de los genomas de varios organismos, aportará muchas otras sorpresas de este tipo.

La lista completa de organismos cuyos genomas están siendo, o han sido ya, secuenciados se da a continuación. (Octubre de 1996).
 
Clasificación Genomas a secuenciar Estado
VIRUS 141 virus distintos YA SECUENCIADOS
ORGÁNULOS 51 orgánulos (mitocondrias y cloroplastos) 
de diferentes especies
YA SECUENCIADOS
EUBACTERIAS Y ARQUEOBACTERIAS Mycoplasma genitalium
Haemophilus influenzae
Helicobacter pilori
Mycoplasma pneumoniae
Synechocystis sp.
Methanococcus jannaschii
Methanobacterium thermoautotrophicum

Al menos otras dos docenas de procariotas

YA SECUENCIADO 
YA SECUENCIADO 
YA SECUENCIADO 
YA SECUENCIADO 
YA SECUENCIADO 
YA SECUENCIADO 

YA SECUENCIADO 

En proceso de secuenciamiento

EUCARIOTAS Saccharomyces cerevisiae (levadura)
Schizosaccharomyces pombe (levadura) 
Candida albicans (hongo parásito)
Caenorhabditis elegans (gusano nematodo)
Drosophila melanogaster (mosca de la fruta)
Arabidopsis thaliana (hierba de Thales)
Oryza sativa (arroz)
Mus musculus (ratón común) 
Homo sapiens (hombre)
YA SECUENCIADO 
Estimado para 1998 
Avanza lentamente 

Estimado para 1998 

Recién comenzado 
Recién comenzado 
Recién comenzado 
Recién comenzado 
Estimado para 2005

Conoce a tus enemigos

Hasta octubre de 1996, los genomas de tres organismos procariotas habían sido secuenciados y publicados, estando disponibles públicamente en Internet. Se trata de las eubacterias patógenas Mycoplasma genitalium (0.6 Mb) y Haemophilus influenzae (1.8 Mb) y la arqueobacteria Methanococcus jannaschii (1.7 Mb). Se supone que otros cuatro genomas procarióticos han sido ya completados, pero no han sido puestos a disposición del público.
Los Micoplasmas constituyen un grupo de bacterias que carecen de pared celular y que incluyen tanto especies patógenas como otras que forman parte de la flora microbiana normal humana. Poseen, posiblemente, los genomas de menor tamaño de todos los procariotas. Mycoplasma genitalium es una bacteria gram-negativa que posee el genoma más pequeño (600 kb) de todos los organismos conocidos que son capaces de reproducirse independientemente. Esto explica por qué ha sido uno de los primeros genomas de organismos no virales que han sido completamente secuenciados. Su pariente cercano, Mycoplasma pneumoniae, que es el causante de la neumonía atípica, posee un genoma de similar tamaño. Ambos microorganismos están morfológica y serológicamente relacionados. El éxito de su parasitismo parece estar relacionado con el producto de uno de sus genes, la proteína denominada adhesina, que sirve para adherirse a las células humanas durante la infección. La adhesina y otras proteínas relacionadas son necesarias para que se produzca la adhesión y se desarrolle la enfermedad.
La historia natural de M. genitalium no está tan bien caracterizada como la de M. pneumoniae. El ADN de M. genitalium ha sido hallado en tejidos pulmonares de adultos hospitalizados y en muestras de pacientes con infecciones urogenitales. Se cree que M. genitalium puede ser la causa de la uretritis no gonocócica y que el tracto urogenital puede ser la zona primaria de infección. La presencia del microorganismo es más común en personas homosexuales que heterosexuales.
El genoma de M. genitalium fue completamente elucidado en 1995. Su cromosoma circular posee 580.073 pares de bases. El contenido en G y C de los Micoplasmas es considerablemente menor a la media de otros organismos, variando entre el 27 y el 37%. M. genitalium tiene un contenido en G y C del 32%. El análisis del genoma predice la sorprendentemente pequeña cantidad de 470 regiones codificadoras. 374 de estas regiones corresponden a genes cuyos productos génicos han sido identificados por comparación con otras secuencias de las bases de datos, como proteínas implicadas en la replicación del ADN, la transcripción y la traducción, la reparación del ADN, el transporte celular y el metabolismo energético. 96 regiones codificantes no parecen tener homologías con las secuencias conocidas en las bases de datos. Una característica interesante de la genética de M. genitalium es que el codón UGA, que normalmente representa una señal de parada, codifica en este organismo por el aminoácido triptófano.

Mycoplasma genitalium mostrando su adhesión a células renales de mono verde africano (flechas azules).

Cabe esperar que la investigación en sus genomas nos provea de técnicas de tratamiento específico contra los micoplasmas. La lucha por bloquear la proteína adhesina u otras proteínas relacionadas con la adhesión parece ser muy esperanzadora.

Haemophilus influenzae es una bacteria gram-negativa que fue aislada durante la epidemia de gripe de 1890, siendo culpada inicialmente de provocar esta enfermedad, cuyo agente ahora sabemos que se trata de un virus. H. influenzae es única entre las bacterias anaeróbicas facultativas (se denominan así los microorganismos que pueden crecer en presencia de oxígeno o en su ausencia), ya que depende estrictamente del aporte externo del grupo hemo (un compuesto químico que entra a formar parte, como cofactor, de la hemoglobina y de otras proteínas relacionadas con la cadena respiratoria) para poder crecer de forma aeróbica. Existen seis tipos capsulares distintos de H. influenzae, denominados desde a hasta f. La cepa no patógena Rd fue la que, finalmente, fue completamente secuenciada. Existen otras cepas de H. influenzae que son parte de la flora normal del tracto respiratorio superior. El 95% de las infecciones sistémicas en la infancia son causadas por el serotipo b de esta bacteria. Esto incluye los típicos resfriados, pero también meningitis, sepsis, epiglotitis, neumonía y otitis media. La meningitis bacteriana y la epiglotitis debidas a H. influenzae son enfermedades muy graves, con una mortandad del 5 al 25% de los afectados. Además, deja graves secuelas en el 35% de los afectados de meningitis. Estas estadísticas hacen el estudio de H. influenzae un capítulo importante de la lucha contra las enfermedades infantiles.


Haemophilus influenzae adherido a células epiteliales humanas

H. influenzae está desarrollando, cada vez más, resistencia a los antibióticos más comunes. El primer hallazgo de una cepa resistente a ampicilina data de 1984. La investigación farmacológica actual se centra en el desarrollo de nuevos antibióticos dirigidos específicamente contra este microorganismo. Se ha hallado además una asociación bastante clara entre la infección por H. influenzae y la infección por el virus del S.I.D.A. (HIV).
La única diferencia entre la cepa no infecciosa Rd y las terribles cepas b de H. influenzae consiste en la presencia en esta última de una serie de ocho genes en tándem, que codifican proteínas fimbriales. Las fimbrias son factores de colonización que permiten la adherencia de las bacterias a las células humanas. El genoma completo de H. influenzae fue el primero correspondiente a un organismo autónomo que se terminó, en 1995. El cromosoma circular de este microorganismo posee 1.830.140 pares de bases. el contenido total en G y C es de un 38%. Los autores identificaron 1743 genes potencialmente codificadores de proteínas. 1007 de ellos concordaban con proteínas homólogas en las bases de datos. 347 se parecían a proteínas hipotéticas (proteínas para las cuáles se conoce el gen, pero cuya presencia real no ha sido confirmada) y 389 no parecían tener homólogos conocidos. Recientemente, el genoma de H. influenzae ha sido reanalizado, encontrando un nuevo conjunto de genes homólogos a las nuevas entradas de las bases de datos.
 

Una arqueobacteria nos enseña historia

En 1983, una muestra de sedimentos tomada de una fumarola volcánica submarina, recogida por un batiscafo que exploraba el fondo de la costa de la península de Baja California, México, mostró la presencia de un nuevo organismo unicelular, que fue denominado Methanococcus jannaschii, en honor del microbiólogo marino Holger Jannasch. El estudio de esta forma de vida, previamente desconocida, ha revelado varios hechos notables, relacionados con una de las discusiones más antiguas de la biología: la clasificación de todas las formas de vida. Varias características de Methanococcus jannaschii hacen que se incluya a este organismo en la categoría de las Arqueobacterias, un grupo aparte de seres propuesto inicialmente en 1977 por Carl Woese. Las otras dos grandes ramas del árbol de la vida son los Procariotas, que carecen de núcleo e incluyen las bacterias tradicionales o "Eubacterias" y los Eucariotas, que poseen núcleo e incluyen protozoos, hongos, algas, plantas y animales. Las Arqueobacterias, o Arqueones, poseen características a medio camino entre los procariotas y los organismos superiores; por ejemplo, carecen de núcleo, pero también tienen varios caracteres eucarióticos. M. jannaschii muestra una gran variedad de características inusuales: como metanógeno, es capaz de producir metano (gas natural), es un microorganismo termofílico, capaz de vivir a temperaturas entre 48 y 94 ºC, es un anaerobio estricto (muere cuando se sitúa en presencia de oxígeno) y un autótrofo (obtiene toda su energía de fuentes inorgánicas). Este organismo vive a presiones superiores a las 200 atmósferas, usa hidrógeno y dióxido de carbono como sustratos para su crecimiento y la formación de metano, y es capaz de fijar nitrógeno. Otra característica sobresaliente (en el sentido literal de la palabra) de M. jannaschii es la presencia de dos conjuntos de flagelos en una formación parecida a un sacacorchos, que se encuentran insertados en un mismo punto de la superficie celular.
 
Methanococcus jannaschii mostrando sus dos conjuntos de flagelos. La célula aparece oscura debido a la tinción negativa.

El genoma de M. jannaschii fue el cuarto cuya secuencia fue completamente analizada, en 1996. Los genomas de dos eubacterias y de un eucariota son también completamente conocidos. Con esta información, los biólogos son capaces de establecer comparaciones entre las tres ramas principales del árbol de la vida, sus dotaciones genéticas y su bioquímica. Estos estudios también pueden ser importantes para comprender el origen de la vida. Por ejemplo, alrededor del 60% de los genes de M. jannaschii no presentan homología con ninguno de los genes procariotas o eucariotas que se encuentran en las bases de datos. El 40% que sí la presentan, muestran parecidos tanto con bacterias como con eucariotas. Las secuencias relacionadas con genes bacterianos son las que regulan la producción de energía, la división celular y el metabolismo, mientras que los genes implicados en la transcripción, la traducción y la replicación del ADN son similares a sus homólogos eucarióticos. El genoma de M. jannaschii consiste en tres elementos diferenciados; el cromosoma circular principal y dos elementos extracromosómicos circulares, uno mayor y otro menor. El cromosoma posee 1.664.976 pares de bases (contenido en G y C del 31.4%); los elementos extracromosómicos, 58.407 pb (28.2% de G y C) y 16.550 pb (28.8% de G y C). Existen un total de 1738 regiones potencialmente codificadoras, 1682 en el cromosoma, 44 en el elemento extracromosómico mayor y 12 en el menor. La función de los elementos extracromosómicos es aún desconocida y los genes que estos portan pertenecen al 60% de los genes sin homología conocida. La secuenciación ha sido llevada a cabo mediante la colaboración de organismos públicos (Centro Nacional para Recursos Genómicos, Univ. de Illinois y Univ. Johns Hopkins) y privados (TIGR).


A. Célula de M. jannaschii mostrando los ribosomas (flecha azul), la membrana plasmática (flecha roja) y la pared celular (flecha amarilla), con sus diseños regulares característicos (flechas verdes). B. Envoltura celular mostrando las sucesivas capas; es visible una capa interna a la membrana plasmática (flecha negra). Parece que esta capa es discontinua en algunos puntos. C. Sección de la célula. La flecha azul señala los cuerpos de inclusión, de función desconocida. La capa adicional de la figura B se muestra también (flecha amarilla).

El estudio del genoma de M. jannaschii nos enseña varias cosas sobre biología evolutiva. Los tres grupos de organismos, arqueones, bacterias y eucariotas parecen compartir un antecesor común, habiendo divergido hace unos 3.000 millones de años. Los arqueones y las bacterias comparten características estructurales y de organización tales como los genomas circulares y los genes organizados en operones. Las arqueobacterias son también similares a las bacterias en su metabolismo, pareciendo que sus rutas bioquímicas se derivan del antecesor común. Los arqueones muestran similaridades con los eucariotas en cuanto al procesamiento de la información celular y los sistemas de secreción de sustancias al medio. El refinamiento de los sistemas de transcripción y traducción parecen indicar que los arqueones y los eucariotas comparten rutas bioquímicas comunes e independientes de su linaje bacteriano. Se piensa que el estudio de los genes bacterianos y arqueobacterianos llevará a una explicación de la existencia de la vida en nuestro planeta.


El árbol de la vida, mostrando sus tres grandes ramas divergentes.

La vida con 6000 genes

Se puede considerar a la secuenciación completa del primer organismo eucariota, la levadura Saccharomyces cerevisiae, en abril de 1996, como un triunfo de la visión descentralizadora de la biología molecular europea; aunque, en realidad, el genoma completo de este organismo, que tan obedientemente nos ayuda a fabricar la cerveza desde tiempo inmemorial, fue completamente secuenciado gracias al esfuerzo conjunto de unos seiscientos científicos en Europa, Norteamérica y Japón.
Es el mayor genoma secuenciado hasta la fecha, aunque se espera que se bata este record muy pronto. Consta de 12.068 kilobases, repartidas en 16 cromosomas. En su dotación genética se han encontrado 5.885 genes con capacidad potencial para codificar productos proteicos, junto con 140 genes que codifican ARN ribosómico (que forma parte estructural de los ribosomas), 40 genes para ARNs nucleares pequeños (implicados en el splicing y en otras funciones variadas en el núcleo celular) y 275 genes para ARNs de transferencia (los implicados en la síntesis de proteínas).
La posición de S. cerevisiae como organismo modelo se debe a sus ventajas intrínsecas como sistema experimental. Es un organismo unicelular que puede (a diferencia de la gran mayoría de eucariotas) crecer en un medio artificial de composición definida, lo que proporciona un control total sobre su ambiente físico y químico. Las levaduras poseen un ciclo vital que es ideal para los análisis de genética clásica y esto ha permitido la construcción de un mapa genético detallado de sus dieciséis cromosomas. Más aún, han sido desarrolladas técnicas que permiten la sustitución de cualquiera de sus 6.000 genes por un alelo mutante, o su completa deleción del genoma. La combinación de un genoma de tamaño relativamente pequeño, repartido entre un número relativamente grande de cromosomas, permitió dividir fácilmente el trabajo entre los diferentes grupos internacionales de investigación que participaron en el proyecto.
La característica fundamental del genoma de S. cerevisiae es su compacidad, encontrándose un gen por cada 2 kb de genoma, en comparación con los genomas de C. elegans (un gen cada 6 kb) y humano (un gen cada 30 kb). Incluso es un genoma compacto comparado con otras levaduras y hongos, como la Schizosaccharomyces pombe, que contiene un gen cada 2.3 kb. Aproximadamente el 70% de la longitud total del ADN de S. cerevisiae se traduce a proteínas. Esto se debe a la notable ausencia de intrones en las secuencias de los genes de S. cerevisiae; únicamente un 4% de los genes codificantes poseen intrones (la mayoría de ellos son los que codifican proteínas ribosómicas, que suelen contener un único intrón al comienzo de sus secuencia), frente al 40% de los genes de S. pombe, que poseen intrones. Incluso se ha sugerido que la mayoría de los genes actuales de S. cerevisiae son, en realidad, ADNc procedente del ARN mensajero, generado por la acción de retrotranscriptasas especificadas mediante los retrotransposones (elementos Ty) que se encuentran en número elevado en el genoma de la levadura.
Con la secuenciación completa del genoma de S. cerevisiae, se conoce por primera vez el proteoma completo de un organismo eucariótico. El término proteoma ha sido acuñado para definir la dotación completa de proteínas de que un organismo dispone para desarrollar sus tareas vitales. El análisis del proteoma de S. cerevisiae permite clasificar un 50% de las proteínas teóricamente codificadas, en base a sus homologías con otras proteínas de las bases de datos. Estas proteínas de función potencial conocida se pueden clasificar de la siguiente forma: un 11% del proteoma se dedica al metabolismo, el 3% a la producción y almacenamiento de energía, el 3% a la replicación, reparación y recombinación del ADN, el 7% a la transcripción y el 6% a la traducción. Un total de 430 proteínas están implicadas en el tráfico intracelular o traslocación de proteínas de un compartimiento celular a otro y 250 proteínas poseen funciones estructurales. Se han identificado cerca de 200 factores de transcripción, así como 250 transportadores primarios y secundarios. Estas estadísticas se refieren únicamente a proteínas cuyos homólogos son conocidos.
Durante cierto tiempo, ha sido un artículo de fe la creencia de que comprender el genoma de la levadura era un hecho crucial para la comprensión del genoma humano. Esto ha sido demostrado ahora, ya que más de la mitad de las proteínas cuyas mutaciones causan enfermedades genéticas en el hombre poseen homología en su secuencia con proteínas de la levadura. Aunque es evidente que el genoma humano codifica muchas más proteínas, es razonable suponer que la mayoría de las proteínas de la levadura poseen homólogos en las células humanas. Si es así, dichas proteínas humanas podrán ser clasificadas en base a su equivalencia funcional o estructural con aquellas del proteoma de la levadura.
Ahora que se conoce el genoma completo de S. cerevisiae, los genomas de otras levaduras de interés industrial o médico están al alcance de nuestro conocimiento. La secuenciación completa del genoma de estas especies puede ser innecesaria, si se confirma la sospecha de que numerosas especies de levaduras y hongos muestran un alto grado de sintenia (conservación del orden de los genes). Por ejemplo, estudios recientes sobre Ashbya gosypii (un hongo filamentoso que parasita las plantas de algodón) demuestran que la mayoría de sus genes muestran homologías con los de S. cerevisiae, y que al menos la cuarta parte de los clones de este hongo que se encuentran en los bancos de datos poseen grupos de genes en el mismo orden y orientación relativa que los de sus equivalentes en S. cerevisiae. Esto proporciona considerables esperanzas sobre el rápido análisis de un gran número de organismos relacionados, tomando el genoma de S. cerevisiae como paradigma.