Segunda parte: GENOMA
¡Datos, Watson, necesito datos! No se puede construir
una casa sin ladrillos.
Sir Arthur Conan Doyle, Estudio en escarlata
CAPÍTULO 4. LOS OTROS PROYECTOS GENOMA
Cuando se acordaba de los primeros inicios de todas
las cosas, le inundaba una caridad todavía mayor y daba a los animales
mudos, por pequeños que fueran, los nombres de hermano y hermana,
puesto que reconocía en ellos el mismo origen que en sí mismo.
San Buenaventura, La vida de San Francisco
No es bueno que el hombre esté solo
Casi desde el mismo comienzo de la idea de secuenciar el genoma humano,
la mayoría de los biólogos estuvieron de acuerdo en que sería
mucho más útil tener datos sobre genomas de otros organismos
relacionados. La utilidad es clara, desde el punto de vista de que resulta
éticamente imposible realizar experimentos de genética humana.
A nadie se le ocurriría modificar deliberadamente un par de bases
del ADN humano, e implantar el óvulo así fecundado en el
útero de una mujer, sólo para ver qué ocurre. Pero
los experimentos genéticos con bacterias, levaduras o ratones, por
ejemplo, no plantean tantos problemas. Esta consideración, unida
al hecho de que la gran mayoría de los genes presentes en el genoma
humano se espera que tengan su contrapartida en los genomas de otras especies
filogenéticamente relacionadas, explica por qué puede merecer
la pena gastar semejante cantidad de esfuerzo y de dinero en la secuenciación
de otros genomas, algunos de ellos tan grandes como el nuestro.
Uno de los problemas con los que nos encontraremos cuando tengamos
secuenciado el genoma humano, será que tendremos miles de secuencias
que posiblemente codifiquen proteínas de las cuales sólo
podremos conocer su secuencia de aminoácidos; a partir de la secuenciación
del ADN, no podremos saber nada directamente sobre su bioquímica,
su estructura o su función. En muchas ocasiones, será posible
deducir indirectamente algunos de estos rasgos, por comparación
con otras proteínas conocidas en otros organismos diferentes, con
las cuales la secuencia de la proteína en cuestión presente
homología.
Es por ello que, en la actualidad, se están llevando a cabo,
o se han completado ya, proyectos para secuenciar los genomas completos
de algunos organismos escogidos. Se trata de organismos que podrían
resultar válidos como modelos de la genética humana, como
el ratón, o que presentan potencial como fuente de alimentación,
como el arroz, o que pueden tener importancia industrial o médica,
como los genomas de algunas bacterias o protozoos parásitos. Por
último, otros organismos cuyos genomas están siendo secuenciados
no tienen características especiales que los distingan especialmente
de otros; sencillamente, han tenido la suerte (o la desgracia) de resultar
simpáticos a los biólogos y se está trabajando en
ellos por mero amor a la ciencia. En esta categoría entran la planta
Arabidopsis
thaliana, el nematodo Caenorhabditis elegans o la mosca de la
fruta.
El estudio de todos estos genomas de organismos no humanos nos permitirá
avances sin precedentes en la historia de la biología evolutiva.
Ya se han producido las primeras sorpresas, una de las cuáles ha
sido el descubrimiento de que las llamadas "arqueobacterias", seres procariotas
con características bioquímicas "excéntricas", consideradas,
hasta hace muy poco tiempo, como muy primitivas y evolutivamente anteriores
a las bacterias verdaderas o "eubacterias", están genéticamente
más relacionadas con las células eucariotas que con las eubacterias.
Esto ha cambiado la forma del árbol evolutivo principal, como veremos
más adelante.
La genética evolutiva es una fuente inagotable de sorpresas.
En 1985, se descubrió que los gatos adquirieron un virogén
de papión (un mono africano bastante agresivo) en algún lugar
a orillas del mediterráneo, hace de cinco a diez millones de años.
El mecanismo fue el siguiente: un retrovirus atacó a un papión,
incorporando a su genoma uno de los genes del simio. Posteriormente, los
descendientes de este retrovirus llegaron de algún modo a parasitar
a un único gato o a un pequeño número de gatos que
pasaban por allí, transfiriendo el gen del simio al genoma del felino.
Toda esta secuencia de acontecimientos ha podido ser reconstruida mediante
comparaciones entre algunos de los genes de ambos animales. Del mismo modo,
se sabe que existen en ciertos peces genes que fueron de bacterias y también,
en ciertas bacterias, ¡genes que fueron de peces!. Los procedimientos
"artificiales" de la ingeniería genética para fabricar quimeras
no parecen ahora tan nuevos; la evolución los había inventado
ya hace millones de años. Es prácticamente seguro que la
investigación conjunta de los genomas de varios organismos, aportará
muchas otras sorpresas de este tipo.
La lista completa de organismos cuyos genomas están siendo, o
han sido ya, secuenciados se da a continuación. (Octubre de 1996).
| Clasificación |
Genomas a secuenciar |
Estado |
| VIRUS |
141 virus distintos |
YA SECUENCIADOS |
| ORGÁNULOS |
51 orgánulos (mitocondrias y cloroplastos)
de diferentes especies |
YA SECUENCIADOS |
| EUBACTERIAS Y ARQUEOBACTERIAS |
Mycoplasma genitalium
Haemophilus influenzae
Helicobacter pilori
Mycoplasma pneumoniae
Synechocystis sp.
Methanococcus jannaschii
Methanobacterium thermoautotrophicum
Al menos otras dos docenas de procariotas |
YA SECUENCIADO
YA SECUENCIADO
YA SECUENCIADO
YA SECUENCIADO
YA SECUENCIADO
YA SECUENCIADO
YA SECUENCIADO
En proceso de secuenciamiento |
| EUCARIOTAS |
Saccharomyces cerevisiae (levadura)
Schizosaccharomyces pombe (levadura)
Candida albicans (hongo parásito)
Caenorhabditis elegans (gusano nematodo)
Drosophila melanogaster (mosca de la fruta)
Arabidopsis thaliana (hierba de Thales)
Oryza sativa (arroz)
Mus musculus (ratón común)
Homo sapiens (hombre) |
YA SECUENCIADO
Estimado para 1998
Avanza lentamente
Estimado para 1998
Recién comenzado
Recién comenzado
Recién comenzado
Recién comenzado
Estimado para 2005 |
Conoce a tus enemigos
Hasta octubre de 1996, los genomas de tres organismos procariotas habían
sido secuenciados y publicados, estando disponibles públicamente
en Internet. Se trata de las eubacterias patógenas Mycoplasma
genitalium (0.6 Mb) y Haemophilus influenzae (1.8 Mb)
y la arqueobacteria Methanococcus jannaschii (1.7 Mb). Se supone
que otros cuatro genomas procarióticos han sido ya completados,
pero no han sido puestos a disposición del público.
Los Micoplasmas constituyen un grupo de bacterias que carecen de pared
celular y que incluyen tanto especies patógenas como otras que forman
parte de la flora microbiana normal humana. Poseen, posiblemente, los genomas
de menor tamaño de todos los procariotas.
Mycoplasma genitalium
es una bacteria gram-negativa que posee el genoma más pequeño
(600 kb) de todos los organismos conocidos que son capaces de reproducirse
independientemente. Esto explica por qué ha sido uno de los primeros
genomas de organismos no virales que han sido completamente secuenciados.
Su pariente cercano, Mycoplasma pneumoniae, que es el causante de
la neumonía atípica, posee un genoma de similar tamaño.
Ambos microorganismos están morfológica y serológicamente
relacionados. El éxito de su parasitismo parece estar relacionado
con el producto de uno de sus genes, la proteína denominada adhesina,
que sirve para adherirse a las células humanas durante la infección.
La adhesina y otras proteínas relacionadas son necesarias para que
se produzca la adhesión y se desarrolle la enfermedad.
La historia natural de M. genitalium no está tan bien
caracterizada como la de M. pneumoniae. El ADN de M. genitalium
ha sido hallado en tejidos pulmonares de adultos hospitalizados y en muestras
de pacientes con infecciones urogenitales. Se cree que M. genitalium
puede ser la causa de la uretritis no gonocócica y que el tracto
urogenital puede ser la zona primaria de infección. La presencia
del microorganismo es más común en personas homosexuales
que heterosexuales.
El genoma de M. genitalium fue completamente elucidado en 1995.
Su cromosoma circular posee 580.073 pares de bases. El contenido en G y
C de los Micoplasmas es considerablemente menor a la media de otros organismos,
variando entre el 27 y el 37%. M. genitalium tiene un contenido
en G y C del 32%. El análisis del genoma predice la sorprendentemente
pequeña cantidad de 470 regiones codificadoras. 374 de estas regiones
corresponden a genes cuyos productos génicos han sido identificados
por comparación con otras secuencias de las bases de datos, como
proteínas implicadas en la replicación del ADN, la transcripción
y la traducción, la reparación del ADN, el transporte celular
y el metabolismo energético. 96 regiones codificantes no parecen
tener homologías con las secuencias conocidas en las bases de datos.
Una característica interesante de la genética de M. genitalium
es que el codón UGA, que normalmente representa una señal
de parada, codifica en este organismo por el aminoácido triptófano.
Mycoplasma genitalium mostrando su adhesión
a células renales de mono verde africano (flechas azules).
Cabe esperar que la investigación en sus genomas nos provea de
técnicas de tratamiento específico contra los micoplasmas.
La lucha por bloquear la proteína adhesina u otras proteínas
relacionadas con la adhesión parece ser muy esperanzadora.
Haemophilus influenzae es una bacteria gram-negativa que fue
aislada durante la epidemia de gripe de 1890, siendo culpada inicialmente
de provocar esta enfermedad, cuyo agente ahora sabemos que se trata de
un virus. H. influenzae es única entre las bacterias anaeróbicas
facultativas (se denominan así los microorganismos que pueden crecer
en presencia de oxígeno o en su ausencia), ya que depende estrictamente
del aporte externo del grupo hemo (un compuesto químico que entra
a formar parte, como cofactor, de la hemoglobina y de otras proteínas
relacionadas con la cadena respiratoria) para poder crecer de forma aeróbica.
Existen seis tipos capsulares distintos de H. influenzae, denominados
desde a hasta f. La cepa no patógena Rd fue la que, finalmente,
fue completamente secuenciada. Existen otras cepas de H. influenzae
que son parte de la flora normal del tracto respiratorio superior. El 95%
de las infecciones sistémicas en la infancia son causadas por el
serotipo b de esta bacteria. Esto incluye los típicos resfriados,
pero también meningitis, sepsis, epiglotitis, neumonía y
otitis media. La meningitis bacteriana y la epiglotitis debidas a H.
influenzae son enfermedades muy graves, con una mortandad del 5 al
25% de los afectados. Además, deja graves secuelas en el 35% de
los afectados de meningitis. Estas estadísticas hacen el estudio
de H. influenzae un capítulo importante de la lucha contra
las enfermedades infantiles.
Haemophilus influenzae adherido a células
epiteliales humanas
H. influenzae está desarrollando, cada vez más,
resistencia a los antibióticos más comunes. El primer hallazgo
de una cepa resistente a ampicilina data de 1984. La investigación
farmacológica actual se centra en el desarrollo de nuevos antibióticos
dirigidos específicamente contra este microorganismo. Se ha hallado
además una asociación bastante clara entre la infección
por H. influenzae y la infección por el virus del S.I.D.A.
(HIV).
La única diferencia entre la cepa no infecciosa Rd y las terribles
cepas b de H. influenzae consiste en la presencia en esta última
de una serie de ocho genes en tándem, que codifican proteínas
fimbriales. Las fimbrias son factores de colonización que permiten
la adherencia de las bacterias a las células humanas. El genoma
completo de H. influenzae fue el primero correspondiente a un organismo
autónomo que se terminó, en 1995. El cromosoma circular de
este microorganismo posee 1.830.140 pares de bases. el contenido total
en G y C es de un 38%. Los autores identificaron 1743 genes potencialmente
codificadores de proteínas. 1007 de ellos concordaban con proteínas
homólogas en las bases de datos. 347 se parecían a proteínas
hipotéticas (proteínas para las cuáles se conoce el
gen, pero cuya presencia real no ha sido confirmada) y 389 no parecían
tener homólogos conocidos. Recientemente, el genoma de H. influenzae
ha sido reanalizado, encontrando un nuevo conjunto de genes homólogos
a las nuevas entradas de las bases de datos.
Una arqueobacteria nos enseña historia
En 1983, una muestra de sedimentos tomada de una fumarola volcánica
submarina, recogida por un batiscafo que exploraba el fondo de la costa
de la península de Baja California, México, mostró
la presencia de un nuevo organismo unicelular, que fue denominado
Methanococcus
jannaschii, en honor del microbiólogo marino Holger Jannasch.
El estudio de esta forma de vida, previamente desconocida, ha revelado
varios hechos notables, relacionados con una de las discusiones más
antiguas de la biología: la clasificación de todas las formas
de vida. Varias características de Methanococcus jannaschii
hacen que se incluya a este organismo en la categoría de las Arqueobacterias,
un grupo aparte de seres propuesto inicialmente en 1977 por Carl Woese.
Las otras dos grandes ramas del árbol de la vida son los Procariotas,
que carecen de núcleo e incluyen las bacterias tradicionales o "Eubacterias"
y los Eucariotas, que poseen núcleo e incluyen protozoos, hongos,
algas, plantas y animales. Las Arqueobacterias, o Arqueones, poseen características
a medio camino entre los procariotas y los organismos superiores; por ejemplo,
carecen de núcleo, pero también tienen varios caracteres
eucarióticos.
M. jannaschii muestra una gran variedad de
características inusuales: como metanógeno, es capaz de producir
metano (gas natural), es un microorganismo termofílico, capaz de
vivir a temperaturas entre 48 y 94 ºC, es un anaerobio estricto (muere
cuando se sitúa en presencia de oxígeno) y un autótrofo
(obtiene toda su energía de fuentes inorgánicas). Este organismo
vive a presiones superiores a las 200 atmósferas, usa hidrógeno
y dióxido de carbono como sustratos para su crecimiento y la formación
de metano, y es capaz de fijar nitrógeno. Otra característica
sobresaliente (en el sentido literal de la palabra) de M. jannaschii
es la presencia de dos conjuntos de flagelos en una formación parecida
a un sacacorchos, que se encuentran insertados en un mismo punto de la
superficie celular.
Methanococcus jannaschii mostrando sus dos conjuntos
de flagelos. La célula aparece oscura debido a la tinción
negativa.
El genoma de M. jannaschii fue el cuarto cuya secuencia fue completamente
analizada, en 1996. Los genomas de dos eubacterias y de un eucariota son
también completamente conocidos. Con esta información, los
biólogos son capaces de establecer comparaciones entre las tres
ramas principales del árbol de la vida, sus dotaciones genéticas
y su bioquímica. Estos estudios también pueden ser importantes
para comprender el origen de la vida. Por ejemplo, alrededor del 60% de
los genes de M. jannaschii no presentan homología con ninguno
de los genes procariotas o eucariotas que se encuentran en las bases de
datos. El 40% que sí la presentan, muestran parecidos tanto con
bacterias como con eucariotas. Las secuencias relacionadas con genes bacterianos
son las que regulan la producción de energía, la división
celular y el metabolismo, mientras que los genes implicados en la transcripción,
la traducción y la replicación del ADN son similares a sus
homólogos eucarióticos. El genoma de M. jannaschii
consiste en tres elementos diferenciados; el cromosoma circular principal
y dos elementos extracromosómicos circulares, uno mayor y otro menor.
El cromosoma posee 1.664.976 pares de bases (contenido en G y C del 31.4%);
los elementos extracromosómicos, 58.407 pb (28.2% de G y C) y 16.550
pb (28.8% de G y C). Existen un total de 1738 regiones potencialmente codificadoras,
1682 en el cromosoma, 44 en el elemento extracromosómico mayor y
12 en el menor. La función de los elementos extracromosómicos
es aún desconocida y los genes que estos portan pertenecen al 60%
de los genes sin homología conocida. La secuenciación ha
sido llevada a cabo mediante la colaboración de organismos públicos
(Centro Nacional para Recursos Genómicos, Univ. de Illinois y Univ.
Johns Hopkins) y privados (TIGR).
A. Célula de M. jannaschii mostrando los
ribosomas (flecha azul), la membrana plasmática (flecha roja) y
la pared celular (flecha amarilla), con sus diseños regulares característicos
(flechas verdes). B. Envoltura celular mostrando las sucesivas capas; es
visible una capa interna a la membrana plasmática (flecha negra).
Parece que esta capa es discontinua en algunos puntos. C. Sección
de la célula. La flecha azul señala los cuerpos de inclusión,
de función desconocida. La capa adicional de la figura B se muestra
también (flecha amarilla).
El estudio del genoma de M. jannaschii nos enseña varias
cosas sobre biología evolutiva. Los tres grupos de organismos, arqueones,
bacterias y eucariotas parecen compartir un antecesor común, habiendo
divergido hace unos 3.000 millones de años. Los arqueones y las
bacterias comparten características estructurales y de organización
tales como los genomas circulares y los genes organizados en operones.
Las arqueobacterias son también similares a las bacterias en su
metabolismo, pareciendo que sus rutas bioquímicas se derivan del
antecesor común. Los arqueones muestran similaridades con los eucariotas
en cuanto al procesamiento de la información celular y los sistemas
de secreción de sustancias al medio. El refinamiento de los sistemas
de transcripción y traducción parecen indicar que los arqueones
y los eucariotas comparten rutas bioquímicas comunes e independientes
de su linaje bacteriano. Se piensa que el estudio de los genes bacterianos
y arqueobacterianos llevará a una explicación de la existencia
de la vida en nuestro planeta.
El árbol de la vida, mostrando sus tres grandes
ramas divergentes.
La vida con 6000 genes
Se puede considerar a la secuenciación completa del primer organismo
eucariota, la levadura Saccharomyces cerevisiae, en abril de 1996,
como un triunfo de la visión descentralizadora de la biología
molecular europea; aunque, en realidad, el genoma completo de este organismo,
que tan obedientemente nos ayuda a fabricar la cerveza desde tiempo inmemorial,
fue completamente secuenciado gracias al esfuerzo conjunto de unos seiscientos
científicos en Europa, Norteamérica y Japón.
Es el mayor genoma secuenciado hasta la fecha, aunque se espera que
se bata este record muy pronto. Consta de 12.068 kilobases, repartidas
en 16 cromosomas. En su dotación genética se han encontrado
5.885 genes con capacidad potencial para codificar productos proteicos,
junto con 140 genes que codifican ARN ribosómico (que forma parte
estructural de los ribosomas), 40 genes para ARNs nucleares pequeños
(implicados en el splicing y en otras funciones variadas en el núcleo
celular) y 275 genes para ARNs de transferencia (los implicados en la síntesis
de proteínas).
La posición de S. cerevisiae como organismo modelo se
debe a sus ventajas intrínsecas como sistema experimental. Es un
organismo unicelular que puede (a diferencia de la gran mayoría
de eucariotas) crecer en un medio artificial de composición definida,
lo que proporciona un control total sobre su ambiente físico y químico.
Las levaduras poseen un ciclo vital que es ideal para los análisis
de genética clásica y esto ha permitido la construcción
de un mapa genético detallado de sus dieciséis cromosomas.
Más aún, han sido desarrolladas técnicas que permiten
la sustitución de cualquiera de sus 6.000 genes por un alelo mutante,
o su completa deleción del genoma. La combinación de un genoma
de tamaño relativamente pequeño, repartido entre un número
relativamente grande de cromosomas, permitió dividir fácilmente
el trabajo entre los diferentes grupos internacionales de investigación
que participaron en el proyecto.
La característica fundamental del genoma de S. cerevisiae
es su compacidad, encontrándose un gen por cada 2 kb de genoma,
en comparación con los genomas de C. elegans (un gen cada
6 kb) y humano (un gen cada 30 kb). Incluso es un genoma compacto comparado
con otras levaduras y hongos, como la Schizosaccharomyces pombe,
que contiene un gen cada 2.3 kb. Aproximadamente el 70% de la longitud
total del ADN de S. cerevisiae se traduce a proteínas. Esto
se debe a la notable ausencia de intrones en las secuencias de los genes
de S. cerevisiae; únicamente un 4% de los genes codificantes
poseen intrones (la mayoría de ellos son los que codifican proteínas
ribosómicas, que suelen contener un único intrón al
comienzo de sus secuencia), frente al 40% de los genes de S. pombe,
que poseen intrones. Incluso se ha sugerido que la mayoría de los
genes actuales de S. cerevisiae son, en realidad, ADNc procedente
del ARN mensajero, generado por la acción de retrotranscriptasas
especificadas mediante los retrotransposones (elementos Ty) que se encuentran
en número elevado en el genoma de la levadura.
Con la secuenciación completa del genoma de S. cerevisiae,
se conoce por primera vez el proteoma completo de un organismo eucariótico.
El término proteoma ha sido acuñado para definir la dotación
completa de proteínas de que un organismo dispone para desarrollar
sus tareas vitales. El análisis del proteoma de S. cerevisiae
permite clasificar un 50% de las proteínas teóricamente codificadas,
en base a sus homologías con otras proteínas de las bases
de datos. Estas proteínas de función potencial conocida se
pueden clasificar de la siguiente forma: un 11% del proteoma se dedica
al metabolismo, el 3% a la producción y almacenamiento de energía,
el 3% a la replicación, reparación y recombinación
del ADN, el 7% a la transcripción y el 6% a la traducción.
Un total de 430 proteínas están implicadas en el tráfico
intracelular o traslocación de proteínas de un compartimiento
celular a otro y 250 proteínas poseen funciones estructurales. Se
han identificado cerca de 200 factores de transcripción, así
como 250 transportadores primarios y secundarios. Estas estadísticas
se refieren únicamente a proteínas cuyos homólogos
son conocidos.
Durante cierto tiempo, ha sido un artículo de fe la creencia
de que comprender el genoma de la levadura era un hecho crucial para la
comprensión del genoma humano. Esto ha sido demostrado ahora, ya
que más de la mitad de las proteínas cuyas mutaciones causan
enfermedades genéticas en el hombre poseen homología en su
secuencia con proteínas de la levadura. Aunque es evidente que el
genoma humano codifica muchas más proteínas, es razonable
suponer que la mayoría de las proteínas de la levadura poseen
homólogos en las células humanas. Si es así, dichas
proteínas humanas podrán ser clasificadas en base a su equivalencia
funcional o estructural con aquellas del proteoma de la levadura.
Ahora que se conoce el genoma completo de S. cerevisiae, los
genomas de otras levaduras de interés industrial o médico
están al alcance de nuestro conocimiento. La secuenciación
completa del genoma de estas especies puede ser innecesaria, si se confirma
la sospecha de que numerosas especies de levaduras y hongos muestran un
alto grado de sintenia (conservación del orden de los genes). Por
ejemplo, estudios recientes sobre Ashbya gosypii (un hongo filamentoso
que parasita las plantas de algodón) demuestran que la mayoría
de sus genes muestran homologías con los de S. cerevisiae,
y que al menos la cuarta parte de los clones de este hongo que se encuentran
en los bancos de datos poseen grupos de genes en el mismo orden y orientación
relativa que los de sus equivalentes en S. cerevisiae. Esto proporciona
considerables esperanzas sobre el rápido análisis de un gran
número de organismos relacionados, tomando el genoma de S. cerevisiae
como paradigma.
