Tema 1. Introducción

Importancia de la Bioinformática

La secuenciación del ADN mediante la tecnología Sanger (uso de di-deoxinuclueótidos como terminadores) es una técnica a la que cualquier persona puede acceder en cualquier momento y a un precio extremadamente asequible. Basta aislar un fragmento de PCR o aislar un plásmido y mandarlo a cualquiera de los servicios de secuenciación disponibles hoy día. Estas empresas te recogen su muestra, las secuencian, y te envían los resultados mediante correo electrónico en unos pocos días. El usuario final solo debe procesar los archivos enviados, que son normalmente un cromatograma proveniente de la electroforesis capilar y la secuencia analizada y extraida por el propio equipo.

Muchos de los avances que se producen hoy día provienen de la información obtenida a partir de la secuenciación de los ácidos nucleicos. Al principio, ya seamos expertos o no en el área de la Biología Molecular, estas secuencias no representan más que un galimatías incomprensible formado por un abecedario de solo 4 letras (A, C, G y T). Aquí teneis un ejemplo

CCTAGCCTAACGTCAAAGCAATGCCGATCCATCCGATCCATTAGGC
AACACTCTTGTGTTCGTCAGTATGAAGGCTTTTACTCACATCAAGG
TGGTCTGTTGAATCACCATCAATCTTGTAGGATGACAGCAACTTTC
TATGATCTTCAAAATCAGGACTTGTCAAATTCATGGATAGATTTCT
CATCAGCAATAACACCGTTTCAACATCTATAGGGTCCATCTTCTTC
AGTGTCTGCAGGTGCCCTGAAATATTCGGGTCAAAAACACTGCCAA
TGAAGCCGTATACTTGAGAAAAGTCAGGCAGAACTCTCAATGGATG
TTGGCCATGATTTTGGCTACGCTTCCCTTGATCAGTTGTTTCACTG
GCTGGTTGAGCTTTTGGAGTACTTTCTGCGCTATGACAACTCGGCC
TAGTTGGCCCTTTATTCTCATGCGATGGGTTGGCTGTTTGCACAGA
ACCATTAGGCCAAGAAGGGACTACCCCACCAGCCCTGGGACTAATA
AGCACCGATGCTGAATCTGGCCTTTGGTTAAACCCAGATTCAAGTA
ACGCCGATGAAGATTGACATGAACCAGACACTTGTGGGAGTGCCAG
CGCATTTTTTGAGGCTTTCTGAGGGTAAGGGTGAGAAGCTTTCCTT
TTCGGCCTAGGTGGAGGTAGATGCTCGCTTGTCCCGTTCTTCTGAA
CCTTCAGGAAATACTTCTGCGCATGACTACGTATCTGAATAACTGT
CTTCGACCCGATAAACGCTTCAATCTTCTTCCAATCACGGTCAAAT
AGCTGAAGCGCTTCGAGGAACTTATCGTGCTCGGGCTCAGTCCAGC
TCTCTCTGGACTTGGTGATAGTGTACGGCTTCCGAATCTTCTTGCT
CAGATCCTCCGCCGACGAAGTCGTCGTCGACACGGCGGTGGTGGTC
GCCGCCGTGGCGAATGGACCGAGTCCCGGTAAGGCCATTTCGTCCG
GATCCAAGTAAAGGCCCTCTGGCGGGTTCGGGTTTTTGGATACCAT
GAACAAATTTGAAAACGGAGTCGGGTTTTTGGGCTTTTTTTCCGAA
GGTGCGGAATTATGTGATTTTTCAACCATACTAATAGCCTAATCCT
AATGCCTAAGTCAAGCTAGCCTAGCCTAACAGCCTATCCAAGCCAA

RETOS DE LA BIOINFORMÁTICA

1. ¿Contiene esta secuencia algún gen?
2. ¿Contiene algúna región codificante o CDS? (CDS= CoDing Sequence)
3. ¿Es esta la cadena (+) o la cadena (-) ? (= ¿está al derecho o al revés?)
4. ¿Podría indicar si la secuenciación ha sido correcta o por el contrario hay fallos en la secuenciación?
5. ¿Sabría exportar esta secuencia en algunos de los programas para análisis de las secuencias disponibles?
6. Si es del genoma de un eucariota. ¿Tiene la secuencia intrones y exones?
7. ¿Sabría traducir correctamente esta secuencia a su proteína correspondiente?

8. ¿Podría indicar si este gen está truncado o no en algunas de sus partes? (= ¿tiene el promotor, el CDS o la zona 3'UTR completas?)

9. ¿Cúal es la función biológica de este gen?

10. ¿Reconoce algún dominio (a nivel de ácido nucleico o proteina) importante en esta secuencia?
11. ¿Contiene algún elemento posiblemente regulador como palíndromes, secuencias repetidas inversas o directas?
12. ¿Sabría qué enzimas de restricción serían capaces de cortar esta secuencia?. ¿Cómo clonarla en un plásmido?
13. Si la ha secuenciado por primera vez ¿sabría enviar esta secuencia a las bases de datos públicas?
14. Si fuera un genoma humano, ¿podría indicarme en qué cromosoma está? ¿Cuales son los genes ligados a él?
15. ¿Sabría determinar el uso de codones que usa el CDS de esta secuencia?
16. Si esta secuencia contuviera o fuera un promotor. ¿Qué factores de transcripción pueden interaccionar con él?
17. ¿En qué compartimento celular puede que se localice la proteína que este gen codifica?
18. ¿Cómo de conservada es esta secuencia cuando se compara con la misma secuencia de otros organismos?
19. ¿Podría realizar un estudio evolutivo con esta secuencia?
20. ¿Sabría determinar y representar la estructura 3D de la proteína codificada por este posible gen?
21. ¿Tiene esta proteína sitios de glicosilación, fosforilación, etc?
22. ¿Sabría diseñar cebadores para amplificar esta región mediante PCR ?
23. ¿Tiene el ARN alguna estructura singular?

Estas "letras" contienen un importante mensaje: los genes. Es esencial aprender a extraer información a partir de las bases de datos de ácidos nucleicos. Por ejemplo, no es fácil identificar la presencia y los límites de un gen, qué cadena de DNA es la que tiene sentido, que región del gen corresponde al promotor, a la zona codificante, etc.

Tras el descubrimiento reciente de que el ADN "basura" no es tal, sino que hay más ARN no codificante expresado en un organismo complejo (como el ser humano) que genes que codifican proteínas, el análisis bioinformático cada vez es mas relevante: hay necesidad de descubrir secuencias que pueden actuar como silenciadores (RNAi), lncRNA (RNA largo no codificante), y un largo etc, que dada la complejidad y tamaño de nuestros genomas, se deben abordar desde la perspectiva de la bioinformática.

Además, mucha de la información presente en las bases de datos, ya ha sido analizada por terceros. Existen instituciones públicas y servidores en Internet que contienen una información extremadamente útil. Pero hay que saber encontrarla y como procesarla. Como ejemplo, decir que existen bases de datos de genes implicados en enfermedades humanas, de proteínas que han sido cristalizadas cuya estructura es conocida, de geles de electroforesis realizadas en 2 dimensiones de extrema utilidad en el campo de la proteómica, de las enzimas de restricción que indican, no sólo el punto de corte, sino donde pueden llegar a adquirirse, etc. Son tantas, que es absolutamente imposible mencionarlas todas aquí.

Además, la importancia de esta Asignatura es creciente conforme se siguen desvelando la secuencia de nuevos genomas completos. El número de secuencias que están a nuestra disposición en las bases de datos esté aumentando a un ritmo exponencial. Esto hace que sea muy complejo su manipulación.

Ahora esbozaré algunas de las posibles aplicaciones que podemos realizar si somos capaces de aprovechar la disponibilidad de estas bases de datos de secuencias. Estoy seguro que deberé actualizar esta lista con mucha frecuencia.

EN LA INVESTIGACIÓN BÁSICA

EN RELACIÓN CON LA IDENTIFICACIÓN DE PROTEINAS

EN EL CAMPO SANITARIO