Tema 1. Introducción

Importancia de la Bioinformática

La secuenciación del ADN mediante la tecnología Sanger (uso de di-deoxinuclueótidos como terminadores) es una técnica a la que cualquier persona puede acceder en cualquier momento y a un precio extremadamente asequible. Basta aislar un fragmento de PCR o aislar un plásmido y mandarlo a cualquiera de los servicios de secuenciación disponibles hoy día. El precio de la secuenciación está por debajo de los 10 euros. Estas empresas te recogen su muestra, las secuencian, y te envían los resultados mediante correo electrónico en unos pocos días. El usuario final solo debe procesar los archivos enviados, que son normalmente lo que llamamos un cromatograma proveniente de la electroforesis capilar y la secuencia analizada y extraida por el propio equipo.

Muchos de los avances que se producen hoy día provienen de la información obtenida a partir de la secuenciación de los ácidos nucleicos. Al principio, ya seamos expertos o no en el área de la Biología Molecular, estas secuencias no representan más que un galimatías incomprensible formado por un abecedario de solo 4 letras (A, C, G y T). Aquí teneis un ejemplo

CCTAGCCTAACGTCAAAGCAATGCCGATCCATCCGATCCATTAGGC
AACACTCTTGTGTTCGTCAGTATGAAGGCTTTTACTCACATCAAGG
TGGTCTGTTGAATCACCATCAATCTTGTAGGATGACAGCAACTTTC
TATGATCTTCAAAATCAGGACTTGTCAAATTCATGGATAGATTTCT
CATCAGCAATAACACCGTTTCAACATCTATAGGGTCCATCTTCTTC
AGTGTCTGCAGGTGCCCTGAAATATTCGGGTCAAAAACACTGCCAA
TGAAGCCGTATACTTGAGAAAAGTCAGGCAGAACTCTCAATGGATG
TTGGCCATGATTTTGGCTACGCTTCCCTTGATCAGTTGTTTCACTG
GCTGGTTGAGCTTTTGGAGTACTTTCTGCGCTATGACAACTCGGCC
TAGTTGGCCCTTTATTCTCATGCGATGGGTTGGCTGTTTGCACAGA
ACCATTAGGCCAAGAAGGGACTACCCCACCAGCCCTGGGACTAATA
AGCACCGATGCTGAATCTGGCCTTTGGTTAAACCCAGATTCAAGTA
ACGCCGATGAAGATTGACATGAACCAGACACTTGTGGGAGTGCCAG
CGCATTTTTTGAGGCTTTCTGAGGGTAAGGGTGAGAAGCTTTCCTT
TTCGGCCTAGGTGGAGGTAGATGCTCGCTTGTCCCGTTCTTCTGAA
CCTTCAGGAAATACTTCTGCGCATGACTACGTATCTGAATAACTGT
CTTCGACCCGATAAACGCTTCAATCTTCTTCCAATCACGGTCAAAT
AGCTGAAGCGCTTCGAGGAACTTATCGTGCTCGGGCTCAGTCCAGC
TCTCTCTGGACTTGGTGATAGTGTACGGCTTCCGAATCTTCTTGCT
CAGATCCTCCGCCGACGAAGTCGTCGTCGACACGGCGGTGGTGGTC
GCCGCCGTGGCGAATGGACCGAGTCCCGGTAAGGCCATTTCGTCCG
GATCCAAGTAAAGGCCCTCTGGCGGGTTCGGGTTTTTGGATACCAT
GAACAAATTTGAAAACGGAGTCGGGTTTTTGGGCTTTTTTTCCGAA
GGTGCGGAATTATGTGATTTTTCAACCATACTAATAGCCTAATCCT
AATGCCTAAGTCAAGCTAGCCTAGCCTAACAGCCTATCCAAGCCAA

RETOS Y UTILIDADES DE LA BIOINFORMÁTICA

1. ¿Contiene esta secuencia algún gen? Un gen completo que codifica una proteína debe contener varios elementos. Un promotor en la región 5' (que como no se traduce se llama 5'UTR), una zona codificante de proteína llamada CDS u ORF (CoDing Sequence u Open Reading Frame), y una zona terminadora que tampoco se traduce (3´UTR).
2. ¿Contiene algúna región codificante o CDS? (CDS= CoDing Sequence). Con ayuda de Ctrl+F, busca en esta misma página todos los codones ATG posiblemente inicios de proteína que hay en la secuencia, o todos los CAT que representen un ATG en la cadena contraria (el llamado reverso complementario)
3. ¿La región codificante (CDS) está en la cadena (+) o la cadena (-) ? (= ¿está al derecho o al revés?) ¿Sábes cómo obtener el reverso complementario de esta secuencia ? Cuando secuencias el ADN, lo puedes secuenciar en cualquiera de las dos orientaciones. Si el CDS está en la cadena (+), aparecerá como un ATG. Si está en la cadena (-) aparecerá como un CAT. Este CAT, cuando se le da la vuelta a la secuencia (al hacer el reverso complementario), se convierte en el ATG.
4. ¿Podría indicar si la secuenciación ha sido correcta o por el contrario hay fallos en la secuenciación? No hay que confiar ciegamente en las secuencias que nos indiquen los proveedores de servicios de secuenciación. Lo vamos a ver muy claramente cuando estudiemos los cromatogramas derivados de la secuenciación Sanger.
5. ¿Sabría exportar esta secuencia en algunos de los programas para análisis de las secuencias disponibles? Hay varios formatos públicos de secuencias públicos diferentes (Genbank, fasta, MSF, y un largo etc). También hay programas que exigen usar las secuencias con un formato determinado
6. Si es del genoma de un eucariota. ¿Tiene la secuencia intrones y exones? Hoy día, con la ingente cantidad de ADN secuenciado, ya disponemos de herramientas para predecir la presencia de intrones y exones en nuestras secuencias. Visitaremos servicios en páginas WEB que nos permiten predecir la presencia de estos elementos.
7. ¿Sabría traducir correctamente esta secuencia a su proteína correspondiente? Hay que aprender a conseguir la secuencia de la proteína que codifica nuestros genes. Y a veces hay que hacerlo con diferentes formatos, como indicando todas las fases de lectura posibles que hay (6) o solo la que creemos que es la verdadera.

8. ¿Podría indicar si este gen está truncado o no en algunas de sus partes? (= ¿tiene el promotor, la región 5'-UTR, el CDS o la zona 3'UTR completas?) Nunca tendremos la garantía de que el fragmento de ADN que secuenciemos contenga el gen completo. Puede ser que sólo hayamos secuenciado parte del gen y que le falten algunas partes. Puede ser que le falte parte del principio del gen, del final, o de las dos partes a la vez.

9. ¿Cúal es la función biológica de este gen? Hay que sentar las bases por las que se puede predecir la función biológica de un determinado gen. Hay que describir las diferentes bases de datos que contienen este tipo de información, como la base de datos GO (Gene Onthology), las de los dominios conservados que dan pistas (InterPro, Panther), y la información contenida en las anotaciones de los genes (como en GenBank, Uniprot, etc).

10. ¿Reconoce algún dominio (a nivel de ácido nucleico o proteina) importante en esta secuencia? El reconocimiento de los dominios nos darán claves importantes sobre la funcionalidad de los genes que estemos estudiando, y nos permitirá clasificar las proteinas en familias
11. ¿Contiene algún elemento posiblemente regulador como palíndromes, secuencias repetidas inversas o directas?. Describiremos y aprenderemos a encontrar algunas particularidades en la secuencia y en la estructura del ADN y las proteínas que tienen un importante papel regulador
12. ¿Sabría qué enzimas de restricción serían capaces de cortar esta secuencia?. ¿Cómo clonarla en un plásmido?. ¿Cúal es el reverso complementario de esa secuencia (= poner la secuencia en el sentido contrario) Vamos a encontrar esta información ahora mismo...
13. Si la ha secuenciado por primera vez ¿sabría enviar esta secuencia a las bases de datos públicas?. Una vez que hayas secuenciado algo nuevo, querrás y deberás mandarlas a las bases de datos públicas. Aprovecharemos para ver cúales son esas bases de datos señalando las más importantes
14. Si fuera un genoma humano, ¿podría indicarme en qué cromosoma está? ¿Cuales son los genes ligados a él? Es importante conocer la localización de los genes. En ocasiones, genes relacionados con una misma función están agrupados en la misma parte del genoma formando los llamados clusters
15. ¿Sabría determinar el uso de codones que usa el CDS de esta secuencia? Aprenderemos que no todos los codones se usan por igual, y que cada organismo hace un uso propio de los codones. Eso es importante tenerlo en cuenta si queremos expresar genes transgénicos
16. Si esta secuencia contuviera o fuera un promotor. ¿Qué factores de transcripción pueden interaccionar con él?
17. ¿En qué compartimento celular puede que se localice la proteína que este gen codifica? No es lo mismo que un gen se exprese en el núcleo que en el citoplasma o en la mitocondria o en el cloroplasto
18. ¿Cómo de conservada es esta secuencia cuando se compara con la misma secuencia de otros organismos?. Definiremos lo que se llamán ortólogos y veremos la enorme diferencia en el grado de conservación que hay entre estos ortólogos, donde algunos genes están enormemente conservados y otros no.
19. ¿Podría realizar un estudio evolutivo con esta secuencia?
20. ¿Sabría determinar y representar la estructura 3D de la proteína codificada por este posible gen? Yo ya creo que si porque lo habéis hecho con el profesor Antonio Bárcenas en Estructura de las Macromoléculas
21. ¿Tiene esta proteína sitios de glicosilación, fosforilación, etc? Si las proteínas se marcan con glicosilaciones, pueden ser reconocidas para ser secretadas, para integrarse en la membranas, o ser reguladas mediante quinasas o fosfatasas
22. ¿Sabría diseñar cebadores para amplificar esta región mediante PCR ? En estas clases aprenderemos las bases para el diseño racional de cebadores para realizar PCR
23. ¿Tiene el ARN alguna estructura singular?. En algunos ARN, como los ARNt o en los ribozimas, está claro que la estructura 3D de los ARN juegan un papel primordial. Hoy día este tema cada día tiene más relevancia, al haberse descubierto que el "ADN basura" no es tal, sino que se trata de una región del genoma que codifica los ARNm no codificantes, cuya estructuras permite al mismo tiempo la interacción con proteínas y con secuencias de ácidos nucleicos

Estas "letras" son las bases contienen un importante mensaje: los genes. Es esencial aprender a extraer información a partir de las bases de datos de ácidos nucleicos. Por ejemplo, no es fácil identificar la presencia y los límites de un gen, qué cadena de DNA es la que tiene sentido (es decir, reconocer la orientación del gen dentro del fragmento de ADN), que región del gen corresponde al promotor, a la zona codificante, a las zonas UTR, etc.

Tras el descubrimiento reciente de que el ADN "basura" no es tal, sino que hay más ARN no codificante expresado en un organismo complejo (como el ser humano) que genes que codifican proteínas, el análisis bioinformático cada vez es mas relevante: hay necesidad de descubrir secuencias que pueden actuar como silenciadores (RNAi), lncRNA (RNA largo no codificante), y un largo etc, que dada la complejidad y tamaño de nuestros genomas, se deben abordar desde la perspectiva de la bioinformática.

Además, mucha de la información presente en las bases de datos, ya ha sido analizada por terceros. Existen instituciones públicas y servidores en Internet que contienen una información extremadamente útil. Pero hay que saber encontrarla y como procesarla. Como ejemplo, decir que existen bases de datos de genes implicados en enfermedades humanas (base de datos OMIM), de proteínas que han sido cristalizadas cuya estructura es conocida (PDB, ya conocida por vosotros), de geles de electroforesis realizadas en 2 dimensiones de extrema utilidad en el campo de la proteómica, de las enzimas de restricción que indican no sólo el punto de corte, sino donde pueden llegar a adquirirse, etc. Son tantas, que es absolutamente imposible mencionarlas todas aquí.

Además, la importancia de esta Asignatura es creciente conforme se siguen desvelando la secuencia de nuevos genomas completos. El número de secuencias que están a nuestra disposición en las bases de datos esté aumentando a un ritmo exponencial. Esto hace que sea muy complejo su manipulación.

Ahora esbozaré algunas de las posibles aplicaciones que podemos realizar si somos capaces de aprovechar la disponibilidad de estas bases de datos de secuencias. Estoy seguro que deberé actualizar esta lista con mucha frecuencia.

EN LA INVESTIGACIÓN BÁSICA

EN RELACIÓN CON LA IDENTIFICACIÓN DE PROTEINAS

EN EL CAMPO SANITARIO