Tema 2

Obtención de Secuencias y Acceso a Bases de Datos de Ácidos Nucleicos y Proteínas y Bibliográficos 


Descripción general de las bases de datos públicas de ácidos nucleicos disponibles.

Estas bases de datos por lo general, contienen las secuencias de uno o unos pocos genes, y de forma excepcional, la de cromosomas o trozos de cromosomas completos.

Las secuencias de cromosomas o parte de ellos (secuencias con millones de bases) ya no es admitida en estas bases de datos, y han de enviarse a bases de datos mas especializadas (bases de datos de genomas, SRA, etc)

  • En USA existe el NCBI que sostiene la base de datos GenBank
  • En Europa existe el EBI que sostiene la base de datos EMBL
  • En Japón existe el DDBJ que sostiene la base de datos DDBJ

Las tres instituciones están de acuerdo para compartir las secuencias entre ellas. Eso significa que si mandas algo al EMBL, en el mismo dia normalmente o en pocos dias, se distribuye a las otras instituciones

Aún cuando las bases de datos son las mismas, no es así el modo o el programa o el servicio de página WEB para acceder a ellas



 

Formatos de los Archivos de las diferentes bases de datos de ácidos nucleicos y proteinas:

PARTE 1. Las anotaciones describen y definen las características de las secuencias y contienen:

  • El nombre del gen o locus. Este nombre suele ser único, aunque dos genes de diferentes especies pueden tener el mismo nombre.
  • Define el tipo de molécula, esto es, si es un ADN, ARN o una proteína
  • El origen de dicho material genético (source) (es de una planta, animal, bacteria, o una mezcla de ellos como ocurre con un plásmido)
  • La definición del gen, que es siempre muy subjetiva pudiendo o no definir a qué corresponde y/o la función que tiene.
  • El número de accesión (equivalente al DNI de la secuencia). Este es el modo más común usado para buscar y definir la secuencia
  • La versión del gen, si es que habido cambios o ediciones respecto a la enviada originalmente (nombre.1; nombre.2)
  • Las keywords o palabras claves que ayudan a encontrar las secuencias en los sistemas de búsquedas
  • Las características filogenéticas completas del organismo donde se ha aislado el ADN/ARN (si procede). Importante para valorar fuentes de diversidad (por ejemplo, si es eucariota o procariota, reino, familia, genero y especie)
  • Los autores que han secuenciado el gen o que son responsables de haberlos enviado a las bases de datos públicas. Se puede llegar a contactar con ellos
  • El origen del material genético o de la proteína, como el tejido o variedad de organismo de donde se ha aislado
  • (opcionalmente) los trabajos o bibliografía científica donde haya habido una publicación relacionada con ese gen
  • Comentarios diversos
  • IMPORTANTE: Las anotaciones se completan con las FEATURES (propiedades) que define las diferentes partes de la secuencia, pudiendo incluir o no referencias cruzadas (enlaces que proveen de más información). Entre las propiedades están secuencias repetidas, el CDS, sitios de poliadenilación y un largo etcétera.

PARTE 2. La secuencia propiamente dicha, que puede ser un ácido nucleico (ADN o ARN) o una proteína


  • Diccionario bioquímico. ¿Qué es y en qué consiste?
    • anotar un gen (gen annotation). Pues no es más que añadir notas informativas (de ahi el nombre) a ese gen. Esas notas consisten en indicar el principio o fin del gen, su función biológica, si tiene secuencias repetidas, si tiene mutaciones, inserciones, delecciones, o cualquier otra propiedad (feature) imaginable
    • anotar una secuencia (sequence annotation). No tenemos por quá anotar solo genes (plásmidos, regiones intergénicas, etc)
    • anotar un genoma (genome annotation). Este caso representa un nivel más elevado de anotación. Por ejemplo. Si secuenciamos el genoma entero de la bacteria E. coli, tendremos aproximadamente 4 millones de bases en un archivo de texto. El reto es ahora anotar ese genoma a un doble nivel.
      • En primer lugar identificando cada uno de los genes que están contenidos en esos 4 millones de bases. SI hay más de 9000 genes en dicho genoma, existe el reto de descubrirlos dentro de esas 4 millones de bases cada uno de ellos con su principio y final.
      • Y en segundo lugar, anotando o identificando las propiedades que tienen cada uno de los genes que ha sido capaz de identificar en el trabajo anterior.

 


 

Formatos más comunes presentes en las secuencias de las bases de datos públicas

    • Formatos con texto que contiene anotaciones

     

    • Formato de texto FASTA que no suele contener anotaciones (con mucho, el más usado de todos), aunque si puede contener comentarios de forma opcional. Información sobre el formato FASTA
      • archivos FASTA individuales que contiene solo una secuencia
        • cada secuencia empieza obligatoriamente con el símbolo ">"
        • A continuación viene obligatoriamente un texto que constituye el nombre de la secuencia y opcionalmente, tras un espacio en blanco, más texto que constituye un posible comentario
        • El nombre de la secuencia es el texto comprendido entre el símbolo ">" y el primer espacio en blanco. Todo lo demás, hasta el primer fin de linea se consideraría comentario
        • Tras un código de "nueva linea", es decir, ya en la segunda línea, ya debe aparecer la secuencia de acido nucleico o proteina. Cualquier texto que aparezca a partir de la segunda línea ya se considera o bien ácido nucleico o proteina. Así que cuidado
      • archivos FASTA múltiple, en los que se concatena un fasta tras otro. Cada secuencia empieza por un ">"
        • Una secuencia empieza por el ">", y acaba justo antes del siguiente ">"
        • Por tanto, si contamos el número de ">" determinamos el número de secuencias que contiene dicho archivo
        • Hay que cuidar el nombre que se da a cada secuencia, para que identifique correctamente la secuencia y no se trunque al representarlo por ser demasiado largo
        • Muchos programas NO ADMITEN la presencia de líneas en blanco en medio de un archivo FASTA, con lo que estas líneas en blanco deberían evitarse

     

    • Archivos MSF (Multi Sequence File) o CLUSTAL que no contiene anotaciones (usado con menos frecuencia) común en los archivos en los que se han comparado secuencias entre si. Más información sobre los archivos MSF

     

NOTA IMPORTANTE: El formato se define con el modo de representar las secuencias de ácidos nucleicos o proteínas. Las anotaciones de los diferentes formatos pueden intercambiarse entre ellos

Cuando se descarga una secuencia, conviene descargar la secuencia de dos formas diferentes, con las anotaciones para saber de qué se trata y qué características tiene, y en formato FASTA para poder trabajar con ella.


Contenido de las PROPIEDADES (features) de las anotaciones de los archivos de bases de datos:

 

  • Caso práctico: creación de un esquema de la estructura génica de parte de un genoma (con Arabidopsis)

Acceso práctico a los servidores WEB de las bases de datos

  • Las secuencias desde las páginas del NCBI americano (recomendado)

 


 


Búsqueda de secuencias en las bases de datos.

  • Búsquedas en el servidor NCBI
    • Búsquedas con el servidor ENTREZ (búsqueda genérica en múltiples bases de datos) (***)
      • Cómo guardar localmente la secuencia
      • Cómo seleccionar las secuencias organizadas por organismos (Top Organisms [Tree])
    • Búsquedas con el servicio de búsquedas avanzada del NCBI (como ejemplo, acceso a un vídeo con búsquedas en PubMed)
    • Accesos y servicios disponibles cuando accedemos a una secuencia
      • Diferentes modos de mostrar la secuencia
      • Mostrar el reverso complemento de la secuencia
      • Mostrar solo parte oun subset de la secuencia
      • Buscar una subsecuencia dentro de esta secuencia (Ctrl + F)
      • Ejecutar los diferentes tipos de BLAST
      • Seleccionar cebadores para PCR (Pick Primers)
      • Mostrar propiedades de la secuencia
      • Acceder al modo gráfico de la secuencia
      • Acceder a los diferentes formatos de lase secuencias (FASTA, GenBank)
      • Acceso directos a las anotaciones
      • La opción Send To. (File, Clipboard, Colecciones, etc)

     

  • Búsquedas en servidores europeos

 

  • Estrategias para la búsquedas de secuencias dentro del NCBI

    Basadas en el uso subjetivo de datos de texto. Problemas potenciales y ejemplos. (caso práctico con acetolactate synthase)

    • Problemas usando texto simple (exceso de información y o bien dificultad de aplicar o carencia de filtros). La ingente cantidad de secuencias ya presentes en las bases de datos hace que se obtenga una enorme cantidad de resultados, haciendo inviable sacar provecho de la busqueda realizada. Además resulta enormemente complejo, por no decir casi imposible, la aplicación de un filtrado adecuado. Un filtrado insuficiente resulta en la eliminación de pocas secuencias. Un filtrado demasiado "abierto" eliminaría secuencias útiles.
    • Problemas que surgen del hecho de que no hay control en el modo de llamar o nombrar a las secuencias de las que se tiene interés (acetolactate synthase es ALS, o acetohydroxy acid synthase, o AHAS)
    • Problema que se pone de manifiesto cuando se hace búsquedas usando texto y resulta que las anotaciones de los genes no contienen información que permita encontrarlas (se puede poner de manifiesto si se hace un blastN con accesión Z69596 (que codifica una reductasa de grupos metionina de las proteinas o PMSR). Fijaros que aparecen secuencias de Vitis vinifera que no contienen información alguna. Esas secuencias, aún correspondiendo a las PMSR, jamás se encontrarían buscando por términos de texto.
    • Consideraciones de la presencia de secuencias incompletas y contaminadas con cebadores para PCR y sintéticas como plásmidos, etc

    Basadas en el uso objetivo de la homología de secuencias

    • Con el uso de BLAST no dependemos del modo que se haya nombrado las secuencias o del contenido de las anotaciones que tiene, porque las búsquedas se hacen por homología de secuencias. Es decir, buscamos secuencias de ADN o de proteínas que tengan secuencias similares a las nuestras.
    • Pero si se usa BLAST, tenemos el problema de que siempre encontraremos secuencias relacionadas o similares entre si. Si las secuencias, aunque sean ortólogas y mantengan la misma funcion biológica no están conservadas, será mucho más complicado encontrarlas con BLAST.

Cómo procesar la información obtenida a partir de los secuenciadores de ADN y proteínas

Cómo preparar o editar tus secuencias antes de ser enviadas

Cómo enviar nuestras secuencias a las bases de datos públicas 

  • Usando servicios WEB en el EMBL como ENA (European Nucleotide Archive)
  • Usando servicios WEB en Genbank con el servidor BankIt del NCBI americano

 


Busqueda de bibliografía científica

Búsquedas con WOK (Web of Science) (el más recomendado..)

 

 

Prácticas y Problemas