es-MX English (United States)
Investigación » Departamento de Ingeniería Genética » Profesores/Investigadores » Dr. Luis José Delaye Arredondo » Cursos

 

 

Curso de Evolución Molecular

(marzo - julio, 2020)

 

Bienvenido al curso de evolución molecular. El objetivo principal de este curso, es que aprendas a hacer análisis filogenéticos. Ello implica: a) buscar secuencias homólogas en bases de datos; b) hacer alineaciones múltiples; c) inferir filogenias utilizando diversos métodos; e d) intepretar los resultados. El curso tiene una sección teórica y otra práctica. En la sección teórica encontraras lecturas y videos que te ayudaran a comprender los conceptos relacionados al análisis filogenético. En la sección práctica, deberás de realizar una serie de ejercicios que te ayudarán a desarrollar las habilidades necesarias para hacer análisis filogenéticos. Dada la relevancia que ha tomado en nuestras vidas, en este curso estudiaremos la evolución de los coronavirus. 

 

Temario

La arqueología del genoma

Clases de genes homólogos

Una breve introducción a la biología y evolución de los coronavirus 

Búsqueda de secuencias homólogas con BLAST

Alineación múltiple de secuencias

Edición de alineaciones múltiples "to trim or not to trim"

Árboles

Modelos de evolución molecular

Métodos de reconstrucción filogenética

Métodos de distancia

Máxima parsimonia

Atracción de ramas largas

Máxima verosimilitud

Bootstrap y aLRT

Inferencia filogenética Bayesiana

Filogenómica

 

 

La arqueología del genoma

 

La primer tarea será leer el capítulo 1 del libro "Roderic DM Page & Edward C Holmes. Molecular Evolution: A phylogenetic Approach. 1998, Blackwell Science". Es un libro que ya tiene algunos años, pero que hace una introducción muy adecuada al tema. Volveremos a este texto en distintas partes del curso. Puedes encontrar una copia del libro aquí.

 

Después de realizar la lecutra, completa este control de lectura aquí.

 

Lee también este artículo introductorio sobre inferencia filogenética aquí. Está escrito por David A. Baum, quien publicó, junto con Stancey D. Smith un libro introductorio muy bueno, sobre análisis filogenético: "Tree Thinking: An introduction to phylogenetic biology. 2013, w. h. freeman".

 

A continuación, deberás leer el capítulo 16 del libro "Terence A Brown. Genomes, 2nd edition. Oxford, Wiley-Liss, 2002." Este texto ofrece un panorama de algunos de los temas que veremos en el curso. Es una primera introducción que facilitará la comprensión de los temas cuando los veamos a mayor profundidad. Puedes encontrar una copia del libro aquí.

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Ahora, lee el siguiente texto introductorio "Sandra L. Baldauf. 2003. Phylogeny for the faint of heart: a tutorial. TRENDS in Genetics. 19:345-351" aquí. Este es un artículo que también tiene algunos años pero que contiene conceptos introductorios básicos. Contiene algunos datos anticuados, pero no te preocupes, conforme avancemos en el curso actualizaremos esta información.


Después de realizar la lectura, completa este control de lectura aquí.

 

Finalmente mira este video en donde explicamos el concepto propuesto por Emile Zuckerkandl y Linus Pauling que sugiere que podemos utilizar a las moléculas (DNA/RNA/Proteína) como documentos para reconstruir la historia de los seres vivos.

 

Clases de genes homólogos: ortólogos, parálogos y xenólogos 

De acuerdo a su origen evolutivo, los genes se pueden clasificar en tres tipos de genes homólogos. Quien propuso esta clasificación fue Walter Fitch en 1970. Más recientemente, Fitch publicó un breve artículo de opinión en donde reflexiona sobre los conceptos de homología. Lee el artículo aquí.

 

 

Imagen idealizada de la evolución genética. En azul claro se muestra la evolución de tres especies hipotéticas (A, B y C) a partir de una especie ancestral. Con las líneas se representa la evolución de una familia de genes a partir de un gen ancestral. A lo largo de la evolución, ocurren dos especiaciones y dos duplicaciones genéticas. Las especiaciones dan origen a los genes ortólogos. Las duplicaciones dan origen a los genes parálogos. También se representa un evento de transferencia horizontal. La imagen esta basada en el artículo Fitch (2000) TIG 16:277.

 

Después de realizar la lectura, completa este control de lectura aquí.


Con la llegada de la genómica, ha sido necesario refinar los términos propuestos por Fitch en 1970. Ahora tenemos inparalogs, outparalogs, co-ortólogos y ortogrupos, entre otros. Lee este texto de Sonnhammer et al. 2002 en donde definen a los inparalogs y a los outparalogs. Después lee este otro texto de Gabaldón et al. (2013) en donde explican qué es un ortogrupo entre otros conceptos importantes.


Después realiza los controles de lectura de los textos de Sonnhammer et al. 2002 y de Gabaldón et al. (2013).

 

 

Una breve introducción a la biología y evolución de los coronavirus

 

A continuación lee el siguiente artículo, el cual es una buena introducción a la biología evolutiva de los coronavirus (Cui et al. 2019). Te recomendamos también estudiar la siguiente infografía sobre el genoma del SARS-CoV-2 publicada por Jonathan Corum y Carl Zimmer en The New York Times aquí.


Después de realizar la lectura, completa este control de lectura aquí.

 

Ahora, lee sobre el origen del SARS-CoV-2 que es el coronavirus que está causando la pandemia actual. Un artículo reciente, sugiere que los pangolines, al igual que los murciélagos, son hospederos naturales de este coronavirus (Zhang et al. 2020).

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Recientemente se publicó la estructura terciaria de la proteína S del SARS-CoV-2 unida a la enzima ACE2 humana. Dado que este coronavirus utiliza a esta enzima humana como puerta de entrada a la célula, es importante que entiendas el mecanismo de reconocimiento molecular. Por ello deberás de leer el artículo (Shang et al. 2020).


Después de realizar la lectura, completa este control de lectura aquí.

 

Finalmente, existe cierto debate púbilco sobre el origen natural (o no) del SARS-CoV-2. Si te interesa el tema, puedes leer este artículo de investigación (Andersen et al. 2020) y este artículo de divulgación (Delaye 2020). 

 

 

Búsqueda de secuencias homólogas con BLAST

 

El BLAST (Basic Local Alignment Search Tool) es una de las herramientas más utilizadas en bioinformática. Se utiliza para identificar secuencias de DNA o de proteína que son homólogas. Es por ello, que es importante comprender los aspectos básicos de su funcionamiento. Para ello, deberás de leer una serie de artículos y después realizaremos nuestro primer ejercicio. El primer artículo que deberás de leer es esta introducción a los métodos de identificación de secuencias homólogas (Pearson 2013).

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Vamos ahora a revisar una serie de videos hechos por Rob Edwards de la San Diego State University (SDSU). En estos videos Rob Edwards explica el funcionamiento de BLAST. Son muy didácticos y habla un inglés muy claro. Puedes ver el primer video aquí, pero deberás ver los 11 videos sobre BLAST que publica Rob Edwards (BLAST 1, BLAST 2, ... , BLAST 11).

 

A continuación, realizaremos el primer ejercicio con BLAST aquí. Deberás de realizar el 'Ejercicio 1: Búsqueda de secuencias homólogas con BLAST'. 

 

Para usar apropiadamente el BLAST, es importante entender la relación que existe entre los estadísticos E-value, el tamaño de la secuencia 'query' y de la base de datos en la cual se buscan los homólogos. Para ayudarte a entender esta relación, lee las secciones: '3 Inferring Homology: Interpreting Results' y '4 Improving Search Performance' del protocolo de Pearson (2014).


Después de realizar la lectura, completa este control de lectura aquí.

 

Ya que estamos hablando de las bases de datos que ofrece el NCBI para usar BLAST, es bueno que sepas que sepas que es posible descargar BLAST para instalarlo en tu computadora aquí y también que puedes descargar las bases de datos. Te recomiendo que mires el archivo 'BLAST database documentation' en la mísma página o siguiendo esta liga. Encontrarás una breve descripción de cada una de las bases de datos.

 

Vamos ahora a estudiar las matrices de sustitución de aminoácidos (tales como la BLOSUM62). Deberás leer un bello artículo escrito por Sean R Eddy (2004) en donde explica con gran claridad cómo se calculan las matrices de sustitución aquí.

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Las matrices como PAM y BLOSUM contienen información sobre el proceso de evolución molecular. El contenido de información de un mensaje lo podemos medir gracias a la teoría de la información de Shannon (1948). Si te interesa saber más de esta teoría, te recomiendo veas los videos del canal "Art of the Problem" sobre 'Information Theory', son 15 videos. Esto claro, no forma parte oficial del curso, pero los videos son una delicia.

 

Ahora, lee este tutorial de William Pearson (2013) aquí, sobre el uso de las matrices. Verás que que discute el contenido de información de las matrices. Si viste los videos del canal "Art of the Problem" tendrás una comprensión más profunda de lo que Pearson quiere decir.

 

Después de realizar la lectura, completa este control de lectura aquí.

 

A continuación vas a comenzar a hacer tu trabajo de investigación para aprobar el curso. Vas a hacer una búsqueda de genes homólogos con BLAST. Ve nuevamente a la página de ejercicios y busca el encabezado 'Ejercicio 2: Búsqueda de homólogos de la proteína S (spike)' aquí.

 

Finalmente, mira este artículo (Brenner et al. 1988) en donde hacen un análisis para saber qué estadístico (E-value, bit score, % de identidad) es mejor para identificar proteínas homólogas. En particular, pon atención a la Figura 2, en donde podrás encontrar dos proteínas que presentan un porcentaje de identidad elevado a nivel de estructura primaria, sin embargo no son homólogas. Para este artículo no hay control de lectura. 

 

 

Alineación múltiple de secuencias

 

Una vez identificadas las secuencias homólogas, el siguiente paso es hacer una alineación múltiple. Este es un paso crucial, pues a partir de la identificación de posiciones homólogas se realiza la inferencia filogenética. Para comenzar a conocer los distintos métodos de alineación múltiple que existen, lee el siguiente capítulo número 8 (Bawono et al. Multiple Sequence Alignment) del libro Jonathan M. Keith (ed.), Bioinformatics: Volume I: Data, Sequence Analysis, and Evolution, Methods in Molecular Biology, vol. 1525 (2017).

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Como puedes ver, hay muchos programas que te permiten hacer alineaciones múltiples de secuencias (DNA o proteínas), pero ¿cuál utilizar? El siguiente artículo de revisión sirve de guía (Chatzou et al. 2016). Este es un artículo largo y bastante técnico, pero contiene información útil. Sobre todo, me interesa que leas las secciones que tienen que ver con alinear genes o proteínas. Por lo que las siguientes secciones las puedes leer someramente: "RNA multiple sequence aligners, Multiple genome alignments, Multiple promoter alignments, Structure based RNA alignment benchrmarks".

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Dada la importancia de utilizar posiciones homólogas para realizar inferencias filogenéticas, diversos autores se han preocupado por calificar de alguna forma a las alineaciones múltiples. Uno de los primeros se llama HoT (Heads or Tails). Dado que es un método simple e ilustrativo, lee el artículo publicado por Landan & Graur (2007).


Después de realizar la lectura, completa este control de lectura aquí.

 

 

Edición de alineaciones múltiples "to trim or not to trim"

 

Como habrás podido apreciar, existe interés por identificar los residuos que están bien alineados en una alineación múltiple. Esta información se ha utilizado para remover aquellas columnas que contienen residuos mal alineados (es decir, residuos que no son homólogos). Para ello, se han programado algoritmos como Gblocks y trimAl. Estos algoritmos son muy utilizados. Sin embargo, veremos que análisis recientes sugieren que su uso detrimenta la inferencia filogenética. De cualquier forma, debes de conocer estos algoritmos. Además, el programa de trimAl tiene algunas funciones útiles que permiten eliminar secuencias pequeñas de las alineaciones múltiples. Lee el artículo de trimAl (Capella-Gutiérrez et al. 2007).

 

Después de realizar la lectura, completa este control de lectura aquí.

 

Vamos ahora a revisar un método que los autores presumen de ser mejor que otros, para identificar posiciones bien alineadas en una alineación múltiple (Chang et al. 2014).


Después de realizar la lectura, completa este control de lectura aquí.

 

El algoritmo TCS tiene un servidor web que puedes utilizar (Chang et al. 2015). Ahora bien, el algoritmo TCS parece prometedor, pero no es aún la última palabra. Falta que la comunidad científica lo pruebe ampliamente. 


De cualquier forma, es necesario que leas las críticas que se han hecho a otros métodos que pretenden identificar las posiciones mal alineadas para filtrarlas previo a los análsisi filogenéticos. Para ello, lee el siguiente artículo (Tan et al. 2015).


Después de realizar la lectura, completa este control de lectura aquí.

 

A continuación vamos a realizar un ejercicio, para ello ve a la página aquí en donde dice Ejercicio 3: Alineación múltiple de secuencias (proteína S).

 

 

Árboles

 

Vamos a comenzar a estudiar las técnicas que nos permiten inferir la historia evolutiva de los genes. Para comenzar, leerás un artículo de revisión que toca prácticamente todos los temas que vamos a ver a continuación. Como te podrás imaginar, es un artículo denso en información. Sin embargo, vale la pena leerlo con cuidado. Cuando volvamos a estos temas más adelante, será más fácil para ti. El artículo es el siguiente (Yang and Rannala, 2012).

 

Después de realizar la lectura, completa este control de lectura aquí.

 

 

 

Uno de los conceptos más importantes en filogenia molecular (y en general en bioinformática) es que los árboles evolutivos que inferimos son hipótesis. No debemos de confundir estas hipótesis con la realidad. El pintor surrealista René Magritte nos recuerda que hay una diferencia entre los objetos reales y su representación: 

 

The famous pipe. How people reproached me for it! And yet, could you stuff my pipe? No, it's just a representation, is it not? So if I had written on my picture "This is a pipe", I'd have been lying!

— René Magritte

 

De igual forma, no debemos de confundir la filogenia que inferimos con la realidad. Nuestra hipótesis filogenética puede estar equivocada (por ejemplo, podemos asumir que la evolución es dicotómica cuando en realidad hay anastomosis entre los linajes).

 

 

Análisis filogenético

 

Para completar este curso, les voy a recomendar una serie de lecturas. En primer lugar, está el libro Page RDM and Holmes EC, Molecular evolution: a phylogenetic approach (1998) Blackwell Science. El libro completo es recomendable. Pero los capítulos: 5 Measuring Genetic Change, 6 Infering Molecular Phylogeny y 7 Models of Molecular Evolution, les permitirá entender los fundamentos básicos del análisis filogenético.

 

En segundo lugar, para entender un poco más a fondo qué es y cómo funciona la máxima verosimilitud, les sugiero lean primero el artículo de Myung (2003) Tutorial on maximum likelihood estimation, Journal of Mathematical Psycology 47: 90-100. Y después, para entender cómo se aplica a las secuencias de ácidos nucleicos lean: Peter Foster (2001) The idiot's guide to the zen of likelihood in a nutshell in seven days for dummies, unleashed (nada personal) y después Peter Foster (2003) Likelihood in molecular phylogenetics

 

A continuación les recomiendo el siguiente capítulo de libro para entender cómo funciona MrBayes: Ronquist, van der Mark and Huelsenbeck, Bayesian phylogenetic analysis using MrBayes In The phylogenetic handbook: a practical approach to phylogenetic analysis and hypothesis testing, Lemey, Salemin and Vandamme (eds.) Cambridge University Press 2009. También les recomiendo mucho la lectura de Nascimento et al. (2017) A biologist's guide to Bayesian phylogenetic analysis. Nature Ecology & Evolution, 1:1446-1454.

 

Finalmente, el programa PhyML (http://www.atgc-montpellier.fr/phyml/) ha desarrollado una alternativa al bootstrap y a la probabilidad posterior para evaluar los nodos internos de una filogenia. Les recomiendo leer el artículo de Anisimova et al. (2011) Survey of branch support methods demonstrates accuracy, power and robustness of fast likelihood-based approximation schemes. Sys. Biol. 60(5):685-699.

 

 

Filogenómica

 

Y para introducir el tema de filogenómica, les recomiendo ampliamente la lectura de: Jeffroy et al. (2006) Phylogenomics: the beginnings of incongruence? Trends Genet, 22(4)225-231.

 

 

 

ayna vlora nainathara sex com sexy and dirty maid gets a room full of thick dicks busty babe gets her pretty face fucked - trueamateur kajlkxxx redhead reya hunter drilled in the ass hard by horny scott stunning anal pounding of gorgeous babe 18 and 19 year girls xxx bf film hostel amazing redhead babe doing a sexy striptease