Inferencia filogen tica Mutaci n y substituci n -...

Lección 3. Modelos de evolución molecular

Curso “Análisis filogenético”

David Posada

Máster de Bioestadística 2006

Universidad de Santiago de Compostela

Marzo 2006

Lección 3. Modelos

Análisis filogenético 2006

David Posada

Inferencia filogenéticaMutación y substitución

• Mutación (µ): cambio de base en la secuencia de DNA

• Substitución (µ): mutación que se fija en una población (o

especie)

P(substitución) = Nºmutaciones * P(fijación)

• Neutralidad: P(substitución) = µ2N * 1/(2N) = µ

Lección 3. Modelos


David Posada

Inferencia filogenéticaEl proceso de substitución molecular

Lección 3. Modelos


David Posada

Inferencia filogenéticaTransiciones y transversiones

Transiciones

Transiciones

Transversiones

Purina Purina

Pirimidina Pirimidina

Lección 3. Modelos


David Posada

Inferencia filogenéticaSaturación

Bóvidos, COII, 684 bp

20 Myr

•La relación entre tiempo y diferencias observadas no es linear

•Saturación: cuando todos los sitios han cambiado y cualquier substitución adicional no

puede aumentar el número de diferencias observadas

Lección 3. Modelos


David Posada

Inferencia filogenéticaCorrección evolutiva

¿Podemos estimar de alguna manera el número real de cambios que se han

producido entre dos secuencias?

Lección 3. Modelos


David Posada

Inferencia filogenéticaTasas de substitución

• Proceso de Markov homogéneo

• Matriz de tasas de substitución instántanea (Q) (substituciones por sitio

por unidad de tiempo)

Substituciones por sitio por unidad de tiempo

µ = tasa de substitución media instantánea

rij = tasa de substitución relativa i->j

! = frecuencias en el equilibrio, constantes en el tiempo

Q =

!µ("CrAC

+ "GrAG

+ "TrAT) µr

AC"C

µrAG"G

µrAT"T

µrCA"A

!µ(rCA"A+ r

CG"G+ r

CT"T) µr

CG"G

µrCT"T

µrGA"A

µrGC"C

!µ(rGA"A+ r

GC"C+ r

GT"T) µr

GT"T

µrTA"A

µrTC"C

µrTG"G

!µ(rTA"A+ r

TC"C+ r

TG"G)

#

$

%%%%

&

'

((((

Lección 3. Modelos


David Posada

Inferencia filogenéticaProbabilidades de cambio

• Podemos calcular la probabilidad de substitución a lo largo de

una rama de longitud t (µ " tiempo)

Pt =

pAA pAC pAG pAT

pCA pCC pCG pCT

pGA pGC pGG pGT

pTA pTC pTG pTT

!

"

####

$

%

&&&&

Pt= e

Qt

A

?

T

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelo de Jukes y Cantor (JC69)

#A

C T

G

#

#

# #

#

1 párametro (0 libres)

Lección 3. Modelos


David Posada

Inferencia filogenéticaDerivación JC69

µt! = DJC

= !3

4ln 1!

4

3DS

"#$

%&'

pij (t ) =3

41! e

!4

3µt"

#$%&'!= DS

rij= r

ii=µ

3

El número de eventos (X) esperados en una

rama después de un tiempo t es 4/3ut

P(X = 0) = e!" "

0

0!= e

!4

3µt

P(X > 0) = 1! e!4

3µt

Número esperado de

cambios

Si hay algún evento, la

probabilidad de que el último

resulte en cambio es

Diferencias por sitio

esperadas

Sea

Lección 3. Modelos


David Posada

Inferencia filogenéticaDistancia Jukes y Cantor (JC69)

Diferencias por sitio = DS

Longitud de rama = µt

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelo de Kimura 2 parámetros (K80)

A

C T

G

$

$

$ $

#

#

DK 80

=1

2ln

1

1! 2P !Q"#$

%&'+1

4ln

1

1! 2Q"#$

%&'

ti : tv =! = "#

2.70pseudoglobina

0.66globinas

1.7512S rRNA

9.0mtDNA

%

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelo de Felsenstein 1981 (F81)

A

C T

G#

#

#

# #

#

• Variación en la composición de bases, pero común a

todas las secuencias

• Eubacteria (G+C) = 25 - 75%

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelo de Hasegawa-Kishino-Yano (HKY85)

A

C T

G#

$

$

$ $

#

• Permite diferentes tasas de transiciones y transversiones

• Permite diferencias en la frecuencia de las bases

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelo general de tiempo reversible (GTR o REV)

A

C T

Gb

a

d

f c

e

• Permite 6 tasas diferentes de substituciones reversibles

• Permite diferencias en la frecuencia de las bases

Lección 3. Modelos


David Posada

Inferencia filogenéticaRelaciones ente modelos

• Modelos anidados

Lección 3. Modelos


David Posada

Inferencia filogenéticaAsunciones de los modelos de substitución

• Todos los sitios nucleotídicos cambian de forma independiente

• La tasa de substitución es constante en el tiempo y entre los

distintos linajes

• La frecuencia de las bases está en el equilibrio

• Las probabilidades condicionales de substitución nucleotídicas

son las mismas para todos los sitios y no cambian con el tiempo

Lección 3. Modelos


David Posada

Inferencia filogenéticaIndependencia

• Implica que el cambio en un sitio no afecta la probabilida de

cambio en otro sitio

• Hay excepciones claras, como el rRNA:

Lección 3. Modelos


David Posada

Inferencia filogenéticaComposición de las bases

• Implica que la composición de las bases es la misma a lo largo

del tiempo y en distintos linajes

• Hay excepciones:

Lección 3. Modelos


David Posada

Inferencia filogenéticaVariación de las tasas entre sitios

• Implica que todos los sitios cambian con las misma probabilidad

• Diferentes regiones de la molécula de DNA pueden cambiar con tasas

diferentes

• Nuevos parámetros:

– Proporción de sitios invariables

– Variación de las tasas de substitución entre sitios

Lección 3. Modelos


David Posada

Inferencia filogenéticaProporción de sitios invariables

• Puede haber una proporción de sitios que cambian libremente y

una proporción de sitios invariables (p-inv)

Tasa: 0.5%/Myr p-inv=20%

Tasa: 2%/Myr p-inv=50%

Lección 3. Modelos


David Posada

Inferencia filogenéticaVariación de las tasas entre sitios

• Distribución gamma (&)

# = ' no hay variación

# < 1 variación importante

Lección 3. Modelos


David Posada

Inferencia filogenéticaEstimas empíricas de alpha

Lección 3. Modelos


David Posada

Inferencia filogenéticaMuchas combinaciones

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelos de codones

• Regiones codificantes

• Matrices 61 x 61

pij =

0 si!los!codones!difieren!en!más!de!una! posición

! j !transversiones!sinónimas

"! j ! !transiciones!sinónimas

#! j !transversiones!no!sinónimas

#"! j ! transiciones!no!sinónimas

$

%

&&&

'

&&&

Muse y Gaut 94

( = dN / dS

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelos de aminoácidos

• Modelos mecánicos

• Matrices empíricas: PAM,

BLOSUM, JTT, WAG,

mtREV, etc.

– (+I, +G, +F)

Pijt( ) =

1

20+

1

19e!µt

(i = j)

1

20!

1

20e!µt

(i " j)

#

$%%

&%%

Poisson

Lección 3. Modelos


David Posada

Inferencia filogenéticaRelevancia de los modelos

• El uso de un modelo de evolución u otro puede cambiar el

resultado del análisis de secuencias

– Estimación de parámetros (ti/tv,!,pi,..)

– Topología

– Confidencia filogenética

– Contraste de hipótesis

Lección 3. Modelos


David Posada

Inferencia filogenéticaEfecto del modelo en la topología

A: NJ – K80 B: NJ – GTR + G

• Hay differencias en la posición del subtipo A

Lección 3. Modelos


David Posada

Inferencia filogenéticaBondad de los modelos

• La máxima verosimilitud bajo la distribución multinomial se puede

utilizar como referencia máxima de ajuste con la que comparar la

verosimilitud de cualquier modelo.

• n secuencias de longitud N (excluyendo gaps). ) es un conjunto de 4n patrones

nucleotídicos posibles por sitio, pb es la probabilidad de que un sitio exhibe el patrón b en )

y nb es el numero de veces en el que se observa el patrón b en los N nucleótidos.

L = (pb )nb

b!"

#

Lección 3. Modelos


David Posada

Inferencia filogenéticaSelección de modelos: el principio de parsimonia

Lección 3. Modelos


David Posada

Inferencia filogenéticaTest de la razón de las verosimilitudes (LRT)

LRT = 2 (!

1! !

0)

logaritmo de la verosimilitud maximizada bajo el modelo

más complejo

logaritmo de la verosimilitud maximizada bajo el modelo

más simple.

Si los modelos son anidados, el LRT se distribuye como

una *2 (o una *2 mixta).

!1

!2

Lección 3. Modelos


David Posada

Inferencia filogenéticaLRTs jerárquicos (hLRTs)

Lección 3. Modelos


David Posada

Inferencia filogenéticaCriterio de información de Akaike (AIC)

• El AIC es un estimador asintóticamente insesgado de la

información Kullback-Leibler.

• El AIC penaliza la función de verosimilitud por el número de

parámetros (K).

• Seleccionaremos el modelo con menor AIC.

• Para muestras pequeñas (+ n/K < 40):

AIC = !2! + 2K

AICc= AIC +

2K(K +1)

n ! K !1

Lección 3. Modelos


David Posada

Inferencia filogenéticaDiferencias de AIC

Diferencias en AIC (,i) son AICs reescalados con el AIC mínimo,que tendrá un ,i=0

A grandes rasgos:

• ,i a 1-2 del mejor modelo deberían recibir consideración

• ,i a 3-7 del mejor modelo tiene mucho menos apoyo

• ,i > 10 no tienen apoyo

!i= AIC

i"minAIC

Lección 3. Modelos


David Posada

Inferencia filogenéticaPesos de Akaike

• La cantidad exp(-1/2,i) aproxima la verosimilitud relativa de los

modelos dados los datos

• Los pesos de Akaike (wi) se pueden interpretar como la

probabilidad de que un modelo es la mejor aproximación a la

verdad, dados los datos.

wi=

exp(!1 / 2"i)

exp(!1 / 2"r)

r=1

R

#

Lección 3. Modelos


David Posada

Inferencia filogenéticaMétodos Bayesianos

• Factores de Bayes

• Probabilidades posteriores

• Criterio de información Bayesiano (BIC)

Bij=P(D M

i)

P(D Mj)

P(MiD) =

P(D Mi)P(M

i)

P(D Mr)P(M

r)

r=1

R

!

BIC = !2! + K logn

Lección 3. Modelos


David Posada

Inferencia filogenéticaInferencia promediada por los modelos

!̂ =

wi I(M

i) !

ii=1

R

"w

+(! )

w+(! ) = w

iI! (Mi

)i=1

R

"

I! (Mi) =

1 si ! está en el modelo Mi

0 si no es así

"#$

• La inferencia de parámetros y árboles (!!) se puede realizar

usando todos los modelos, de forma ponderada:

Lección 3. Modelos


David Posada

Inferencia filogenéticaModelos y filogenias

Modelo AIC ! "

GTR+# 8541.2764 0.0E+01 0.631000531

GTR+$+# 8542.459 1.1826 0.349326391

SYM+# 8549.1514 7.875 0.012302552

SYM+$+# 8550.4482 9.1719 0.006432458

HKY+# 8555.1816 13.9053 6.03298E-04

HKY+$+# 8556.4014 15.125 3.27852E-04

K80+# 8564.9795 23.7031 4.49746E-06

K80+$+# 8566.2197 24.9434 2.41902E-06

GTR+$ 8579.2793 38.0029 3.53024E-09

SYM+$ 8590.4941 49.2178 1.29575E-11

HKY+$ 8592.5303 51.2539 4.68152E-12

F81+# 8593.7666 52.4902 2.52306E-12

F81+$+# 8595 53.7236 1.36175E-12

K80+$ 8603.2188 61.9424 2.23567E-14

JC+# 8605.2441 63.9678 8.12079E-15

JC+$+# 8606.5068 65.2305 4.31923E-15

F81+$ 8629.585 88.3086 4.20786E-20

JC+$ 8642.083 100.8066 8.13120E-23

JC 8891.1846 349.9082 6.58309E-77

F81 8878.6816 337.4053 3.41507E-74

K80 8854.9336 313.6572 4.90043E-69

HKY 8845.1719 303.8955 6.45595E-67

SYM 8843.4512 302.1748 1.52618E-66

GTR 8831.2354 289.959 6.85856E-64

Lección 3. Modelos


David Posada

Inferencia filogenéticaFilogenia multimodelo

Lección 3. Modelos


David Posada

Inferencia filogenéticaImportancia y promedio de los parámetros

0.54121.0000alpha(IG)

0.16490.3547pinv(IG)

0.46310.6453alpha(G)

0.47970.0000pinv(I)

3.17930.5509rCT

1.86400.5500rCG

2.43150.5500rAT

2.43360.5509rAG

1.48720.5500rAC

0.90000.0003TiTv

0.22380.9787fT

0.25520.9787fG

0.22830.9787fC

0.29260.9787fA

Estimas promediadas por

modelo

ImportanciaParámetro

Lección 3. Modelos


David Posada

Inferencia filogenéticaVentajas del AIC sobre hLRT

• El AIC proviene de la teoría de la información. No tratamos de

modelizar los datos, si no la información que contienen

• Compara varios modelos simultáneamente. Los modelos no tienen que

ser anidados

• Desconocemos el modelo verdadero. El AIC está diseñado para

aproximar la realidad, no para identificarla

• La incertidumbre de la selección se puede cuantificar utilizando las

diferencias en AIC o los pesos de Akaike

• Permite obtener estimas promediando varios modelos diferentes

Date post:	28-Oct-2018
Category:	Documents
Upload:	vutuyen
View:	214 times
Download:	0 times

Inferencia filogen tica Mutaci n y substituci n -...

Documents