Lección 3. Modelos de evolución molecular
Curso “Análisis filogenético”
David Posada
Máster de Bioestadística 2006
Universidad de Santiago de Compostela
Marzo 2006
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaMutación y substitución
• Mutación (µ): cambio de base en la secuencia de DNA
• Substitución (µ): mutación que se fija en una población (o
especie)
P(substitución) = Nºmutaciones * P(fijación)
• Neutralidad: P(substitución) = µ2N * 1/(2N) = µ
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaEl proceso de substitución molecular
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaTransiciones y transversiones
Transiciones
Transiciones
Transversiones
Purina Purina
Pirimidina Pirimidina
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaSaturación
Bóvidos, COII, 684 bp
20 Myr
•La relación entre tiempo y diferencias observadas no es linear
•Saturación: cuando todos los sitios han cambiado y cualquier substitución adicional no
puede aumentar el número de diferencias observadas
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaCorrección evolutiva
¿Podemos estimar de alguna manera el número real de cambios que se han
producido entre dos secuencias?
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaTasas de substitución
• Proceso de Markov homogéneo
• Matriz de tasas de substitución instántanea (Q) (substituciones por sitio
por unidad de tiempo)
Substituciones por sitio por unidad de tiempo
µ = tasa de substitución media instantánea
rij = tasa de substitución relativa i->j
! = frecuencias en el equilibrio, constantes en el tiempo
Q =
!µ("CrAC
+ "GrAG
+ "TrAT) µr
AC"C
µrAG"G
µrAT"T
µrCA"A
!µ(rCA"A+ r
CG"G+ r
CT"T) µr
CG"G
µrCT"T
µrGA"A
µrGC"C
!µ(rGA"A+ r
GC"C+ r
GT"T) µr
GT"T
µrTA"A
µrTC"C
µrTG"G
!µ(rTA"A+ r
TC"C+ r
TG"G)
#
$
%%%%
&
'
((((
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaProbabilidades de cambio
• Podemos calcular la probabilidad de substitución a lo largo de
una rama de longitud t (µ " tiempo)
Pt =
pAA pAC pAG pAT
pCA pCC pCG pCT
pGA pGC pGG pGT
pTA pTC pTG pTT
!
"
####
$
%
&&&&
Pt= e
Qt
A
?
T
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelo de Jukes y Cantor (JC69)
#A
C T
G
#
#
# #
#
1 párametro (0 libres)
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaDerivación JC69
µt! = DJC
= !3
4ln 1!
4
3DS
"#$
%&'
pij (t ) =3
41! e
!4
3µt"
#$%&'!= DS
rij= r
ii=µ
3
El número de eventos (X) esperados en una
rama después de un tiempo t es 4/3ut
P(X = 0) = e!" "
0
0!= e
!4
3µt
P(X > 0) = 1! e!4
3µt
Número esperado de
cambios
Si hay algún evento, la
probabilidad de que el último
resulte en cambio es
Diferencias por sitio
esperadas
Sea
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaDistancia Jukes y Cantor (JC69)
Diferencias por sitio = DS
Longitud de rama = µt
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelo de Kimura 2 parámetros (K80)
A
C T
G
$
$
$ $
#
#
DK 80
=1
2ln
1
1! 2P !Q"#$
%&'+1
4ln
1
1! 2Q"#$
%&'
ti : tv =! = "#
2.70pseudoglobina
0.66globinas
1.7512S rRNA
9.0mtDNA
%
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelo de Felsenstein 1981 (F81)
A
C T
G#
#
#
# #
#
• Variación en la composición de bases, pero común a
todas las secuencias
• Eubacteria (G+C) = 25 - 75%
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelo de Hasegawa-Kishino-Yano (HKY85)
A
C T
G#
$
$
$ $
#
• Permite diferentes tasas de transiciones y transversiones
• Permite diferencias en la frecuencia de las bases
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelo general de tiempo reversible (GTR o REV)
A
C T
Gb
a
d
f c
e
• Permite 6 tasas diferentes de substituciones reversibles
• Permite diferencias en la frecuencia de las bases
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaRelaciones ente modelos
• Modelos anidados
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaAsunciones de los modelos de substitución
• Todos los sitios nucleotídicos cambian de forma independiente
• La tasa de substitución es constante en el tiempo y entre los
distintos linajes
• La frecuencia de las bases está en el equilibrio
• Las probabilidades condicionales de substitución nucleotídicas
son las mismas para todos los sitios y no cambian con el tiempo
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaIndependencia
• Implica que el cambio en un sitio no afecta la probabilida de
cambio en otro sitio
• Hay excepciones claras, como el rRNA:
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaComposición de las bases
• Implica que la composición de las bases es la misma a lo largo
del tiempo y en distintos linajes
• Hay excepciones:
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaVariación de las tasas entre sitios
• Implica que todos los sitios cambian con las misma probabilidad
• Diferentes regiones de la molécula de DNA pueden cambiar con tasas
diferentes
• Nuevos parámetros:
– Proporción de sitios invariables
– Variación de las tasas de substitución entre sitios
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaProporción de sitios invariables
• Puede haber una proporción de sitios que cambian libremente y
una proporción de sitios invariables (p-inv)
Tasa: 0.5%/Myr p-inv=20%
Tasa: 2%/Myr p-inv=50%
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaVariación de las tasas entre sitios
• Distribución gamma (&)
# = ' no hay variación
# < 1 variación importante
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaEstimas empíricas de alpha
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaMuchas combinaciones
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelos de codones
• Regiones codificantes
• Matrices 61 x 61
pij =
0 si!los!codones!difieren!en!más!de!una! posición
! j !transversiones!sinónimas
"! j ! !transiciones!sinónimas
#! j !transversiones!no!sinónimas
#"! j ! transiciones!no!sinónimas
$
%
&&&
'
&&&
Muse y Gaut 94
( = dN / dS
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelos de aminoácidos
• Modelos mecánicos
• Matrices empíricas: PAM,
BLOSUM, JTT, WAG,
mtREV, etc.
– (+I, +G, +F)
Pijt( ) =
1
20+
1
19e!µt
(i = j)
1
20!
1
20e!µt
(i " j)
#
$%%
&%%
Poisson
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaRelevancia de los modelos
• El uso de un modelo de evolución u otro puede cambiar el
resultado del análisis de secuencias
– Estimación de parámetros (ti/tv,!,pi,..)
– Topología
– Confidencia filogenética
– Contraste de hipótesis
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaEfecto del modelo en la topología
A: NJ – K80 B: NJ – GTR + G
• Hay differencias en la posición del subtipo A
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaBondad de los modelos
• La máxima verosimilitud bajo la distribución multinomial se puede
utilizar como referencia máxima de ajuste con la que comparar la
verosimilitud de cualquier modelo.
• n secuencias de longitud N (excluyendo gaps). ) es un conjunto de 4n patrones
nucleotídicos posibles por sitio, pb es la probabilidad de que un sitio exhibe el patrón b en )
y nb es el numero de veces en el que se observa el patrón b en los N nucleótidos.
L = (pb )nb
b!"
#
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaSelección de modelos: el principio de parsimonia
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaTest de la razón de las verosimilitudes (LRT)
LRT = 2 (!
1! !
0)
logaritmo de la verosimilitud maximizada bajo el modelo
más complejo
logaritmo de la verosimilitud maximizada bajo el modelo
más simple.
Si los modelos son anidados, el LRT se distribuye como
una *2 (o una *2 mixta).
!1
!2
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaLRTs jerárquicos (hLRTs)
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaCriterio de información de Akaike (AIC)
• El AIC es un estimador asintóticamente insesgado de la
información Kullback-Leibler.
• El AIC penaliza la función de verosimilitud por el número de
parámetros (K).
• Seleccionaremos el modelo con menor AIC.
• Para muestras pequeñas (+ n/K < 40):
AIC = !2! + 2K
AICc= AIC +
2K(K +1)
n ! K !1
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaDiferencias de AIC
Diferencias en AIC (,i) son AICs reescalados con el AIC mínimo,que tendrá un ,i=0
A grandes rasgos:
• ,i a 1-2 del mejor modelo deberían recibir consideración
• ,i a 3-7 del mejor modelo tiene mucho menos apoyo
• ,i > 10 no tienen apoyo
!i= AIC
i"minAIC
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaPesos de Akaike
• La cantidad exp(-1/2,i) aproxima la verosimilitud relativa de los
modelos dados los datos
• Los pesos de Akaike (wi) se pueden interpretar como la
probabilidad de que un modelo es la mejor aproximación a la
verdad, dados los datos.
wi=
exp(!1 / 2"i)
exp(!1 / 2"r)
r=1
R
#
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaMétodos Bayesianos
• Factores de Bayes
• Probabilidades posteriores
• Criterio de información Bayesiano (BIC)
Bij=P(D M
i)
P(D Mj)
P(MiD) =
P(D Mi)P(M
i)
P(D Mr)P(M
r)
r=1
R
!
BIC = !2! + K logn
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaInferencia promediada por los modelos
!̂ =
wi I(M
i) !
ii=1
R
"w
+(! )
w+(! ) = w
iI! (Mi
)i=1
R
"
I! (Mi) =
1 si ! está en el modelo Mi
0 si no es así
"#$
• La inferencia de parámetros y árboles (!!) se puede realizar
usando todos los modelos, de forma ponderada:
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaModelos y filogenias
Modelo AIC ! "
GTR+# 8541.2764 0.0E+01 0.631000531
GTR+$+# 8542.459 1.1826 0.349326391
SYM+# 8549.1514 7.875 0.012302552
SYM+$+# 8550.4482 9.1719 0.006432458
HKY+# 8555.1816 13.9053 6.03298E-04
HKY+$+# 8556.4014 15.125 3.27852E-04
K80+# 8564.9795 23.7031 4.49746E-06
K80+$+# 8566.2197 24.9434 2.41902E-06
GTR+$ 8579.2793 38.0029 3.53024E-09
SYM+$ 8590.4941 49.2178 1.29575E-11
HKY+$ 8592.5303 51.2539 4.68152E-12
F81+# 8593.7666 52.4902 2.52306E-12
F81+$+# 8595 53.7236 1.36175E-12
K80+$ 8603.2188 61.9424 2.23567E-14
JC+# 8605.2441 63.9678 8.12079E-15
JC+$+# 8606.5068 65.2305 4.31923E-15
F81+$ 8629.585 88.3086 4.20786E-20
JC+$ 8642.083 100.8066 8.13120E-23
JC 8891.1846 349.9082 6.58309E-77
F81 8878.6816 337.4053 3.41507E-74
K80 8854.9336 313.6572 4.90043E-69
HKY 8845.1719 303.8955 6.45595E-67
SYM 8843.4512 302.1748 1.52618E-66
GTR 8831.2354 289.959 6.85856E-64
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaFilogenia multimodelo
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaImportancia y promedio de los parámetros
0.54121.0000alpha(IG)
0.16490.3547pinv(IG)
0.46310.6453alpha(G)
0.47970.0000pinv(I)
3.17930.5509rCT
1.86400.5500rCG
2.43150.5500rAT
2.43360.5509rAG
1.48720.5500rAC
0.90000.0003TiTv
0.22380.9787fT
0.25520.9787fG
0.22830.9787fC
0.29260.9787fA
Estimas promediadas por
modelo
ImportanciaParámetro
Lección 3. Modelos
Análisis filogenético 2006
David Posada
Inferencia filogenéticaVentajas del AIC sobre hLRT
• El AIC proviene de la teoría de la información. No tratamos de
modelizar los datos, si no la información que contienen
• Compara varios modelos simultáneamente. Los modelos no tienen que
ser anidados
• Desconocemos el modelo verdadero. El AIC está diseñado para
aproximar la realidad, no para identificarla
• La incertidumbre de la selección se puede cuantificar utilizando las
diferencias en AIC o los pesos de Akaike
• Permite obtener estimas promediando varios modelos diferentes