Phylogénie moléculaire Thomas Gaillard thomas.gaillard@polytechnique.edu École
Phylogénie moléculaire Thomas Gaillard thomas.gaillard@polytechnique.edu École Polytechnique Sommaire 1 Introduction 2 Construction d’arbres Alignement multiple des séquences Modèles d’évolution Utilisation de matrices de distance Maximum de parcimonie Maximum de vraisemblance 3 Applications 4 Bibliographie Introduction Sommaire 1 Introduction 2 Construction d’arbres Alignement multiple des séquences Modèles d’évolution Utilisation de matrices de distance Maximum de parcimonie Maximum de vraisemblance 3 Applications 4 Bibliographie Introduction Phylogénie Définition : ? Étymologie : φῦλον = tribu, genre, espèce γένεσις = origine, source, naissance Intérêt : origine de la vie histoire évolutive des gènes et des organismes classification et taxonomie annotation fonctionnelle épidémiologie . . . Introduction Historique phylogénie = taxonomie + évolution Darwin, 1837 Haeckel, 1866 Molecules as Documents of Evolutionary History Zuckerlandl & Pauling, 1965 Introduction Données de départ Approche morphologique : matrice de caractères Approche moléculaire : alignement multiple de séquences homologues goshawk GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR vulture GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR duck GALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPAALTPEVHASLDKFMCAVGAVLTAKYR alligator GALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSPEIHASLDKFLCAVSAVLTSKYR lesser GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLACHHPAEFTPAVHASLDKFFSAVSTVLTSKYR giant GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPAEFTPAVHASLDKFFSAVSTVLTSKYR moose GTLSDLSDLHAHKLRVDPVNFKLLSHTLLVTLAAHLPSDFTPAVHASLDKFLANVSTVLTSKYR axolotl ATLVKLSDKHAHDLMVDPAEFPRLAEDILVVLGFHLPAKFTYAVQCSIDKFLHVTMRLCISKYR Introduction Homologie Deux séquences sont dites homologues lorsqu’elles possèdent un ancêtre commun Les évènements de spéciation donnent des orthologues Les évènements de duplication donnent des paralogues gène ancestral gène β gène α gène β rat gène β souris gène α souris gène α rat orthologues orthologues paralogues homologues Introduction Arbres vocabulaire définition mathématique : graphe connexe acyclique arbre binaire : chaque nœud possède au plus deux fils arbre raciné racine feuilles temps 9 8 7 6 5 4 3 2 1 arbre non-raciné 8 7 6 5 4 3 2 1 Introduction Arbres comptage non-racinés racinés feuilles 3 4 n 3 n nœuds internes nœuds branches arbres 3 2 1 Introduction Arbres codage et représentations Codage : correspondance entre arbres et parenthèses imbriquées (Arthur Cayley, 1857) format Newick : ((1,(2,3)),(4,5)); ((1,(2,3)6)7,(4,5)8)9; ((1:3,(2:1,3:1.3)6:1)7:2,(4:3,5:3.5)8:1)9; Représentations : rectangulaire oblique circulaire radiale 2 1 3 4 5 7 8 6 9 1 2 1 3 1 1.3 3 3.5 2 3 1 5 4 2 3 1 5 4 2 3 1 5 4 Introduction L’arbre de la vie http://itol.embl.de Construction d’arbres Sommaire 1 Introduction 2 Construction d’arbres Alignement multiple des séquences Modèles d’évolution Utilisation de matrices de distance Maximum de parcimonie Maximum de vraisemblance 3 Applications 4 Bibliographie Construction d’arbres Construction d’arbres phylogénétiques choix des séquences alignement multiple des séquences sélection d’une partie de l’alignement construction de l’arbre UPGMA NJ maximum de parcimonie maximum de vraisemblance modèle de distance modèle probabiliste évaluation de l’arbre 1 2 3 4 5 Construction d’arbres Alignement multiple des séquences Alignement multiple des séquences Toutes les approches phylogénétiques moléculaires commencent par un alignement multiple des séquences 1 beta MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLA delta MVHLTPEEKTAVNALWGKVN--VDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLA epsilon MVHFTAEEKAAVTSLWSKMN--VEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAILGNPKVKAHGKKVLTSFGDAIK gamma MGHFTEEDKATITSLWGKVN--VEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIK theta -MALSAEDRALVRALWKKLGSNVGVYTTEALERTFLAFPATKTYFSHL-DLSP-----GSSQVRAHGQKVADALSLAVE alpha -MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHGKKVADALTNAVA zeta -MSLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF-DLHP-----GSAQLRAHGSKVVAAVGDAVK myoglobin -MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILK 80 beta HLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------ delta HLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH------ epsilon NMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH------ gamma HLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH------ theta RLDDLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR------ alpha HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------ zeta SIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR------ myoglobin KKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG Les zones de faible similarité sont ignorées Construction d’arbres Modèles d’évolution Distance évolutive La p-distance est l’estimation la plus simple de la distance entre deux séquences : p = n/l avec n le nombre de substitutions et l le nombre de sites La distance évolutive d est supérieure à la distance observée p substitution(s) séquence 1 séquence 2 p d simple C C →A ? ? multiples A A →C →T ? ? coïncidentes C →A C →G ? ? parallèles T →A T →A ? ? convergentes A →T A →C →T ? ? inverse C C →T →C ? ? Avec un modèle d’évolution, on peut estimer d à partir de p Soit λ le taux global de substitutions dans une séquence On a d = λt Construction d’arbres Modèles d’évolution Modèle de Jukes-Cantor modèle à un seul paramètre même taux de substitution α pour les quatre nucléotides Jukes & Cantor, 1969 Matrice de taux de substitution : Q = A C G T A −3α α α α C α −3α α α G α α −3α α T α α α −3α Matrice de probabilité de substitution : On a P′(t) = QP(t) On pose P(t) = A C G T A r(t) s(t) s(t) s(t) C s(t) r(t) s(t) s(t) G s(t) s(t) r(t) s(t) T s(t) s(t) s(t) r(t) avec r(t) + 3s(t) = 1 Construction d’arbres Modèles d’évolution Modèle de Jukes-Cantor On obtient le système d’équations différentielles : r ′ = −3αr + 3αs s′ = αr −αs Qui a pour solutions : r(t) = 1 4(1 + 3e−4αt) s(t) = 1 4(1 −e−4αt) t p r(t) s(t) 0 0 0.25 0.5 0.75 1 temps probabilité lorsque t = 0, r = 1 et s = 0 lorsque t →∞, r = s = 1 4 (fréquences d’équilibre des nucléotides) Construction d’arbres Modèles d’évolution Distance de Jukes-Cantor Par définition, d = λt, et λ = 3α pour Jukes-Cantor La probabilité globale de substitution est p = 3s(t) On obtient : p = 3 4(1 −e−4 3 d) Et la distance de Jukes-Cantor : d = −3 4 ln(1 −4 3p) d p aléatoire 0 0.5 1 1.5 0 0.25 0.5 0.75 1 distance évolutive distance observée lorsque p = 75%, d →∞ Construction d’arbres Modèles d’évolution Autres modèles ADN K80 Kimura 1980 2 paramètres, distingue transition et transversion d = −1 2 ln(1 −2p −q) −1 4 ln(1 −2q) HKY85 Hasegawa, Kishino et Yano 1985 Kimura avec fréquences d’équilibre différentes pour les quatre nucléotides . . . GTR « Generalised time-reversible », Tavaré 1986 le plus général avec la réversibilité Protéines PAM « Point Accepted Mutation » Dayhoff, Schwartz & Orcutt, 1978 . . . Construction d’arbres Utilisation de matrices de distance Matrices de distance Une matrice de distance dij est calculée à partir de l’alignement de séquences et d’un modèle de distance - beta delta epsilon gamma theta alpha zeta myoglobin beta 0.00 0.07 0.30 0.34 1.20 0.93 1.18 2.22 delta 0.07 0.00 0.33 0.35 1.17 0.95 1.13 2.14 epsilon 0.30 0.33 0.00 0.22 1.21 1.05 1.03 2.07 gamma 0.34 0.35 0.22 0.00 1.19 0.99 1.03 2.05 theta 1.20 1.17 1.21 1.19 0.00 0.51 0.77 1.87 alpha 0.93 0.95 1.05 0.99 0.51 0.00 0.56 1.88 zeta 1.18 1.13 1.03 1.03 0.77 0.56 0.00 1.64 myoglobin 2.22 2.14 2.07 2.05 1.87 1.88 1.64 0.00 (distances calculées avec modèle PAM) Construction d’arbres Utilisation de matrices de distance Méthode UPGMA UPGMA = « unweighted pair group method with arithmetic averages » Sokal & Michener, 1958 méthode standard de clustering hiérarchique ascendant but : regrouper progressivement les séquences p dans des clusters Ci distance inter-cluster : dij = 1 |Ci||Cj| P p∈Ci,q∈Cj dpq avec |Ci| et |Cj| le nombre de séquences dans les clusters Ci et Cj, et dpq la matrice de distance inter-séquences variantes : dij = minp∈Ci,q∈Cj dpq (saut minimum ou « single linkage ») dij = maxp∈Ci,q∈Cj dpq (saut maximum ou « complete linkage ») Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : algorithme Initialisation : Attribuer à chaque séquence i son propre cluster Ci. Définir une feuille pour chaque séquence, à hauteur zéro. Itération : Déterminer les deux clusters Ci et Cj pour lesquels dij est minimale. Définir un nouveau cluster Ck = Ci ∪Cj, et calculer dkl pour tout l. Définir un nœud k avec pour descendants i et j, et le placer à hauteur dij/2. Ajouter Ck aux clusters courants et supprimer Ci et Cj. Terminaison : Lorsqu’il reste seulement deux clusters Ci et Cj, placer la racine à hauteur dij/2. Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : exemple 5 séquences, représentées comme des points du plan • 1 • 2 • 3 • 4 • 5 Construction d’arbres Utilisation de matrices de distance Hypothèse de l’horloge moléculaire UPGMA produit des arbres dont les branches peuvent être vues comme des temps mesurés par une « horloge moléculaire » L’hypothèse de l’horloge moléculaire suppose que les mutations surviennent à une vitesse constante Les distances entre un nœud et ses feuilles sont identiques 1 2 3 4 arbre correct 1 4 2 3 arbre produit par UPGMA Construction d’arbres Utilisation de matrices de distance Méthode Neighbor-joining Ne requiert pas l’hypothèse de l’horloge moléculaire mais seulement l’additivité des distances Additivité des distances : la distance entre une paire de feuilles est la somme des longueurs des branches le long du chemin qui les relie Pour trois feuilles i, j, et m, il y a un nœud k où les branches vers ces feuilles se rejoignent. Par additivité, on a : dim = dik + dkm, djm = djk + dkm, et dij = dik + djk La distance du nœud k à la feuille m est donc : dkm = 1 2(dim + djm −dij) Produit un arbre non-raciné k m j i Construction d’arbres Utilisation de matrices de distance Méthode Neighbor-joining Les feuilles les plus proches ne sont pas forcément voisines Comment déterminer si des feuilles sont voisines à partir des distances dij ? Procédure proposée par Saitou & Nei (1987) et modifiée par Studier & Keppler (1988) On introduit Dij = dij −(ri uploads/Ingenierie_Lourd/ phylogenie-gaillard.pdf
Documents similaires
-
19
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 30, 2022
- Catégorie Heavy Engineering/...
- Langue French
- Taille du fichier 2.6063MB