http://www.infobiogen.fr/doc/tutoriel/PHYLO/phylogenie.html

La Phylogénie


I. INTRODUCTION

1. L'évolution selon Lamark
2. L'évolution selon Darwin
3. Les concepts modernes
4. Evolution convergente vs évolution divergente
 

II. LA PHYLOGENIE MOLECULAIRE

1.L'horloge moléculaire
    Définition
    Arguments contre l'horloge moléculaire
    Conclusion
2. Méthodes de reconstruction
    2.1 Fondées sur les distances
          UPGMA
          NJ
          Méthodes dérivées
          Corrections
    2.2 Fondées sur les caractères
          Parcimonie
          Maximum de vraissemblance
   2.3  Le boostrap
   2.4 Enraciner un arbre
3. Recapitulatif

III. CONCLUSION

IV. BIBLIOGRAPHIE


I. INTRODUCTION

Depuis Darwin, il est communément admis que les êtres vivants descendent tous les uns des autres. Jusqu'aux années 1960, les comparaisons entre des morphologies, des comportements et des répartions géographiques des espèces étaient les seuls moyens disponibles pour contruire des classifications d'espèces. La découverte que des protéines homologues (ou acides nucléiques) avaient des séquences en acides aminés (ou en bases) qui variaient d'une espèce à l'autre a fourni un nouveau moyen d'étude : la phylogénie.

1. L'évolution selon LAMARK (1744-1829)

Pour Lamark, l'évolution était due à une adaptation continue au milieu ambiant : un environnement changeant altère les besoins de l'organisme vivant qui s'adapte en modifiant son comportement et en utilisant certains organes plus que d'autres.


Figure 1 : l'évolution selon Lamark

2. L'évolution selon Darwin (1809-1882)

La théorie défendue par Darwin est l'évolution par sélection naturelle. Au sein d'une même lignée, tous les individus sont différents et la nature favorise la multiplication de ceux qui jouissent d'un quelconque avantage.


Figure 2 : l'évolution selon Darwin

3. Les concepts modernes : la théorie neutraliste vs la théorie sélectionniste

Quand les lois de la génétique ont été connues, il est né un paradoxe entre la sélection (disparition de certains caratères) et le polymorphisme génétique (variabilité). Il faut cependant rappeler que ce sont les phenotypes qui se heurtent à la pression de sélection et non les génotypes (avec le jeu des dominances et récessivités, à un phenotype correspond plusieurs génotypes).
Pour l'expliquer, 2 théories s'opposent : la théorie neutraliste et la théorie sélectionniste.
La théorie neutraliste (Kimura)
La plupart des mutations restent neutres, se fixent au hasard (seules les mutations très défavorisantes ou létales pour l'individu sont éliminées) et le milieu n'a pas de rôle sélectif.
La théorie sélectionniste
la plupart des nouveaux allèles apparus par mutations se fixent dans les populations parce qu'ils  sont avantageux pour les porteurs dans le milieu où ils vivent (sélection darwinienne).
 

4. Evolution convergente et évolution divergente

L'évolution convergente correspond à des solutions trouvées de manière indépendante chez des organismes différents pour résoudre le même problème.
L'évolution divergente correspond au contraire à des protèines ayant le même ancêtre commun mais qui se sont spécialisées dans des fonctions différentes.
 

II. LA PHYLOGENIE MOLECULAIRE

Cela correspond à de la phylogénie par comparaison de gènes [les gènes utilisés doivent être choisis avec soin : il faut que cela soit des gènes subissant de fortes contraintes fonctionnelles donc ayant un taux de mutation faible. Un bon exemple est le cytochrome B intervenant dans les chaines d'oxydation cellulaire de tous les êtres vivants (les êtres vivants actuels l'ont sans doute hérité d'un ancêtre commun il y a trois milliards d'années)].
Il y a cependant une accumulation des mutations au cours du temps et pour rendre compte de ce phénomène, Zuckerland et Pauling (1962) ont développé la théorie de l'horloge moléculaire.

1. L'horloge moléculaire

1.1 Définition

En résumé, on constate que le taux d'accumulation des mutations dans le génome d'organismes différents est du même ordre de grandeur dans des régions homologues (régions soumises à la même pression de sélection).
L'accumulation sera maximale pour des régions qui ne sont pas soumises à la pression de sélection naturelle (ne codant pas pour des gènes) et minimale dans les parties du génome soumises à une forte pression (c'est à dire les régions codant pour des fonctions essentielles à la survie de l'organisme).
Chaque séquence accumule les mutations à un rythme qui lui est propre et qui est dicté par l'intensité de la pression de sélection à laquelle elle est soumise. Pour reconstituer des phylogénies (dater la divergence entre deux espèces), on peut utiliser différentes molécules comme on utilise les aiguilles d'une montre pour calibrer l'horloge :
- la trotteuse des secondes (taux de mutation important, par exemple un pseudogène) pour des évènements récents (études des sous populations au sein d'une espèce).
- l'aiguille des minutes (taux de mutation moyen, par exemple le cytochrome C) pour l'analyse d'un passé proche.
- l'aiguille des heures (taux de mutations faible : les histones) pour l'étude d'un passé lointain.
La vitesse d'évolution de la séquence est du même ordre de grandeur au sein d'une même classe fonctionnelle de protéines et elle est différente pour des protéines qui ont des fonctions différentes : la vitesse d'évolution de la sérum albumine est toujours plus importante que celle du cytochrome C. Ces différences de vitesse dépendent à la fois de la probabilité qu'une substitution apparaisse et de sa compatibilité avec la survie de l'organisme.
Si l'on admet cette théorie, et que l'on connaît le taux d'accumulation des mutations, il est possible d'estimer le temps de divergences d'espèces en comparant leur diversité moléculaire.
 

1.2 Arguments contre l'horloge moléculaire

La théorie de l'horloge moléculaire est remise en cause et plusieurs arguments ont été développés :
- L'horloge moléculaire ne serait pas constante (Goodman): les mutations avantageuses se fixeraient plus rapidement lors de la formation de nouvelles espèces.
- L'horloge moléculaire serait épisodique  (Gillepsie) et les mutations ne se produiraient pas de façon indépendante au cours de l'évolution: il y aurait des épisodes d'accumulation suivis d'arrêts évolutifs.
 

1.3 Conclusion

Bien que le débat persiste, il semble que l'horloge moléculaire fonctionne assez bien sur de longues périodes évolutives, pour des gènes ayant un taux de mutation relativement faible où même si l'horloge ne bat pas très régulièrement, les ralentissements et les accélérations se compensent.
Il faut également se méfier des estimations de temps de divergence basées sur un petit nombre de gènes.
 

2.Méthodes de reconstruction

Il existe deux grands types de méthodes permettant la reconstruction d'arbres phylogénétiques :
- les méthodes basées sur les mesures de distances entre séquences prises deux à deux, c'est à dire le nombre de substitutions de nucléotides ou d'acides aminés entre ces deux séquences.
- les méthodes basées sur les caractères qui s'intéressent au nombre de mutations (substitutions / insertions /délétions) qui affectent chacun des sites (positions) de la séquence.
 

2.1. Méthodes fondées sur les distances

Ce sont des méthodes de reconstruction d'arbre phylogénétique sans racine basée sur la recherche d'OTU (operationnal taxonomic units, le plus souvent équivalent à une séquence) les plus proches et ceci à chaque étape de regroupement.
Ces méthodes sont rapides et donnent de bons résultats pour des séquences ayant une forte similarité.
Programmes DNADIST et PROTDIST de Phylip

UPGMA (Unweight Pair Group Method with Arithmetic mean)

Cette méthode est utilisée pour reconstruire des arbres phylogénétiques si les séquences ne sont pas trop divergentes.
UPGMA utilise un algorithme de clusterisation séquentiel dans lequel les relations sont identifiées dans l'ordre de leur similarité et la reconstruction de l'arbre se fait pas à pas grâce à cet ordre.
Il y a d'abord identification des deux séquences les plus proches et ce groupe est ensuite traité comme un tout, puis on recherche la séquence la plus proche et ainsi de suite jusqu'à ce qu'il n'y ait plus que deux groupes.
Exemple
On considère la matrice de distances associé à un groupe de 6 OTUs
 
A B C D E
B 2
C 4 4
D 6 6 6
E 6 6 6 4
F 8 8 8 8 8

On clusterise tout d'abord les deux OTUs avec la distance la plus faible (A et B). Le point de branchement est positionné à la distance 2/2=1.
On peut alors construire le sous arbre suivant :

Dans la suite, le cluster (A,B) est considéré comme un tout et on peut calculer une nouvelle matrice de distance :
dist(A,B),C = (distAC + distBC) / 2  = 4
dist(A,B),D = (distAD + distBD) / 2 = 6
dist(A,B),E = (distAE + distBE) / 2  = 6
dist(A,B),F = (distAF + distBF) / 2  = 8
 
 
MATRICE
ARBRE
Cycle 1
A
B
C
D
E
B
2
       
C
4
4
     
D
6
6
6
   
E
6
6
6
4
 
F
8
8
8
8
8
Cycle 2
A,B
C
D
E
C
4
     
D
6
6
   
E
6
6
4
 
F
8
8
8
8
Cycle 3
A,B
C
D,E
C
4
   
D,E
6
6
 
F
8
8
8
Cycle 4
AB,C
D,E
D,E
6
 
F
8
8
Cycle 5
  ABC,DE
F
      8

Cette méthode conduit essentiellement à unn arbre non enraciné. Si on veut enraciner l'arbre, on peut appliquer la méthode du "mid-point rooting" : la racine de l'arbre est à équidistance de tous les OTUs soit (ABCDE),F / 2 = 4

Les inconvénients de la méthode UPGMA
L'inconvénient majeur est la sensibilité de la méthode à des taux de mutations différents sur les différentes branches
Supposons que l'on  veuille reconstruire l'arbre suivant à partir de la matrice de distances associée aux séquences :

Depuis que A et B ont divergé, B a accumulé beaucoup plus de mutations que A
 
MATRICE ARBRE
Cycle 1
A
B
C
D
E
B
5
       
C
4
7
     
D
7
10
7
   
E
6
9
6
5
 
F
8
11
8
9
8
Cycle 2
A,C
B
D
E
B
4
     
D
7
10
   
E
6
9
5
 
F
8
11
8
9
Cycle 3
A,C
B
D,E
B
6
   
D,E
6.5
9.5
 
F
8
11
8.5
Cycle 4
AC,B
D,E
D,E
8
 
F
9.5
9.5
Cycle 5
  ABC,DE
F
      9

Topologie Fausse !!

NJ(Neighbor-Joining)

Cette méthode développée par Saitou et Nei (1987) tente de corriger la méthode UPGMA afin d'autoriser un taux de mutation différent sur les branches.
Les données initiales permettent de construire une matrice qui donne un arbre en étoile. Cette matrice de distances est ensuite corrigée afin de prendre en compte la divergence moyenne de chacunes des séquences avec les autres.
L'arbre est alors reconstruit en reliant les séquences les plus proches dans cette nouvelle matrice. Lorsque deux séquences sont liées, le noeud représentant leur ancêtre commun est ajouté à l'arbre tandis que les deux feuilles sont enlevées. Ce processus convertit l'ancêtre commun en un noeud terminal dans un arbre de taille réduite.
Programme NEIGHBOR de Phylip
Exemple

La matrice de distance associée à cet arbre est la suivante :
 
 
A
B
C
D
E
B
5
       
C
4
7
     
D
7
10
7
   
E
6
9
6
5
 
F
8
11
8
9
8

Etape 1 : calcul de la divergence de chacun des N OTUs par rapport aux autres (N= 6)
r (A) = 5+4+7+6+8 = 30
r(B) = 42
r(C) = 32
r(D) = 38
r (E) =34
r(F) = 44

Etape 2 : cacul de la nouvelle matrice en utilisant la formule
M(i,j) = d(ij) -[r(i) + r(j)] / (N-2)
ce qui donne pour la paire AB : M(AB) = 5 - [30 + 42] / 4 = -13
 
A
B
C
D
E
B
-13
       
C
-11.5
-11.5
     
D
-10
-10
-10.5
   
E
-10
-10
-10.5
-13
 
F
-10.5
-10.5
-11
-11.5
-11.5
 Ceci permet de construire l'arbre en étoile suivant :

         A
F        |       B
  \       |     /
     \    |   /
       \  | /
        / | \
      /   |   \
    /     |     \
E        |        C
          D

Etape 3 : Choix des plus proches voisins, c'est à dire des deux OTUs ayant le M(i,j) le plus petit, donc soit A et B soit D et E.
On prend A et B et on forme un nouveau noeud U et on calcule la longueur de la branche entre U et A ainsi qu'entre U et B :

S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2) = 5/2 + [30-42] /2(6-4) = 1
S(BU) = d (AB) - S(AU) = 5 - 1 = 4

Etape 4 : on définit les nouvelles distances entre U et les autres OTUs
d (CU) = d(AC) + d (BC) - d(AB) / 2 = 3
d (DU) = d(AD) + d(BD) -d(AB) /2 = 6
d (EU) = d(AE) + d (BE) - d(AB) / 2 = 5
d (DU) = d(AF) + d(BF) -d(AB) /2 = 7

création d'une nouvelle matrice :
 
 
U
C
D
E
C
3
     
D
6
7
   
E
5
6
5
 
F
7
8
9
8

Et d'un arbre en étoile :
         C
D       |
   \      |             A
     \__| ____1/
      /   |           \
    /     |             \ 4
 E       F             \
                             B

La procédure complète repart de l'étape 1 avec N = N-1 = 5.
 

Méthodes dérivées des méthodes basées sur les distances

Dans ces méthodes, l'arbre sélectionné est celui présentant la somme des carrés des écarts entre les distances observées et les distances calculées la plus faible.
Il existe, dans Phylip, deux programmes utilisant ces méthodes :
FITCH : la longueur des branches n'est pas proportionnelle au temps écoulé et la racine n'est pas localisée dans l'arbre.
KITSCH : on fait l'hypothèse que toutes les espèces sont contemporaines et qu'il y a une horloge moléculaire. Cela signifie que les branches de l'arbre ne peuvent pas avoir une longueur arbitraire mais sont proportionnelles au temps écoulé. Les arbres générés par cette méthode présente une racine.

Les corrections

Si le temps de divergence entre deux séquences augmente, la probabilité d'avoir une seconde mutation a un site augmente également. Ceci fait que le simple comptage des différences entre deux séquences n'est pas le reflet exact de la réalité mais sous-estime le nombre d'évènements mutationnels. On tente de corriger ce biais en faisant des hypothèses sur la façon dont les bases ou acides aminés se sont subsitués à un locus donné. Les premiers à avoir proposés une solution à ce problème sont Jukes et Cantor en 1969.

Types de substitutions
On distingue différents types de substitution suivant les bases impliquées.
 
Transitions
A <-> G, C <-> T
Transversions
A <-> C, A <-> T, 
G <-> C, G <-> T

Lorsque l'on compare deux séquences, on différencie aussi les substitutions selon leur ordre et leurs conséquences.
 
 
Séquence 1
Séquence 2
Nb de 
substitutions observées
Nb réel de substitutions 
Substitution unique
C
C -> A
1
1
Substitutions multiples
A
A -> C -> T
1
2
Substitutions coincidentes au même site
C -> A
C-> G
1
2
Substitutions parallèles
T -> A
T -> A
0
1
Substitutions convergentes
C -> T -> A
C -> A
0
3
Substitutions reverses
C -> T -> C
C
0
1

Exemples de corrections pour les substitutions multiples

- Correction de Jukes et Cantor (1969) : On fait l'hypothèse que tous les sites sont équivalents (tous les changements ont une probabillité  égale mais elle varie au cours du temps), qu'il n'y a pas de biais dans la direction du changement et qu'il n'y a eu ni insertions ni délétions. C'est l'hypothèse la plus simple,mais pas forcément la plus correcte.


- Correction de Kimura  ou 2 paramètres (1980) : ce modèle est similaire au modèle de Jukes-Cantor mais on fait l'hypothèse que le taux de transition est différent du taux de transversion. Ce modèle a été développé suite à l'obsevation que les transitions étaient souvent beaucoup plus fréquentes que les transversions.
Si P est la fréquence des transitions et Q la fréquence des transversions :


avec
  et 

2.2. Méthodes fondées sur les caratères

Ces méthodes sont très lentes mais elles sont précises.
Parcimonie
La parcimonie  consiste a minimiser le nombre de "pas" (mutations / substitutions) nécessaires pour passer d'une séquence à une autre dans une topologie de l'arbre.
Pour cela, cette méthode s'appuie sur les hypothèses suivantes :
- les sites évoluent indépendemment les uns des autres (la séquence peut être considérée comme une suite de caractères non ordonnés)
- la vitesse d'évolution est lente et constante au cours du temps.
Cette méthode, quand elle est appliquée à des séquences protéiques, utilise le code génétique pour comptabiliser le nombre de substitutions nécessaires (changements de bases) pour passer d'un site à l'autre d'une séquence à l'autre.
La méthode de maximum de parcimonie recherche toutes les topologies possibles afin de trouver l'arbre optimal (mimimum) et le temps nécessaire pour cette exploration croit rapidement avec le nombre de séquences :
le nombre d'arbres enracinés possibles pour n OTUs : Nr = (2n - 3)! / (2exp(n-2))(n-2)!
le nombre d'arbres non enracinés possibles pour n OTUs : Nu = (2n -5)! / (2exp(n-3))(n-3)!
Programme DNAPARS  et PROTPARS  de Phylip
 
Nombre d'OTUs
Nb d'arbres non enracinés
Nb d'arbres enracinés possibles
2
1
1
3
1
3
4
3
15
5
15
105
6
105
945
7
954
10 395
8
10 395
135 135
9
135 135
34 459 425
10
34 459 425
2.13 E15
15
2.13 E15
8E21

 Exemple
Sequence
1
2
3
4
5
6
7
8
9
1
A
A
G
A
G
T
G
C
A
2
A
G
C
C
G
T
G
C
G
3
A
G
A
T
A
T
C
C
A
4
A
G
A
G
A
T
C
C
G

Pour 4 séquences, il y a 3 arbres non enracinés possibles. Ces trois arbres sont analysés (recherche de la séquence ancestrale et comptage du nombre de mutations)

(1)  AAGAGTGCA                  AGATATCCA (3)
                          \   4                 /  2
                            \            4    /
            AGCCGTGCG --- AGAGATCCG                                     Nombre de mutations : 10
                             /                \
                           /  0                \  0
(2)  AGCCGTGCG                AGAGATCCG (4)
 
 

(1)  AAGAGTGCA                 AGCCGTGCG (2)
                          \  1                    / 3
                            \            5      /
            AGGAGTGCA --- AGAGGTCCG                                     Nombre de mutations : 14
                             /                  \
                           /  4                   \ 1
(3)  AGATATCCA                  AGAGATCCG (4)
 

(1)  AAGAGTGCA                 AGCCGTGCG (2)
                          \  1                    / 3
                            \            5      /
            AGGAGTGCA --- AGATGTCCG                                     Nombre de mutations : 16
                             /                  \
                           /  5                   \ 2
(4)  AGAGATCCG                    AGATATCCA (3)

L'arbre I est celui nécessitant le moins de mutations, c'est donc le plus parcimonieux.
Cette analyse prend en compte tous les sites des séquences mais l'analyse peut également se faire uniquement sur les sites informatifs, c'est à dire quand à cette position il y a au moins 2 nucléotides différents, représentés chacun dans au moins deux séquences.
 
Séquence
1
2
3
4
5
6
7
8
9
1
A
A
G
A
G
T
G
C
A
2
A
G
C
C
G
T
G
C
G
3
A
G
A
T
A
T
C
C
A
4
A
G
A
G
A
T
C
C
G
         
*
 
*
 
*
On peut donc "réduire" les séquences aux seuls sites informatifs :
 
1
G
G
A
2
G
G
G
3
A
C
A
4
A
C
G
 
*
*
*
(1) GGA                            ACA  (3)
              \ 1                       / 1
                \            2        /
               GGG - - - ACG                               Nombre de mutations : 4
                  / 0                 \ 0
                /                        \
 (2) GGG                      ACG  (4)
 

(1) GGA                            GGG  (2)
              \ 1                       / 1
                \            1        /
               GGG - - - ACG                               Nombre de mutations : 5
                  / 1                 \ 1
                /                        \
 (3) ACA                      ACG  (4)
 

(1) GGA                            ACA  (2)
              \ 2                       / 1
                \            0        /
               GGG - - - ACG                              Nombre de mutations : 6
                  / 1                 \ 2
                /                        \
 (4) ACG                      ACA  (3)

Dans le cas de 4 séquences, un site informatif favorise seulement un arbre : le site 5 favorise l'arbre I plus que les arbres II et III (il supporte l'arbre I). L'arbre le plus parcimonieux est celui qui est supporté par le plus grand nombre de sites informatifs.
Le maximum de parcimonie recherche l'arbre optimal et dans ce processus, il est possible de trouver plusieurs arbres optimaux (= arbres ex-aequo = configuration comptabilisant le même nombre minimal de substitutions nécessaires pour passeer d'une séquence à l'autre dans l'ensemble de l'arbre).
Afin de garantir de trouver l'arbre le meilleur possible, il faut faire une évaluation de toutes les topologies possibles mais cela devient impossible lorsque l'on a plus de 12 séquences.

Branch and Bound : cette méthode est dérivée du maximum de parcimonie, elle garantit de trouver le meilleur arbre mais sans évaluer tous les arbres possibles. Elle permet de traiter un plus grand nombre de séquences mais reste limitée.

Recherche heuristique : il y a un réarrangement des branches à chaque étape, cette méthode ne garantit pas de trouver l'arbre optimal.

Arbre consensus : comme la méthode du maximum de parcimonie peut conduire à trouver plusieurs arbres équivalents, on peut créer un arbre consensus (avec utilisation du bootstraping). Cet arbre consensus est construit à partir des noeuds les plus fréquemment rencontrés sur l'ensemble des arbres possibles.

Avantages et inconvénients de la parcimonie
Avantages  :
- Méthode basée sur les caractères : méthode cladistique plutôt que phénétique.
- Méthode ne réduisant pas la séquence à un simple nombre.
- Méthode essayant de donner une information sur les séquences ancestrales.
- Méthode évaluant différents arbres.
Inconvénients :
- Méthode très lente par rapport aux méthodes basées sur les distances.
- Méthode n'utilisant pas toute l'information disponible (seuls les sites informatifs sont pris en compte)
- Méthode ne faisant pas de corrections pour les substitutions multiples
- Méthode ne donnant aucune information sur la longueur des branches
- Méthode connue pour être très sensible au biais des codons

Maximum de vraissemblance
Cette méthode de reconstruction phylogénétique évalue, en terme de probabilités, l'ordre des branchements et la longueur des branches d'un arbre sous un modèle évolutif donné.
Programme DNAML de Phylip
Exemple
 
1
       
j
C
G
A
G
A
C
A
G
C
G
A
C
A
G
A
T
T
A
G
G
A
T
A
G

A partir des 4 séquences ci-dessus, on veut estimer la probabilité que l'arbre A  soit le bon, sous le modéle choisi.
 (1)                             (2)
     \                             /
       \                         /
          ----------                                   Arbre A
        /                        \
      /                            \
    (3)                            (4)
La vraissemblance de l'arbre est en général indépendante de la position de la racine, on peut donc l'enraciner de manière arbitraire :
1       2    3         4
  \     /      |          /
    \ /        |        /
       \       |     /
         \     |   /
            \  | /
          ACGT ?

La vraissemblance au site j :
C       C   A        G
  \     /      |          /
    \ /        |        /
ACGT?  |       /
       \       |     /
         \     |   /
            \  | /
          ACGT ?
La vraissemblance pour un site j est la somme des probabilités de toutes les possiblités de reconstruction de l'état ancestral sous le modèle choisi.
La vraissemblance de l'arbre A  est en général évaluée en sommant les logs des vraissemblances pour chaque site (la somme des probabibilités est trop faible).
L'arbre du maximum de vraissemblance est celui avec la vraissemblance la plus élevée.

 Les modèles évolutifs
Les probabilités obtenues à chaque site dépendent du modèle choisi et dans le modèle le plus simple
- on suppose que la probabilité de chaque changement est indépendante des changements précédents (Modèle de Markov).
- on suppose que les probabilités de substitution ne changent pas au cours du temps (le long de l'arbre).
- on suppose les changements réversibles : P(A -> T) = P(T -> A).
On peut introduire d'autres paramètres dans le modèle afin d'accroître son réalisme :
- des taux de substitutions différents pour chaque remplacement (matrice 4*4 pour l'ADN ou matrice de substitution)
- une correction pour le nombre de sites suceptibles de muter et des taux de substitutions variables pour ces sites.
- un taux de variation différents pour chaque site : on peut par exemple utiliser une distribution statistique (distribution gamma)

Il faut savoir que plus on introduit de paramètres, plus le calcul sera long et plus il y aura une accumulation de petites erreurs : il vaut mieux utiliser un modèle simple.

Le maximum de vraissemblance est une bonne méthode de reconstruction phylogénétique mais il faut que le modèle de départ corresponde bien aux données. Pour estimer les paramètres, on peut utiliser une méthode plus rapide et utiliser l'arbre obtenu pour fixer les paramètres de départ.
Cette méthode n'est utilisable que si on a un petit nombre de séquences.
 
 

2.3. Le bootstrap (et autres méthodes d'évaluation)

Quand on a obtenu un arbre, il faut ensuite évaluer la confiance que l'on peut avoir dans cet arbre. Pour cela plusieurs méthodes sont disponibles.
Le bootstrap
Cette méthode, partant du postulat que les caractères évoluent de manière indépendante, est sans doute la plus utilisée en phylogénie. Elle a été inventée par Bradley Efron en 1979 et introduite en phylogénie par Felsenstein en 1985 dans le package Phylip.
Cette méthode peut être divisée en 3 étapes réalisées chacune au moins 100 fois:
- Réalisation d'un pseudo-alignement A' à partir des séquences d'origine en prenant arbitrairement n colonnes (avec remplacements) de l'alignement d'origine.
- Estimation de l'arbre obtenu : T'.
- Comparaison des arbres T et T' : pour chaque sous-arbre de T, on regarde s'il est présent dans T'.
On compte ensuite pour chaque sous-arbre le nombre de fois où il est présent dans les T'. Cette fréquence avec laquelle on retrouve un sous-arbre est la valeur de bootstrap (plus elle est élevée plus la fiabilité de la branche est importante).

Delete-half-Jackknifing :
Cette méthode, prônée par Wu (1986) ré-échantillonne la moitié des sites des séquences et élimine le reste. Cette méthode donne des résultats très similaire à ceux obtenus par bootstrap.
Permutation :
Cette méthode introduite par Archie (1989) et Faith (1990, Faith et Cranston 1991)est basée sur la permutation des colonnes de la matrice. Ce la produit des matrices ayant le même nombre de colonnes, les mêmes caractères mais qui n'ont plus de structure taxonomique. Cette méthode est utilisée dans un but différent par rapport au bootstrap : elle teste l'hypothèse qu'il y a bien une taxonomie dans les données actuelles.
 

2.4. Enraciner un arbre

Le plus souvent, les méthodes de reconstruction phylogénétiques aboutissent à des arbres non enracinés. Pour enraciner un arbre, on peut ajouter une séquence dont on sait qu'elle est beaucoup plus ancienne que toutes les autres séquences.
Cependant , il ne faut pas que la séquence choisie pour enraciner l'arbre soit
- trop éloignée des autres données. En effet, cela peut conduire à des erreurs dans la topoolgie de l'arbre.
- soit trop proche des séquences car dans ce cas, cela n'est peut-être pas un vrai "outgroup".
L'utilisation de plus d'un "outgroup" améliore en général l'évaluation de l'arbre.
Enfin, en l'absence d'un bon "outgroup", la racine peut être positionnée approximativement à égale distance de toutes les séquences : on parle alors de mid-point rooting.
La topologie des arbres est soumise à de nombreuses variations et dépendent :
- de la nature des séquences utilisées (acides nucléiques ou protéines)
- de la méthode utilisée (méthodes de distances ou parcimonie)
- de la qualité de l'alignement
- du nombre de séquences incluses dans l'alignement
- de l'ordre des séquences dans l'alignement
- du choix de la racine.

3.Récapitulatif

 
METHODES SEQUENCES AVANTAGES INCONVENIENTS PROGRAMMES REMARQUES
Distances Très proches Rapides

Faciles à mettre en oeuvre

Tous les sites sont traités de manière équivalente d'où un perte d'informations

Non applicables à des séquences éloignées

DNAdist

Protdist

FITCH

KITSCH

Il vaut mieux utiliser le Neigbor-joining plutôt qu'UPGMA car Nj autorise des taux de mutations différents le long des branches

Possibilité d'introduire des corrections

Parcimonie Relativement éloignées Evaluation de différents arbres

Essaie de donner des informations sur les séquences ancestrales

Lente

Inutilisable lorsque l'on a un grand nombre de séquences

DNApars

PROTpars

On peut obtenir plusieurs arbres équivalents et dans ce cas le choix de l'un par rapport aux autres peut être difficile à justifier
ML éloignées Robuste

taux de transisitions/transversions différents

Estimation de la longueur des branches de l'arbre final

Lente

Inutilisable lorsque l'on a un grand nombre de séquences

FastDnaml  

 

III. CONCLUSION

L'étude de la phylogénie est un vaste domaine et quelque soit la méthode utilisée, des hypothèses très simplificatrices sont faites sur l'évolution biologique des séquences. Actuellement, pour reconstruire une bonne phylogènie, la qualité et le nombre des données provoquent plus de variations au sein d'un arbre qu'un changement de méthode.
Pour construire de bons arbres, il faut :
- Avoir le plus grand nombre de gènes homologues possibles
- Aligner les séquences très soigneusement
- Eliminer les régions ambigues, les régions hypervariables, les gaps  des alignements
- Utiliser si possibles plusieurs méthodes de reconstruction, prendre NJ plutôt que UPGMA (le neighbor-joining autorise des taux de mutations différents sur les branches) et incorporer des biais dans les taux de mutations / substitutions.
- Evaluer l'arbre statistiquement : bootstrapping.
Souvent les arbres obtenus sont différents selon le gène considéré. Cela est du à plusieurs causes :
- Tous les gènes n'ont pas la même vitesse d'évolution
- L'évolution convergente
- Les phénomènes de recombinaison
- Les transferts de gènes
- La confusion gènes paralogues (duplication au sein d'une espèce) / gènes orthologues (même gène dans des espèces différentes):

 

IV. BIBLIOGRAPHIE

Divers documents html sur l'analyse de séquences (Fred Opperdoes)
Cours d'analyse de séquences (Daniel Gautheret)
Site sur l'évolution
Estimating Phylogenetic Trees
Maximum Likelihood
Phylip Home Page