La théorie de l’évolution s’appuie sur l’observation de la nature. La statistique permet de déterminer si ces observations témoignent de phénomènes réels.
C’est au naturaliste britannique Charles Darwin (1809-1882) que nous devons la théorie de l’évolution selon laquelle les espèces vivantes sont en perpétuelle transformation morphologique et génétique. Cette théorie, aujourd’hui largement admise, allait à l’encontre des dogmes religieux du 19e siècle et il fallut à Darwin plus de vingt ans de travaux pour bâtir son argumentaire et convaincre ses contemporains du bien-fondé de cette thèse par le truchement de son monumental ouvrage, L’origine des espèces, paru en 1859.
Selon cette théorie, différents phénomènes, dont la sélection naturelle, font en sorte que les individus les mieux adaptés à leur environnement se reproduisent davantage que les autres, ce qui conduit à terme à l’apparition ou à la disparition de certaines espèces. Darwin conçut cette théorie à la suite des travaux d’observation géologiques et zoologiques qu’il réalisa entre 1831 et 1836 au cours de trois voyages d’exploration en Amérique du Sud et dans l’océan Indien à bord du navire HMS Beagle.
Sur les îles Galápagos, Darwin observa la présence d’une douzaine d’espèces d’oiseaux apparentés mais présentant des particularités quant à leur comportement, leur chant, et surtout la taille et la forme de leur bec. Une fois rentré en Angleterre, il montra ses spécimens au célèbre ornithologue John Gould (1804-1881), qui conclut que malgré leurs différences morphologiques, ces espèces appartenaient toutes aux genres Geospiza et Camarhynchus. Il s’agissait dans tous les cas de passereaux, communément appelés pinsons.
Partant du fait que ces pinsons n’étaient pas répartis uniformément sur les îles de l’archipel, Darwin en conclut que l’isolement géographique, la diversité des habitats et des sources d’alimentation avaient conduit à la création d’espèces distinctes issues d’ancêtres communs. Ce phénomène dit de spéciation, manifeste dans la morphologie du bec des pinsons des Galápagos, nourrit les réflexions de Darwin sur l’évolution des espèces et la sélection naturelle en réponse à des changements environnementaux.
Depuis ce temps, de nombreux autres exemples de spéciation sont venus confirmer la théorie de Darwin. Dans un ouvrage de vulgarisation intitulé « The Beak of the Finch » qui lui a valu le prix Pulitzer en 1994, l’écrivain américain Jonathan Weiner a notamment décrit les travaux réalisés subséquemment par les biologistes britanniques Peter et Rosemary Grant, qui ont mis en évidence certaines évolutions de ces espèces.
Répartition des pinsons sur les îles
À la base, la théorie de Darwin repose sur l’observation que les 13 espèces de pinsons des îles Galápagos ne sont pas réparties au hasard dans l’archipel. Le tableau 1 témoigne de ce fait. Douze espèces de pinsons et 17 îles de l’archipel y figurent. La 13e espèce, présente partout, a été exclue par souci d’économie.
En termes mathématiques, le tableau 1 est une matrice X à double entrée dont l’élément Xij, situé à l’intersection de la ligne i et de la colonne j, est tel que Xij = 1 si l’espèce de pinson i est présente sur l’île j et Xij = 0 sinon. On remarque que certaines espèces sont présentes sur plusieurs îles et d’autres non. Par exemple, l’espèce #1 se retrouve sur 14 îles et l’espèce #12 sur à peine deux d’entre elles.
Par ailleurs, on constate que certaines espèces ont tendance à cohabiter, tandis que d’autres pas, comme le montre le tableau 2 des « co-occurrences » entre les espèces. Ce tableau n’est autre que le produit S = XXT de la matrice X par sa transposée XT. L’élément Sij situé à l’intersection de la ligne i et de la colonne j de la matrice S représente le nombre d’îles où les espèces i et j cohabitent. Cette matrice est forcément symétrique et l’élément Sii représente le nombre d’îles sur lesquelles vit l’espèce \(i \in \{1,…,12\}\).
À titre d’exemple, l’espèce #2 habite sur 13 îles. L’espèce #1 est aussi présente sur 11 d’entre elles mais l’espèce #6 sur aucune d’elles. Autrement dit, on a S21 = 11 et S26 = 0.
Ces observations pourraient-elles n’être que le fruit du hasard ou, au contraire, témoignent-elles de réels phénomènes biologiques ou comportementaux ? La question mérite réflexion car il serait hasardeux de chercher une explication, voire d’échafauder une théorie, sur de simples coïncidences. C’est ici que la statistique « vole » à la rescousse, pour ainsi dire.
Le test exact de Fisher
Supposons que l’espèce i soit présente sur m îles et qu’une autre espèce j soit présente sur n îles. Supposons en outre qu’il y ait Sij = x îles où les deux espèces sont présentes. Pour évaluer si la valeur de x sort de l’ordinaire ou non (et donc si cette observation mérite que l’on s’y arrête), le test exact de Fisher procède en deux étapes, comme suit :
- Énumérer les valeurs possibles de x et en déterminer les probabilités sous l’hypothèse que c’est par pur hasard que les deux espèces ont choisi les îles où elles sont établies.
- Pour juger si la valeur observée x témoigne ou non d’une tendance à cohabiter, calculer la probabilité Pr(X ≥ x) d’observer par hasard une valeur au moins aussi grande que x.
Considérons par exemple le cas des espèces i = 1 et j = 2. Le tableau 2 nous révèle que l’espèce #1 est présente sur m = 14 îles et l’espèce #2 sur n = 13 îles. De plus, elles coexistent sur x = 11 îles. Si les espèces ont choisi les îles où elles habitent par pur hasard, alors il y a
a) (17 × 16 × 15)/(3 × 2 × 1) = 680 façons de choisir m = 14 îles pour l’espèce i;
b) (17 × 16 × 15 × 14)/(4 × 3 × 2 × 1) = 2 380 façons de choisir n = 13 îles pour l’espèce j.
Il y a donc au total 680 × 2380 = 1 618 400 façons possibles de remplir les deux premières lignes du tableau 1 et elles sont toutes équiprobables si les espèces se répartissent au hasard. Chacune d’entre elles conduit à une valeur de x. En compilant les résultats, on aboutit au tableau 3.
Puisque la valeur observée est x = 11, on trouve
Pr(X ≥ x) = 937 720/1 618 400 ≈ 0,579,
ce qui constitue le seuil observé du test. Cette valeur étant assez élevée, il n’est pas exclu que ces 11 co-occurrences soient attribuables au hasard. Autrement dit, on ne peut pas se baser sur cette observation pour élaborer une théorie.
On peut répéter l’exercice pour d’autres paires d’espèces et donc faire au total (12 × 11)/2 = 66 tests différents, dont les seuils observés sont donnés dans la partie triangulaire supérieure du tableau 4. Dans ce tableau, l’entrée pij = Pr(X ≥ Sij) représente le seuil observé du test exact de Fisher pour les espèces i < j. On a par exemple p12 = 0,579, tel que calculé plus haut.
Heureusement, la combinatoire permet de simplifier les calculs. En effet, quelles que soient les m îles choisies par la première espèce, il y aura x co-occurrences si la seconde espèce choisit au hasard x îles parmi les m déjà identifiées par la première espèce et n – x îles parmi les autres. Ceci n’est possible que pour les valeurs entières de x telles que x ≤ min(m, n) et n – x ≤ 17 – m. Pour chaque telle valeur de x, on trouve alors
\[\Pr(X=x) = \displaystyle \frac{\begin{pmatrix}m\\x\end{pmatrix}\begin{pmatrix}17-m\\n-x\end{pmatrix}}{\begin{pmatrix}17\\n\end{pmatrix}}, \] où \[\displaystyle \begin{pmatrix}a\\b\end{pmatrix} = \frac{a!}{b!(a-b)!}\]
dénote le coefficient binomial. Cette équation permet de calculer relativement facilement le seuil observé Pr(X ≥ Sij) pour chaque paire (i, j) d’espèces.
En consultant le tableau 4, on constate que certains seuils observés sont très petits. Par exemple, on trouve p25 = 0,002, ce qui suggère que les espèces #2 et #5 ont véritablement tendance à cohabiter. Il appert aussi que les espèces #7, 9 et 10 occupent la même niche écologique (puisque les seuils observés sont aussi petits). Il vaudrait donc la peine qu’un.e biologiste se penche sur la question et cherche les causes de ce phénomène, lequel ne semble pas relever du hasard.
Quant aux valeurs rapportées sous la diagonale principale du tableau 4, ce sont celles des probabilités pij = Pr(X ≤ Sij) pour toute paire d’espèces i > j. De très petits seuils observés permettraient de conclure que les espèces correspondantes cherchent à s’éviter. Cela ne semble pas être le cas, puisque la plus petite valeur observée, p62 = 0,044, n’est pas significative.
Comparaisons multiples
Bien que la méthodologie associée au test de Fisher soit irréprochable et éprouvée, le fait de l’utiliser à répétition sur le même échantillon peut conduire à l’identification de « faux positifs ». Pour illustrer ce problème, supposons qu’un.e chercheur.e juge un résultat significatif au seuil de 1 %, c’est-à-dire si la valeur x prise par la variable X est telle que Pr(X ≥ x) = 0,01. Ce choix est raisonnable car il n’y a alors que 1 % des chances de conclure à tort à la présence d’un signal.
Or si on répétait la procédure k fois sur des échantillons indépendants, la probabilité qu’au moins une des 100 valeurs observées de X soit supérieure à x par hasard serait alors q = 1 – (0,99)k. Quand k = 5, on trouve q ≈ 0,049 et quand k = 66, alors q ≈ 0,485. Plus le nombre de tests augmente, plus la probabilité d’obtenir au moins un faux positif devient grande.
Dans le cas des pinsons des îles Galápagos, la situation est aussi compliquée par le fait que les 66 tests possibles doivent tous être effectués sur le même échantillon. Avant de procéder à des comparaisons par paire, il importe donc de réaliser à prime abord un test global, c’est-à-dire qui tienne compte simultanément des 12 espèces et de leurs co-occurrences sur les 17 îles.
Un test global d’association
À partir du moment où l’on veut comparer plus de deux espèces, il est plus commode de raisonner en termes de co-occurrences négatives. Une telle co-occurrence se produit entre deux espèces i et j chaque fois qu’il existe deux îles U et V telles que i est présente sur U et pas sur V tandis que j est présente sur V mais pas sur U.
Considérons par exemple les espèces i = 1 et j = 2. En se référant au tableau 1, on doit donc chercher tous les patrons du type
\[\displaystyle \begin{pmatrix}0&1 \\1&0 \end{pmatrix}, \begin{pmatrix}1&0 \\0&1\end{pmatrix}, \]
où les deux colonnes correspondent aux choix possibles d’ensembles d’îles {U, V}. Comme il y a 17 îles, il y a en principe 17 × 16/2 = 136 comparaisons à faire, mais à peine 6 d’entre elles révèlent une co-occurrence négative entre ces deux espèces. Les ensembles d’îles correspondants sont {A, M}, {A, P}, {A, Q}, {B, M}, {B, P} et {B, Q}.
Il se trouve en fait que le nombre de co-occurrences négatives entre deux espèces i et j se déduit facilement du tableau 2. En effet, il est tout simplement donné par le produit
\[C_{ij} = (S_{ii} – S_{ij}) \times (S_{jj} – S_{ij}).\]
Dans notre exemple, on a Sii = 14, Sjj = 13 et Sij = 11, d’où Cij = 3 × 2 = 6.
Motivés par cette observation, le zoologiste israélien Lewi Stone et l’environnementaliste australien Alan Roberts ont proposé en 1990 de faire tout simplement la moyenne de toutes les valeurs Cij obtenues en faisant varier i et j systématiquement dans l’ensemble {1, …, r} des r espèces. Leur statistique, appelée C-score, s’exprime donc comme suit :
\[C= \displaystyle \frac{1}{\begin{pmatrix}r \\ 2 \end{pmatrix}} \sum^{r-1}_{i=1} \sum^r_{i+1} C_{ij}.\]
Ainsi, plus la valeur de C est grande, plus il y a présence d’association négative entre les espèces.
Pour les pinsons des îles Galápagos, on trouve C ≈ 6,22. Pour déterminer si cette valeur est révélatrice ou non d’une association négative entre les espèces, on procède alors selon la même logique que pour le test de Fisher. Autrement dit, il faut :
- Énumérer les valeurs possibles de C et en déterminer les probabilités sous l’hypothèse que c’est par pur hasard que les r espèces ont choisi les îles où elles sont établies.
- Pour juger si la valeur observée c témoigne ou non d’une tendance à cohabiter, calculer la probabilité Pr(C ≤ c) d’observer par hasard une valeur au moins aussi petite que c.
Comme on l’a déjà vu, il y a 680 × 2 380 = 1 618 400 façons possibles de remplir les deux premières lignes du tableau 1. Il y a aussi 680 façons de remplir la 3e ligne, 19 448 façons de remplir la 4e ligne, etc. Au total, il y aurait donc plus de 2,4 × 1 039 cas à énumérer pour pouvoir calculer la loi exacte de la statistique C sous l’hypothèse que les 12 espèces sont distribuées au hasard.
Malheureusement, cette tâche est hors de portée avec les moyens de calcul actuels. On procède donc plutôt par simulation, en générant au hasard un grand nombre de matrices, disons 10 000, sous l’hypothèse de répartition aléatoire des espèces. On calcule alors les 10 000 valeurs correspondantes de la statistique C, ce qui conduit à un polygone de fréquences, comme celui de la figure 1.
Cette figure montre que les 10 000 valeurs de la statistique C simulées à partir des totaux lignes du tableau 1 varient entre 6 et 12. Il se trouve qu’à peine 4 des 10 000 valeurs simulées sont plus petites que la valeur observée, soit C ≈ 6,22. Comme la valeur calculée sur les données est beaucoup plus petite que la vaste majorité de celles obtenues en simulant sous le modèle d’indépendance, on conclut, comme précédemment, qu’il existe des associations positive entre certaines espèces.
Prise en compte de la taille des îles
Bien que l’analyse statistique présentée ci-dessus soit parfaitement rigoureuse au plan mathématique, elle n’est pas exempte de critique. En effet, si on jette un coup d’oeil à la carte des îles Galápagos représentée à la figure 2, on se rend vite compte que certaines îles sont beaucoup plus grandes que les autres. Par exemple, Isabela (C) a une superficie de plus de 4 500 km2, alors que Pinta (O) en fait à peu près 60.
On s’attend donc à retrouver plus d’espèces sur les grandes îles que sur les petites, et c’est effectivement ce que l’on constate au tableau 1. Or, ni le test exact de Fisher ni celui de Stone et Roberts ne tient compte de ce facteur. Alors que le nombre total d’espèces par île varie de 2 à 10, moins de 3 % des 10 000 matrices 12 × 17 simulées aléatoirement reflétaient une telle étendue. L’analyse précédente doit donc être nuancée, puisqu’elle ne reproduit pas les conditions dans lesquelles les pinsons ont été observés sur les îles Galápagos.
Est-il possible de réaliser une analyse qui tienne compte des tailles très variables des îles ? La réponse à cette question est oui. Il suffit pour cela de comparer la valeur observée de la statistique C à sa distribution sur l’ensemble des matrices 12 × 17 dans lesquelles les 0 et les 1 sont placés au hasard, mais de telle sorte que les totaux de lignes et de colonnes soient les mêmes que ceux observés dans le tableau 1. On peut aussi faire de même pour toute statistique de la forme Sij, où i < j, et ainsi réaliser r(r–1)/2 tests exacts à totaux de lignes et de colonnes fixés.
Sauf dans des cas triviaux, on ne dispose pas d’une formule simple pour le calcul du nombre de tableaux r × s dont les totaux des lignes et des colonnes sont fixés. On peut toutefois générer de telles matrices aléatoirement à l’aide de méthodes dites MCMC fondées sur des chaînes de Markov Monte-Carlo. Un tel algorithme s’appuie sur une méthode de permutation proposée par les statisticiens britanniques Julian Besag et Peter Clifford.
Les analyses précédentes ont donc été refaites avec une méthode de simulation des matrices de présences-absences qui préservent les totaux des lignes et des colonnes du tableau 1. Ceci permet de révéler la présence d’associations négatives significatives entre certaines espèces. La plus marquée se produit entre les espèces #2 (G. fortis, à bec moyen) et #6 (G. conirostris, à bec conique). La première est présente sur 13 îles et la seconde sur deux îles. Cependant, on ne les trouve jamais sur la même île. Alors que le seuil observé du test d’association négative entre ces deux espèces était de 4,4 % au tableau 4, il chute à 0,4 % si on tient compte de la taille des îles.
Dans un article paru en 1973, l’ornithologue britannique Mike Harris (décédé tout récemment à l’âge de 84 ans) discute des co-occurrences et suggère que cette association négative est liée à la forme du bec des deux espèces. L’espèce #6, à bec conique, est spécialisée. Son bec long lui permet de s’alimenter sur les îles Española et Genovesa, qui sont relativement petites et arides (voir figure 2). En revanche, la diversité des sources d’alimentation sur les autres îles favorise l’espèce #2, le pinson à bec moyen, qui est plus polyvalent.
Conclusion
Les méthodes statistiques présentées ici permettent à la fois de confirmer des observations de terrain et de mettre en lumière certains phénomènes sur lesquels les biologistes peuvent alors se pencher pour formuler des conjectures, confirmer des hypothèses ou simplement approfondir nos connaissances sur l’évolution des espèces et la spéciation.
Au plan strictement mathématique, ces méthodes posent aussi des défis intéressants, dont celui d’énumérer toutes les matrices 0-1 à totaux de lignes et de colonnes fixés. Il reste aussi beaucoup de travail à faire pour améliorer l’efficacité des algorithmes utilisés pour générer de telles matrices et étudier leurs propriétés.
Charles Robert Darwin
Né le 12 février 1809 à Shrewsbury et mort le 19 avril 1882 à Downe, Darwin est un naturaliste et paléontologue britannique. Son ouvrage L’Origine des espèces paru en 1859, qui porte sur l’évolution des espèces vivantes, a changé notre perception du monde.
Pour en s\(\alpha\)voir plus !
- Besag, J. & P. Clifford (1989). « Generalized Monte Carlo significance tests ». Biometrika, vol. 76, pp. 633-642.
- Harris, M. P. (1973). « The Galápagos avifauna ». The Condor, vol. 75, pp. 265-278.
- Stone, L. & A. Roberts (1990). « The checkerboard score and species distributions ». Oecologia, vol. 85, pp. 74-79.
- Les pinsons des Galapagos de Darwin.