
Pour simplifier la présentation de phénomènes complexes dépendant de plusieurs variables, on utilise souvent un nombre, appelé indice, qui rassemble plusieurs informations. Ainsi, que signifie l’indice de refroidissement éolien, ou encore l’indice humidex ? Comment l’indice de Gini permet-il de comparer les inégalités dans la répartition de la richesse ? Comment les Nations unies classifient-elles les pays sur une échelle de développement humain ? Comment définir des indices pour mesurer la biodiversité d’écosystèmes ?
La première idée qui nous vient à l’esprit quand on veut condenser plusieurs informations en un seul nombre est la notion de moyenne. Et on peut vouloir la généraliser en donnant des poids aux différents éléments. On parle alors de moyenne pondérée. Elle fonctionne bien pour les notes dans les résultats scolaires. On peut aussi parler du salaire moyen. Par contre, si le taux d’intérêt varie chaque année et que l’on veut calculer le taux d’intérêt moyen, la moyenne usuelle, appelée moyenne arithmétique, ne donne pas le résultat cherché et on doit plutôt utiliser une moyenne géométrique. Regardons en effet le cas où, l’année $i$, un montant $x$ placé en début d’année devient $r_ix$ en fin d’année. Après $n$ années, le montant est devenu
\[y = r_1 … r_nx.\]
Si le rendement avait été constant égal à $r$, on aurait dû avoir $y = r^nx$, d’où l’on tire
\[r = (r_1 … r_n)^{1⁄n},\]
c’est-à-dire que $r$ est la moyenne géométrique de $r_1,…,r_n$. Pour un épargnant, c’est équivalent d’avoir un rendement $r$ pendant $n$ années ou bien d’avoir des rendements consécutifs $r_1, … , r_n$. Donc si on considère la fonction $f (s_1, … , s_n ) = s_1 … s_n$, alors on a
\[f (r_1, … , r_n )=f (r, … , r),\]
c’est-à-dire que $(r_1, … , r_n)$ et $r, … , r)$ sont sur la même surface de niveau de f.
On peut généraliser cette idée: pour combiner plusieurs informations en une seule, on va vouloir utiliser des fonctions de ces informations dont la surface de niveau a une signification importante. Voyons des exemples.
Le refroidissement éolien
Quelle est la situation la plus dangereuse pour les engelures? Quand il fait –25° sans vent ou quand il fait –20° et qu’il vente à 40 km/h? On a l’impression de deux situations incomparables. Une information importante pour quiconque se promène dehors est le risque d’engelure lorsque le visage est exposé au grand froid. Ce risque augmente s’il y a du vent. L’indice de refroidissement éolien, R, mis au point par des chercheurs canadiens et américains et utilisé depuis 2001, vient combiner les deux informations que sont le vent et la température. Il est calculé pour une vitesse v du vent supérieure à 4,8 km/s. Cet indice est une fonction R de la température, T, et de la vitesse du vent, v. L’idée de sa définition est que si $R(T_1,v_1)=R(T_2,v_2)$, alors les risques d’engelure, lesquels sont mesurés par la vitesse à laquelle des engelures se produisent, sont les mêmes. Cet indice de refroidissement éolien est donné par une formule compliquée dérivée expérimentalement :
\[R =13,12+0,6215T +(0,3965T −11,37)v^{0,16},\]
où la vitesse est en km/h, et la température, en degrés Celsius.
Nous ne nous attarderons pas sur sa définition, mais ses courbes de niveau sont données ci-contre.
Ceci signifie que, sur chacune de ces courbes, le risque d’engelure sur le visage est le même, et on voit bien que la peau peut supporter des températures beaucoup plus froides lorsque le vent est faible. Mais, l’indice de refroidissement éolien n’est pas une vraie température, seulement une température ressentie. Le moteur d’une voiture qui a passé la nuit dehors à –20 est à –20, qu’il y ait du vent ou que ce soit le calme plat.
L’indice humidex
Cet indice calcule la capacité du corps humain à se refroidir lors de grosses chaleurs.
Puisque le corps se refroidit en transpirant, cette capacité diminue lorsque l’air ambiant est très humide. Au Canada on utilise depuis 1979 un indice humidex qui dépend de la température, $T$, et du point de rosée, $t$, tous deux évalués en degrés Celsius. Le point de rosée est une mesure de l’humidité : c’est la température à laquelle l’humidité présente dans l’air se condense. Le point de rosée est toujours inférieur ou égal à la température ambiante.
La formule de l’indice humidex est compliquée, et ici non plus nous ne discuterons pas de son élaboration :
\[H = T + 0,555 \displaystyle [6,11 e^{5417,7530 (\frac{1}{273,16}-\frac{1}{273,15+t})}-10 ].\]
L’indice n’est pas défini dans la région $t > T$, et des courbes de niveau sont données dans la marge en bas à droite.
Ici encore, ce sont les courbes de niveau qui sont importantes : le long de chacune de ces courbes le corps a la même capacité de se refroidir. On voit que, pour un humidex donné, plus l’air est humide et moins la température est élevée.
Le coefficient de Gini en économie
Le coefficient de Gini est un indice qui a été introduit en économie pour comparer les différents pays en termes de distribution équitable de la richesse. Pour un pays donné, il mesure comment est répartie la richesse entre les individus de ce pays.
Regardons sa définition. Un pays pauvre pourrait avoir une répartition équitable de la richesse, et un pays riche, une distribution inéquitable. Donc, il faut un critère qui soit indépendant de la richesse du pays. Le genre de critère qui satisfait à cette contrainte est, par exemple, de se donner le pourcentage de la richesse du pays que possèdent les 25 % plus pauvres de la population. Mais, il n’y a pas de raison de se limiter à 25 %. Étant donné la proportion $p\in[0,1]$ des plus pauvres de la population, on peut se donner la fonction $L(p)$ mesurant la fraction totale de la richesse que cette proportion de la population possède. Alors, cette fonction $L$, appelée fonction de Lorenz, est croissante, $L(0) = 0$ et $L(1)=1$. Si la richesse est équidistribuée, alors $L(p) = p$. Si une seule personne possède toute la richesse, alors $L(p)=0$ sauf quand on arrive à la dernière personne. Moins la richesse est équidistribuée, plus le graphe de L est loin de la diagonale. On mesure cette distance par l’aire entre les deux courbes. En fait cette aire est un nombre de [0,1⁄2] en orange sur la figure ci-contre. Donc, pour obtenir un nombre entre 0 et 1, le coefficient de Gini (aussi appelé indice de Gini) sera défini comme deux fois cette aire. Il prend la valeur 0 quand la richesse est équidistribuée, et une valeur à peu près égale à 1 quand toute la richesse est aux mains d’un seul individu.
Voici les coefficients de Gini des différents pays en 2013, là où la situation est connue.

Source : CIA Factbook (retreived: 24/12/2013)
https://fr.wikipedia.org/wiki/Coefficient_de_Gini#/media/Fichier:World_Income_Gini_Map_(2013).svg
L’indice de développement humain (IDH) des Nations unies
Cet indice a été introduit par les Nations unies en 1990 pour mesurer le taux de développement humain des pays de par le monde. La formule a été améliorée au cours du temps, et la formule actuelle s’est cristallisée en 2011. L’indice de développement humain (ou IDH) prend ses valeurs dans [0, 1], où 0 est la plus mauvaise note, et 1, la meilleure note (voir carte ci-dessous).
Il rassemble trois sous-indices mesurant respectivement la santé-longévité $(I_v)$, le niveau d’éducation $(I_e)$, et le niveau de vie $(I_n)$. Chacun des sous-indices est lui-même un nombre dans [0,1], et l’indice de développement humain est défini comme la moyenne géométrique de ces trois sous-indices :
\[IDH=\sqrt[3]{I_v \cdot I_e \cdot I_n}.\]
Remarquons qu’il faut s’assurer que chacun des sous-indices soit non nul, sinon la moyenne géométrique sera nulle. Aussi, les différentes quanti- tés mesurées ont des unités de mesure non comparables. Idéalement, l’indice et les sous-indices ne devraient pas avoir d’unité de mesure. Pour définir un sous-indice prenant des valeurs dans [0, 1], on choisit un indicateur, on se donne une valeur maximale et une valeur minimale de cet indicateur pour l’ensemble des pays et, pour chaque pays, on normalise l’indicateur de la manière suivante :
\[\displaystyle \text{sous-indice} = \frac{\text{valeur pour le pays-valeur minimale}}{\text{valeur maximale – valeur minimale}} \: (^*)\]
Ainsi, le sous-indice n’a pas d’unité.
Il est naturel de mesurer la santé-longévité par l’espérance de vie. En effet, si les conditions de santé ne sont pas bonnes dans un pays, que ce soit dû à un accès difficile à des soins de santé, ou à de mauvaises conditions dans les milieux de travail, ou encore à d’autres causes, cela se ressentira sur l’espérance de vie. On prend 20 pour valeur minimale, et la valeur maximale a varié selon les années : elle est de 85 dans le rapport 2020 des Nations unies.
Le choix des valeurs minimale et maximale n’est pas anodin. Si on prenait 0 comme valeur minimale on donnerait une note de 0,69 à un pays ayant une espérance de vie de 50 ans, alors qu’avec la valeur minimale de 20, sa note est de seulement 0,35.
Pour le niveau d’éducation, on commence par se donner la durée moyenne de scolarisation que l’on compare aux durées moyennes minimale et maximale prises comme 0 et 15 en 2020 : c’est un premier sous-sous-indice, $I_e,1$, calculé par la formule $(^*)$. Mais, on veut ajouter une deuxième composante, qui mesure le progrès fait par le pays en termes d’éducation. Ainsi, deux pays peuvent avoir la même durée moyenne de scolarisation, par exemple 9 ans, mais le premier pourrait avoir une durée moyenne de scolarisation de 9 ans pour toute la population, alors que le deuxième serait passé d’une scolarité universelle de niveau élémentaire pour les 40 ans et plus à une scolarité universelle de niveau secondaire pour les jeunes générations et avoir instauré des politiques encourageant l’éducation supérieure. Une manière de quantifier cette distinction est de se donner la durée attendue de la scolarisation que l’on compare aux valeurs minimale et maximale de 0 et 18 utilisées en 2020, 18 ans correspondant au nombre d’années de scolarité pour une maitrise. Ceci donne le deuxième sous-sous-indice, $I_e,2$, aussi calculé par la formule $(^*)$. Le sous-indice pour l’éducation est la moyenne arithmétique des sous-sous-indices :
\[I_e = \frac{1}{2}( I_{e,1} + I_{2,2}) .\]
Le troisième sous-indice mesurant le niveau de vie est calculé par la formule $(^*)$ en utilisant le produit national brut per capita du pays (en dollars américains) avec des valeurs minimale et maximale de 100 et 75 000 en 2020. Le maximum de 75 000 est justifié par le fait que les quelques valeurs supérieures à 75 000 (3 pays en 2020) ne changent pas significativement le niveau de vie. Pour ces pays, on pose $I_n=1$, plutôt que de permettre une valeur supérieure à 1 parce qu’on veut pas que $I_n$ puisse compenser complètement une faiblesse du côté santé et/ou éducation.
Mesurer la biodiversité des écosystèmes
On considère qu’un écosystème est riche quand il abrite beaucoup d’espèces différentes. Donc, un indice naturel de biodiversité d’un écosystème est la richesse spécifique, donnée par le nombre absolu d’espèces y nichant. C’est un indice qui fournit peu d’information sur la santé d’un écosystème. Certaines espèces peuvent être en très petit nombre, peut-être même menacées d’extinction. De plus, l’arrivée d’une espèce invasive augmente à court terme la valeur de l’indice, mais peut menacer la survie d’autres espèces à plus long terme. Regardons deux peuplements forestiers.
Dans le premier peuplement, on a 30 % d’érables, 30 % de sapins baumiers et 40 % de merisiers.
Dans le second, on a 10 % d’érables, 10 % de bouleaux gris, 10 % de mélèzes laricins, 20 % de merisiers et 50 % de sapins baumiers. Le deuxième peuplement a une plus grande richesse spécifique, mais a-t-il vraiment une plus grande biodiversité ? En effet, il abrite cinq espèces au lieu de trois, mais il compte une surreprésentation de sapins baumiers. Donc, pour quantifier la biodiversité on voudrait compléter le premier indice par un second indice qui mesure la répartition entre les espèces, appelé équitabilité spécifique, et qui tempère la richesse spécifique.
Il n’existe pas un unique indice mesurant l’équitabilité spécifique. Plusieurs sont utilisés dans la littérature scientifique. Chacun a ses caractéristiques propres, mais aussi ses faiblesses. Et il est recommandé de prendre en compte le contexte particulier dans le choix d’un indice pour évaluer la biodiversité d’un écosystème. En particulier, plus le recensement est substantiel, plus on risque de découvrir de nouvelles espèces rares. Parmi ces indices, deux ont été introduits en 1949 : l’indice de diversité de Simpson a été introduit en écologie, alors que l’indice de Shannon-Wiener est emprunté à l’informatique théorique.
L’indice de diversité de Simpson
Cet indice, proposé par le statisticien Edward H. Simpson (1922-2019), est donné par la probabilité que deux spécimens choisis au hasard appartiennent à la même espèce. Supposons que l’on ait $n$ espèces en proportions respectives $p_1, …, p_n$. On a donc
\[p_1 + \cdots + p_n= 1, p_i \in[0,1],\: (^*)\]
qui est un simplexe dans l’espace $(p_1, …, p_n)$. La probabilité que deux spécimens choisis au hasard appartiennent à l’espèce $i$ est $p_i^2$. Alors, l’indice de Simpson est
\[S = p_1^2+ \cdots + p_n^2.\]
On peut montrer que, sous la contrainte $(^*)$, $S$ est minimum pour
\[p_1= \cdots = p_n = 1⁄n \:(^{**})\]
et vaut alors $S =1⁄n$. Ceci se voit en faisant grossir une sphère $p_1^2+ … +p_n^2=S$ centrée à l’origine. La première fois qu’elle touche au simplexe $(^*)$ est au point $(^{**})$ (voir figure). La sphère cesse de couper le simplexe lorsqu’elle passe par les sommets du simplexe quand $S = 1$.
Donc, $S$ prend ses valeurs dans $[1/n,1]$. Et, plus $S$ est petit, plus l’équitabilité spécifique est grande. Un problème avec cet indice est que la longueur de cet intervalle dépend du nombre d’espèces, $n$, ce qui rend plus difficile la comparaison entre les valeurs de S pour deux écosystèmes ayant des richesses spécifiques différentes.
Pour le premier peuplement, $S = 0,34$, et pour le second, $S = 0,32$. On pourrait dire que 0,32 < 0,34, mais 0,34 est beaucoup plus proche de 1⁄3 que 0,32 ne l’est de 1⁄5: ceci reflète le fait que le premier peuplement est plus uniformément réparti que le second.
L’indice de diversité de Simpson varie peu si on découvre tout à coup de nouvelles espèces rares passées inaperçues lors des premières analyses de la structure du peuplement.
L’indice de Shannon-Wiener
Reprenons l’exemple de nos deux peuplements forestiers et, dans chacun, choisissons un arbre au hasard. On a plus d’incertitude dans le premier peuplement que dans le second où, dans 50 % des cas, on va avoir choisi un sapin baumier. L’indice de Shannon-Wiener est une mesure de cette incertitude. La formule de cet indice est compliquée et sa justification apparaît dans l’encadré. On va étudier ses propriétés. Ici encore, on suppose que l’on ait $n$ espèces en proportions respectives $p_1,\cdots,p_n$, satisfaisant à $(^*)$. L’indice de Shannon-Wiener est défini comme
\[H = −p_1 \log_2 p_1 − \cdots − p_n \log_2 p_n .\]
Remarquons que $H = 0$ si on a une seule espèce, c’est-à-dire $n = 1$ et $p_1 = 1$. Aussi, $H \geq 0$, et on peut montrer (avec les multiplicateurs de Lagrange) que H atteint son maximum lorsque $p_1 = … =p_n=1⁄n$, c’est-à-dire quand l’équitabilité spécifique est maximale. Ce maximum vaut alors $\log_2 n$. Donc, $H \in[0, log_2n]$ et, plus $H$ est grand, plus l’équitabilité spécifique est grande. Remarquons maintenant que les dérivées partielles par rapport à pi tendent vers l’infini quand $\pi \to 0$
\[\displaystyle \lim_{p_1 \to 0} \frac{\delta H}{\delta p_1} = + \infty.\]
Ceci signifie que l’indice de Shannon- Wiener est très sensible aux espèces rares ou encore à l’introduction de nouvelles espèces.
Pour le premier peuplement, $H=1,57$, soit très proche de la valeur maximale de 1,585. Pour le deuxième peuplement $H=1,96$, alors que le maximum potentiel est 2,32. On peut se demander pourquoi les indices de Simpson et Shannon-Wiener n’ont pas été normalisés dans la littérature scientifique pour prendre des valeurs dans tout l’intervalle [0,1], comme cela a été fait pour les sous-indices de l’indice de développement humain…
L’indice de Shannon
L’américain Claude Shannon (1916-2001) était à la fois mathématicien et ingénieur en génie électrique. Il est souvent considéré comme le père de la théorie de l’information. Dans la théorie de l’information, l’entropie de Shannon mesure la quantité d’information qu’un récepteur doit obtenir pour connaître un signal émis. Cette quantité d’information croît avec l’incertitude sur le signal. Voici l’idée derrière la formule de l’entropie de Shannon. Prenons le cas où on a un signal comprenant m bits et donc $N=2^m$ signaux possibles. Pour connaître complètement le signal, il faut connaître chacun de ces bits, donc $m = \log_2N$ informations. Imaginons maintenant que chacun de ses $N$ signaux (chaque signal est un vecteur de $m$ bits) représente un spécimen d’une population et que cette population soit divisée en $n$ espèces comprenant respectivement $N_1, …, N_n$ individus.
La quantité moyenne d’information nécessaire pour identifier complètement un spécimen est égale à la quantité d’information pour identifier l’espèce du spécimen, que nous appellerons $H$ et qui est inconnue, à laquelle on ajoute la moyenne pondérée des quantités d’informations pour identifier chaque spécimen dans son espèce. La quantité d’information nécessaire pour identifier un spécimen dans l’espèce $i$ est $log_2N_i$, si on refait le même raisonnement que ci-dessus. La moyenne pondérée de ces quantités est
\[\displaystyle \sum_{i-1}^n \frac{N_i}{N}\log_2N_i = \sum_{i-1}^n p_i \log_2N_i,\]
où $p_i = N_i/N$ est la probabilité qu’un spécimen choisi au hasard appartienne à l’espèce $i$.
On a alors
\[\displaystyle \log_2N=H+ \sum_{i-1}^n p_i \log_2N_i,\]
dont on tire
\[\displaystyle H=\sum_{i-1}^n p_i \log_2N_i – \log_2 N \sum_{i-1}^n p_i,\]
ou encore
\[\displaystyle H= \sum_{i-1}^n p_i \log_2 \frac{N_i}{N} = \sum_{i-1}^n p_i \log_2 p_i.\]