Quand deux équipes de hockey participent à la finale de la Coupe Stanley, la meilleure des deux ne triomphe pas toujours. Quelles sont ses chances de l’emporter ? Pourrait-on les améliorer en changeant le format de la série?
Depuis plus de cent ans, la Coupe Stanley est l’emblème de la suprématie au hockey sur glace en Amérique du Nord. Au terme d’une longue saison et de séries éliminatoires, les deux clubs finalistes sont départagés à la faveur d’une série d’affrontements appelée « finale de la Coupe Stanley ». Depuis 1939, le trophée est décerné à la première équipe qui cumule quatre victoires.
Tout au long de la saison, les amateurs et les professionnels y vont de leurs ana- lyses et pronostics, à grands renforts de statistiques. Le recours à des données permet aussi aux stratèges d’améliorer la performance de leur formation. Au baseball, où la « Série mondiale » se dispute également au meilleur de sept rencontres, les succès de la sabermétrique ont été illustrés de façon poignante dans le film Moneyball: L’art de gagner réalisé par Bennett Miller en 2011.
Bien qu’elle ne se pose pas avec autant d’acuité pour les joueurs, les entraîneurs et les partisans, une question importante pour la ligue et ses dirigeants est de savoir dans quelle mesure la formule retenue pour la finale est susceptible de couronner le meilleur club. En d’autres mots, quelles sont les chances qu’une série « 4 de 7 » soit remportée par la meilleure équipe? D’autres formats seraient-ils préférables? Ce sont ces questions que nous allons examiner ici.
Quelles sont les chances que la meilleure équipe remporte une série « 4 de 7 »?
Appelons A et B les deux équipes finalistes. Supposons que la probabilité \(p \in [0, 1]\) que le club A gagne un match contre le club B reste toujours la même et que l’issue de chaque rencontre est déterminée de façon indépendante. C’est évidemment une simplification qui ne tient pas compte d’éventuelles blessures aux joueurs vedettes, de l’avantage physique ou psychologique dont pourrait jouir l’équipe qui évolue à domicile, d’une baisse de régime, etc. Les calculs que nous allons faire seront néanmoins instructifs, car ces postulats ne sont pas totalement dénués de réalisme.
Nous dirons que le club A est meilleur que le club B si \(p > 1/2\) et nous supposerons dans la suite que l’équipe A est en fait celle qui joue à domicile lors du premier match. Bien qu’elles aient varié au fil des ans, les règles de fonctionnement de la Ligue nationale de hockey (LNH) permettent en effet de supposer que A est généralement le meilleur des deux clubs. À tout le moins cette formation bénéficie-t-elle de « l’avantage de la glace » comme on dit dans le jargon sportif, car la finale se déroule selon la formule 2–2–1–1–1. Ainsi, les matchs 1, 2, 5 et 7 sont disputés devant les partisans de A et les autres devant ceux de B. Les matchs 5, 6 et 7 n’ont lieu que si nécessaire.
Pour calculer les chances que A remporte la finale, distinguons quatre cas, selon que le vainqueur émerge à l’issue de 4, 5, 6 ou 7 matchs, sachant qu’aucun d’entre eux ne se termine par une nulle.
Les chances que A balaie la série en quatre rencontres sont les suivantes:
\[p \times p \times p \times p = p^4. \]
De même, la probabilité que A l’emporte en cinq matchs est
\[(1 – p) \times p \times p \times p \times p \\+ p \times (1 – p) \times p \times p \times p \\+ p \times p \times (1 – p) \times p \times p \\+ p \times p \times p \times (1 – p) \times p \\= 4(1 – p)p^4,\]
où la position du facteur \(1 – p\) dans chaque terme de la somme représente le numéro du seul match que l’équipe B a enlevé. Ce match ne peut évidemment pas être le cinquième, car le club A aurait déjà été couronné champion à l’issue du quatrième affrontement.
En poursuivant ainsi le raisonnement pour les finales disputées en 6 ou 7 matchs, on obtient la formule suivante pour la probabilité que l’équipe A remporte la coupe:
Pr(A gagne la coupe en « 4 de 7 »)
\(= p^4 + 4(1 – p)p^4 \\+ 10(1 – p)^2p^4 + 20(1 – p)^3p^4 \\ = -20p^7 +70p^6 -84p^5 +35p^4. \: (1)\)
Cette probabilité, qu’on dénotera \(G_4(p),\) est la même que celle d’obtenir quatre succès ou plus au terme de sept essais mutuellement indépendants lorsque la probabilité d’un succès est égale à \(p\). En termes probabilistes,
\[ G_4(p) = \text{Pr}(X ≥ 4) = 1 – \text{Pr}(X ≤ 3),\]
où X représente une variable aléatoire binomiale de paramètres p et n = 7. Cette probabilité se calcule facilement à l’aide de la commande 1-pbinom(3,7,p) du gratuiciel R.
La figure 1 montre l’évolution de \(G_4(p)\) en fonction de \(p \in [1/2, 1].\) Comme on peut le voir, la courbe est croissante en \(p,\) ce qui signifie que plus le club A est dominant, meilleures sont ses chances de gagner la finale. C’est rassurant! On constate en revanche que quand \(p = 1/2,\) il conviendrait de se limiter à un seul match, comme c’est la pratique au football canadien (finale de la Coupe Grey) ou américain (Superbowl). En effet, le fait de disputer une série « 4 de 7 » ne change en rien les chances que l’une ou l’autre équipe soit championne.
Autres formats: la série « k de 2k–1 »
Bien que la Coupe Stanley ait été attribuée pour la première fois en 1893, ce n’est qu’à partir de 1927 que la LNH en a obtenu le monopole. De plus, la formule adoptée pour la finale a évolué au fil du temps. En 1927 et 1928, on a expérimenté avec des formats particuliers. En 1929 et 1930, la série a été disputée sous la forme « 2 de 3 » puis, de 1931 à 1938, sous la forme « 3 de 5 ». Tel que mentionné plus tôt, la formule « 4 de 7 » remonte à 1939.
Des calculs semblables à ceux présentés plus haut permettent de comparer ces trois formats. De fait, une formule explicite peut être obtenue pour la probabilité \(G_k(p)\) que l’équipe A remporte une finale au meilleur de k en 2k – 1 matchs, et ce pour tout \(k \in \{1, 2, \ldots\}.\) On trouve
Quand k = 1, cette expression se réduit à p, puisque les équipes A et B ne jouent qu’un seul match.
La figure 2 donne le tracé de \(G_k (p)\) pour les valeurs entières de k entre 1 et 6. Toutes les courbes valent 1/2 en p = 1/2 et valent 1 quand p = 1. De toute évidence, rien ne sert de jouer plus d’un match si A a 100 % des chances de l’emporter! La figure permet aussi de voir que plus k est grand, plus les chances sont fortes que l’équipe A finisse par triompher. Mais en même temps, il est clair que l’intérêt du public tendra à s’amenuiser si la finale s’éternise.
Du point de vue de la ligue, un compromis est donc nécessaire sur le choix de k, qui détermine le format de la série de championnat. Mais quelle est la valeur de p?
Estimation de p
Puisque les équipes qui participent à la finale de la Coupe Stanley changent d’année en année, la valeur de p est susceptible de varier elle aussi. On ne saurait l’estimer a priori mais elle peut être approximée à l’issue d’une finale don- née par la méthode dite du maximum de vraisemblance.
Pour estimer p, on doit d’abord envisager les huit issues possibles de la finale, à savoir que A ou B l’emporte en 4, 5, 6 ou 7 matchs. Ces divers scénarios sont énumérés au tableau 1, où sont également précisées les probabilités associées à chacun d’entre eux. On remarque que les termes apparaissant dans la première colonne du tableau sont exactement ceux de l’équation (1) ; pour obtenir les termes de la deuxième colonne, il suffit de remplacer partout p par 1 – p et vice versa.
Comme on peut le voir, la probabilité de chacun des huit termes du tableau 1 est de la forme
\[V(p)=c \times p^a \times (1−p)^{n−a},\: (2)\]
où a est le nombre de victoires de A, n – a est le nombre de victoires de B et c > 0 est une constante.
En statistique mathématique, la fonction \(V(p)\) est appelée vraisemblance et la valeur de \(p\) qui la maximise est l’estimateur du maximum de vraisemblance. Puisque la fonction logarithmique est monotone, la valeur de \(\hat{p}\) est aussi celle qui maximise \(L(p) = \log\{V(p)\}.\) Or, il est facile de voir que la dérivée de \(L(p)\) ne s’annule qu’en \(\hat{p} =a/n.\) Comme cette valeur critique correspond à un maximum de la fonction, on a bien là l’estimateur à vraisemblance maximale.
À l’issue d’une finale de la Coupe Stanley, on peut donc estimer la probabilité que A remporte un match donné par sa proportion de victoires lors de la finale. Cette estimation est cependant assez grossière car n varie entre 4 et 7 pour une année donnée. Elle pourrait même être jugée irréaliste s’il avérait par exemple que le club A ait été balayé, ce qui conduirait à l’estimation \(\hat{p}= 0.\) On peut bien sûr ajouter une marge d’erreur à cette estimation mais elle sera très large (de l’ordre de 0,5!). De plus, cette estimation étant calculée à l’issue de la finale, elle n’est d’aucune utilité pour la ligue quand il s’agit pour elle d’évaluer la pertinence de changer ou non la formule de la série de championnat.
Heureusement, on peut obtenir une estimation bien plus précise de \(p\) si l’on est prêt à supposer que cette probabilité reste la même d’année en année, peu importe l’identité des clubs A et B. Ce postulat semble raisonnable, du moins en première approximation. L’avantage est que l’on peut alors s’appuyer sur les résultats d’un grand nombre de matchs pour estimer \(p.\) C’est ce que nous allons faire à l’aide de données extraites du site officiel de la LNH (https://www.nhl.com/fr).
De 1939 à 2019, la Coupe Stanley a été décernée 80 fois, compte tenu qu’aucun gagnant n’a pu être déterminé au printemps 2005 par suite d’un conflit de travail dans la LNH. Le tableau 2 donne une ventilation des résultats en fonction du nombre de matchs de la finale (entre 4 et 7) et de l’identité du gagnant (A ou B, la première étant celle qui jouait à domicile lors du match inaugural). On note au passage qu’au total, 57 des 80 séries se sont soldées à l’avantage du club A, soit 71,25%. Ceci concorde avec la notion que l’équipe hôtesse du premier match est avantagée.
Pour calculer la fonction de vraisemblance associée à ces données, on a de nouveau recours aux probabilités correspondant à chacun des huit scénarios possibles, telles qu’énumérées au tableau 1. Puisqu’il est raisonnable de supposer que les résultats d’une finale n’influencent en rien ceux des autres finales, la vraisemblance correspondant aux données du tableau 2 est proportionnelle au produit des probabilités des 80 événements observés entre 1939 et 2019, soit
\[\begin{array}{r c l}V(p) & = & c \times (p^4)^{13} \times \{(1−p)p^4\}^{14} \\ & \times & \{(1−p)^2p^4\}^{18} \times \{(1−p)^3p^4\}^{12} \\ & \times & \{(1−p)^4\}^7 \times \{p(1−p)^4\}^5 \\ & \times & \{p^2(1−p)^4\}^{6} \times \{p^3(1−p)^4\}^{5} \end{array} \]
pour une certaine constante c > 0 qu’il ne vaut pas la peine de calculer. En effet, une simplification permet de voir que V(p) épouse la même forme qu’à l’équation (2), à savoir
\[\begin{array}{r c l}V(p) & = & c \times p^{260} \times (1−p)^{438−260} \\ & = & c \times p^{260} \times (1−p)^{178}. \end{array} \]
On en déduit alors que peu importe la constante c, l’estimation à vraisemblance maximale de p est
\[ \hat{p} = 260/438 \approx 0,5936. \]
Puisque cette estimation s’appuie sur un total de n = 438 matchs, elle est beaucoup plus précise que celle fondée sur une seule finale. Elle reste néanmoins entachée d’une erreur expérimentale. Et comme il est d’usage de le faire pour les sondages politiques, précisons, sans fournir les détails, que « la margeur d’erreur de cette estimation est de 4,6% 19 fois sur 20 ». En termes statistiques, l’intervalle de confiance à 95% pour p s’étend de 0,5476 à 0,6396. On a donc tout lieu de croire que p > 1/2.
Il est aussi bon de noter que la valeur de \(\hat{p}\) est très proche numériquement (mais néanmoins différente) de la moyenne des 80 estimations annuelles de la probabilité que A remporte un match de la finale, soit 0,6025. C’est une autre estimation possible de p. Aux fins du choix de la formule à adopter pour la finale, la ligue pourrait s’en remettre à l’une ou l’autre de ces deux valeurs. Nous nous en tiendrons ici à \(\hat{p} = 260/438 \approx 0,5936.\)
Conclusion
De retour à la question initiale, servons-nous de la valeur estimée de p pour calculer la probabilité que l’équipe hôtesse du premier match de la finale soit celle qui remporte la Coupe Stanley. Cette probabilité est donnée par \(G_k(\hat{p})\) si la série est disputée selon la formule « k de 2k – 1 ». Les valeurs de \(G_k(\hat{p})\) sont précisées au tableau 3 pour les entiers k entre 1 et 6.
On constate d’abord que \(G_k(\hat{p})\) croît à mesure que k augmente, comme il se doit. Le graphique de la figure 3 montre toutefois que cette progression est relativement lente, de sorte qu’il faudrait augmenter k considérablement pour être vraiment assuré que la série identifie le meilleur club.
En procédant à tâtons, on trouve par exemple qu’il faut prendre k ≥ 24 pour que \(G_k(\hat{p})≥0,9.\) Pour être certain à 90 % que la finale couronne la meilleure équipe, on devrait donc entreprendre une série « 24 de 47 ». C’est impraticable, sachant qu’une saison entière de la LNH compte 82 matchs…
D’après le tableau 3, le format « 4 de 7 » actuel de la finale donne 69,77% des chances de primer le club le plus méritant — en supposant toujours que c’est celui qui joue le premier match chez lui. Ce n’est déjà pas si mal. Or dans les faits, c’est bien ce qui s’est produit depuis 1939, puisque 57 des 80 séries se sont soldées à l’avantage du club A, soit 71,25 %. Donc tout se tient.
Peut-on aller plus loin?
Bien qu’ils soient rigoureux, les calculs présentés ici dépendent de postulats dont le réalisme est seul garant de la valeur des conclusions. Pour s’assurer que ces postulats collent bien à la réalité, en pourrait envisager d’autres analyses, éventuellement fondées sur des données plus fines.
À titre d’exemple, et pour lancer la discussion, considérons le graphique présenté à la figure 4, qui montre l’évolution dans le temps de la proportion de finales remportées par l’équipe A. Comme le club A s’est avéré le vainqueur de 1939 à 1944, la probabilité était de 100% pendant six ans. Puis, elle a chuté à 6/7 = 85,7% en 1945 quand les Maple Leafs de Toronto (équipe B) ont été sacrés champions aux dépens des Red Wings de Détroit (équipe A). Le graphique montre aussi clairement qu’à partir de 1953, l’équipe A s’est emparée de la coupe 14 ans de suite (dans huit cas, il s’agissait des Canadiens de Montréal). Plus les années passent, plus le dénominateur grandit et plus la proportion de coupes remportées par l’équipe A semble se stabiliser autour de la valeur actuelle, soit \(57/80 \approx 71,25\%\). Avons-nous atteint l’asymptote ou la probabilité continuera-t-elle de chuter dans l’avenir? Bien malin qui pourrait le dire!