• Accueil
  • À propos
  • Accrom\(\alpha\)th en PDF
  • Commanditaires
  • Contact
  • Contributions des lecteurs
  • Sites amis

Logo

Apprendre à frauder ou à détecter les fraudes?

Par Christiane Rousseau
Volume 5.2 - été-automne 2010

Quelle alternative choisirez-vous?

Mais commençons par jouer à un jeu. Chaque fois que vous observez un nombre, notez le premier chiffre significatif, soit le chiffre de gauche. Ainsi, 1 est le premier chiffre significatif de 1 025 et de 0,0187. De même, 3 est le premier chiffre significatif de \(\pi\). Les nombres que vous observez peuvent être n’importe quoi: des prix dans un magasin ou un catalogue, des numéros de téléphone, des effectifs de population, des distances, etc.

Encadré historique

La loi de Benford a d’abord été découverte par Simon Newcomb (1835-1909). Astronome de métier, il a remarqué dans les bibliothèques que les premiers volumes des tables de logarithmes correspondant aux petits premiers chiffres significatifs étaient beaucoup plus usés que les derniers volumes contenant les nombres de grands premiers chiffres significatifs, et il a énoncé sa loi en 1881. Cette loi a été oubliée et redécouverte indépendamment aux alentours de 1938 par le physicien et ingénieur américain, Frank Benford (1883-1948). Ce dernier, dont la loi porte le nom, a répertorié des dizaines de milliers de données de toutes origines.

Calculez la fréquence B(i) de chaque premier chiffre significatif. Vous devriez observer approximativement les fréquences indiquées dans le tableau ci-dessous.

benford_img1

Ce tableau de fréquences est appelée la loi de Benford. Le premier chiffre significatif 1 apparaît près de 30 % des fois, alors que le premier chiffre significatif 9 n’apparaît qu’environ 4,6 % des fois! La base de données de 215 millions de constantes mathématiques compilée par Simon Plouffe obéit à la loi de Benford.

Ouvrez maintenant un logiciel de manipulations symboliques et faites-lui calculer d’abord les premiers chiffres significatifs des n premiers nombres de la suite de Fibonacci

1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, …

pour n assez grand, et ensuite les fréquences correspondantes. Vous obtenez les mêmes fréquences que ci-dessous. Même chose si vous calculez les premiers chiffres significatifs des n premières puissances de 2!

Prenez la longueur des fleuves dans le monde. Leurs premiers chiffres significatifs obéissent à la loi de Benford! Ici, vous allez m’arrêter et commencer à être sceptiques… Dans quelle unité sont répertoriées ces longueurs? En fait, cela n’a pas d’importance! Si les longueurs en kilomètres obéissent à la loi de Benford, les longueurs en milles obéissent aussi à la loi de Benford! Même chose si on les transforme en milles marins. Un changement d’unité est un cas particulier de changement d’échelle, notion qu’on va discuter ci-dessous.

Regardez encore le graphique ci-dessous compilé par Anik Trahan.

benford_img2

Les nombres apparaissant aux états financiers des compagnies obéissent souvent à la loi de Benford et, là encore, dans n’importe quelle monnaie. Les fraudeurs qui ignorent cette règle et trafiquent les états financiers peuvent ainsi se faire prendre.

Continuons à être sceptiques. Le premier chiffre significatif est un concept subjectif en un sens, puisqu’il dépend de la base de numération utilisée. La fréquence du premier chiffre significatif i dans la loi de Benford est le nombre

\[B(i)= \log_{10} \left ( 1+ \frac{1}{i} \right ),\]

soit le logarithme en base 10 de

\[1 + \frac{1}{i} = \frac{i+1}{i}\]

Rappelons que

\[\log_{10} i = \frac{\text{ln} i}{\frac{ln}10}.\]

Si on travaille en base b, alors on a les premiers chiffres significatifs \(\{1, 2, …, b – 1\}\). La loi de Benford en base b attribue au premier chiffre significatif i la fréquence

\[B_b(i) = \log_b \left ( 1+ \frac{1}{i} \right )\]

Faites générer les nombres de Fibonacci dans une autre base que la base 10: ils obéissent encore à la loi de Benford dans la nouvelle base!

Pourquoi?

La loi de Benford est une loi de probabilité. Les lois de probabilité apparaissent souvent comme résultat d’un processus de modélisation. Si l’on veut modéliser une loi de probabilité pour le premier chiffre significatif qui soit invariante par changement d’échelle (par exemple un changement d’unité), on va nécessairement tomber sur la loi de Benford.

Commençons par nous convaincre que la loi de Benford est invariante par changement d’échelle.

Soit B(i) la fréquence du premier chiffre significatif. Si on multiplie par 2 un nombre dont le premier chiffre significatif est 1, on obtient un nombre de premier chiffre significatif 2 ou 3, et tout nombre de premier chiffre significatif 2 ou 3 est le double d’un nombre de premier chiffre significatif 1. Donc, on devrait avoir B(1) = B(2) + B(3). Faisons le calcul
\[\begin{array} {r c l}B(2) + B(3) &=& \log_{10} \frac{3}{2} + \log_{10} \frac{4}{3} \\ &=& \log_{10} \left ( \frac{3}{2} \times \frac{4}{3} \right ) \\&=& \log_{10} 2+B(1). \end{array}\]

De même, si on multiplie par 3, le lecteur peut vérifier que

\[B(1) = B(3) + B(4) + B(5),\: \text{etc}.\]

On voit bien qu’on est limité pour les autres vérifications. En effet, si on passe des kilomètres aux milles, il faut diviser par 1,6! Comment traiter ce cas? Pour cela, on généralise la notion de premier chiffre significatif et on introduit la notion de mantisse d’un nombre.

Tout nombre réel positif, \(x\), peut s’écrire \(x = 10^ry\), où \(y \in [1, 10[\) et \(r \in \mathbb{Z}\). Le nombre y est appelé la mantisse de \(x\). Il est aussi noté \(y = m(x)\).

Ainsi,\(\pi\) est sa propre mantisse et \(r = 0.\) Aussi, la mantisse de 12345 est 1,2345 et \(r = 4 \)dans ce cas. La mantisse de 1/2 est 5 et \(r=–1.\)

La fréquence du premier chiffre significatif i d’un nombre quelconque, x, donnée par B(i) dans la loi de Benford, est aussi la probabilité que le premier chiffre significatif soit i. C’est donc la probabilité que la mantisse du nombre x soit comprise dans l’intervalle [i, i + 1[. On notera \(B(i) = P(m(x) \in [i, i + 1[)\), où P(E) dénote la probabilité d’un événement E.

La généralisation, que nous appellerons encore loi de Benford (ou loi de la mantisse), affirme que

\[P(m(x) < d) = \log_{10}d\]

pour tout nombre \(d \in [1, 10[.\) Regardons des cas particuliers pour voir qu’on a bien généralisé la loi de Benford. Tout d’abord, on a

\[P(m(x) \in [1,10[)=\log_{10}10=1.\]

Aussi,

\[ \begin{array} {r c l} P(m(x) &\in& [i,i+1[) = \log_{10} (i+1) – \log_{10} i \\ &=& \log_{10} \left ( \frac{i+1}{i} \right ) = B(i). \end{array} \]

et, plus généralement,

\[ P(m(x) \in [a,b[) = \log_{10} \frac{a}{b}\]

Alors, la loi de Benford généralisée (ou loi de la mantisse) est invariante sous changement d’échelle! Ceci signifie que, si la mantisse d’un nombre x suit la loi de Benford et si c’est un nombre positif, alors la mantisse du nombre z = cx suit encore la loi de Benford.

Bien plus, la loi de Benford est la seule loi de probabilité sur [1, 10[ qui soit invariante sous changement d’échelle! Dans l’encadré, nous allons justifier cette dernière propriété.

Modélisation de l’invariance
par changement d’échelle

Modélisons une loi de probabilité sur la mantisse, \(y = m(x)\), invariante par changement d’échelle. Appelons \(Y\) la variable aléatoire qui représente la mantisse, et soit \(F(y) = P(Y < y).\)

Soit \(Z = m(cY)\), où c est une constante positive. Par hypothèse, \(Z\) a la même loi de probabilité que \(Y\). Donc, si \(z \in [0, 1[, P(Z < z) = F(z)\). Prenons maintenant \(y \in [1, 10[\) et \(c \in [1, 10[\) tel que \(cy < 10\). Alors,

\[\begin{array}{r c l}P(Y < y) &=& P(1 ≤ Y < y)\\&=& P(c ≤ cY < cy)\\&=& P(c ≤ Z < cy)\\&=& F(cy) – F(c). \end{array}\]

On obtient donc \(F(y) = F(cy) – F(c) (^*)\)

Posons \(c = 1 + \epsilon\), et utilisons que \(F (1) = 0\). Alors, (*) est équivalent (après un petit calcul) à

\[\displaystyle \frac{F(y)(1+\epsilon))-F(y)}{y \epsilon} = \frac{F(1+ \epsilon)- F(1)}{y \epsilon}.\]

Faisons tendre \(\epsilon\) vers 0. On obtient l’équation différentielle

\[F'(y)= \frac{F'(1)}{y},\]

sous la condition initiale \(F (1) = 0.\) Donc, \(F (y) = F'(1) \ln y\). Comme
on doit aussi avoir \(F (10) = 1\), ceci donne

\[F'(1)= \frac{1}{\ln 10}\]

et, par suite \(F (Y ) = \log_{10} y\). On a montré que \(Y\) suit la loi de Benford!

Mais, commençons par expliquer pourquoi la loi de Benford apparaît dans le jeu ci-dessus et, de même, dans l’ensemble des nombres des états financiers. Tous les ensembles de nombres n’obéissent pas nécessairement à la loi de Benford. Par exemple, les nombres engendrés par un générateur de nombres aléatoires, pour lesquels on requiert que tous les premiers chiffres significatifs aient des fréquences égales. Aussi, si vous vous limitez à des ensembles très particuliers, par exemple le prix du litre de lait dans différents commerces, il est possible que seuls un ou deux premiers chiffres significatifs soient représentés. C’est que l’ensemble des prix du litre de lait dans différents commerces est un ensemble de nombres qui a une échelle particulière. Si vous multipliez ces prix par une constante, par exemple parce que vous changez de monnaie, vous changez l’échelle. Mais, si vous avez bien joué le jeu de choisir tous les nombres qui vous tombent sous les yeux, vous avez mélangé des nombres qui proviennent d’ensembles ayant un grand nombre d’échelles. L’ensemble se comporte comme un ensemble sans échelle. En effet, si vous multipliez tous ces nombres par une constante, alors vous permutez les différentes échelles, mais votre nouvel ensemble a encore un grand nombre d’échelles différentes et semble encore sans échelle.

Mais, doit-on conclure qu’il y a fraude si les nombres apparaissant aux états financiers d’une compagnie ne suivent pas la loi de Benford? Pas nécessairement: il se peut qu’il y ait une raison qui explique que l’ensemble des nombres ait une échelle particulière. Par contre, pour les inspecteurs qui ne peuvent faire une étude approfondie de tous les états financiers, le test de la loi de Benford permet de faire un tri et se concentrer sur les quelques cas qui ont une plus grande probabilité de fraude.

L’invariance par changement de base est beaucoup plus subtile.

En effet, lorsqu’on écrit un nombre sous la forme \(x = m(x)10^r,\) et qu’on veut changer de la base 10 à une nouvelle base b, on ne peut seulement travailler sur la mantisse \(m(x)\) de \(x.\) Il faut aussi transformer la partie \(10^r\) dans la nouvelle base. Nous ne montrerons pas comment on modélise une loi de probabilité invariante par changement de base, mais nous allons expliquer pourquoi les nombres de Fibonacci et les puissances de 2 suivent la loi de Benford dans toute base.

Sous quelle condition la suite \(\{a^n\}\) obéit-elle à la loi de Benford?

Nous aurons besoin du résultat suivant:

Fait: Soit Y une variable aléatoire sur [1, 10[. Alors, Y suit la loi de Benford si et seulement si la variable aléatoire \(Z= \log_{10}Y\) suit une loi uniforme sur [0, 1[.

Preuve: Posons \(G(z) = P(0 ≤ Z < z)\) et \(F(y) = P(1 ≤ Y < y).\) Alors,

\[\begin{array}{r c l}G(z) &=& P(0 ≤ Z < z) \\ &=& P(0 ≤ \log_{10}Y < z) \\ &=& P(1 ≤ Y < 10^z) \\ &=& F(10^z).\end{array}\]

On en déduit que \(G(z) = z\) (c’est-à-dire Z suit une loi uniforme sur [0, 1[) si et seulement si \(F (10^z) = z\), ou encore \(F (y) = \log_{10}y\) (c’est-à-dire Y suit la loi de Benford).

Les nombres de Fibonacci

Dans le cas des nombres de Fibonacci, cela vient de la formule

\[F_n = \displaystyle \frac{1}{\sqrt{5}} \left ( \left ( \frac{1+\sqrt{5}}{2} \right )^n – \left ( \frac{1-\sqrt{5}}{2} \right )^n \right ).\]

Alors, pour n grand on a le comportement

\[ F_n ~ ca^n, \: \text{où} \: a= \displaystyle \frac{1+\sqrt{5}}{2} \: \text{et} \: c= \frac{1}{\sqrt{5}}.\]

Donc, pour presque tout n, le premier chiffre significatif de \(F_n\) sera celui de \(ca^n\). Comme la loi de Benford est invariante par changement d’échelle, alors la suite \(\{ca^n\}\) obéit à la loi de Benford si et seulement si la suite \(\{a^n\}\) obéit à la loi de Benford.

Pour analyser la suite \(\{a^n\}\) et la suite des mantisses correspondantes donnée par une variable aléatoire Y, nous allons passer à la variable aléatoire \(Z = \log_{10}Y.\) Si \(x = 10^r m(x) = 10^ry\) alors,

\[v=\log_{10}x=r+\log_{10}y=r+z.\]

Or, \(r \in \mathbb{Z}\) et \(z \in [0, 1[.\) Calculer la mantisse de x revient donc, dans le cadre de z, à prendre la partie fractionnaire de v, et par suite, à travailler modulo 1. Prenons le cas où \(x_n =a^n\).

Alors,

\[ v_n =n \log_{10} a=nz_1 \: \text{où}\: z_1 =\log_{10}a \: \text{et} \: z_n = nz_1 (\mod 1).\]

Donc, on considère géométriquement la suite \(\{z_n\}\) des parties fractionnaires des nombres vn que l’on notera \(z_n = nz_1\) (mod 1). C’est une suite de nombres dans [0, 1[, dont on doit montrer qu’elle est uniformément distribuée. Géométriquement, on peut se représenter les nombres \(nz_1\) (mod 1) comme suit: le nombre \(z_1\) est une portion de tour sur un cercle. Le point \(z_n\) est le point du cercle obtenu après une rotation de \(nz_1\) tours. Ces points seront uniformément 1 distribués sur le cercle si \(z_1 = \log_{10}a\) est irrationnel (voir figure).

benford_img3

Si, au lieu de la base 10 on regarde la base b, on remplace 10 par b dans les calculs précédents, et la suite \(\{a^n\}\) obéit à la loi de Benford dans la base b si et seulement si \(\log_b a\) est irrationnel.

Pour montrer que la suite de Fibonacci obéit à la loi de Benford dans toute base, il suffit de montrer que

\[\log_b \displaystyle \frac{1+\sqrt{5}}{2}\]

est irrationnel pour tout entier \(b > 1.\) Supposons le contraire, soit

\[\log_b \displaystyle \frac{1+\sqrt{5}}{2} = \frac{p}{q}.\]

Prenons l’exponentielle (en base b!). Alors,

\[\displaystyle \frac{1+\sqrt{5}}{2} =b^{p/q}\]

Contradiction, car le côté gauche est irrationnel et le côté droit rationnel.

Dans le cas de la suite \(\{2^n\}\), nous laissons le lecteur vérifier qu’elle obéit à la loi de Benford dans toute base \(b ≠ 2^s\) pour tout \(s \in \mathbb{N}\).

Loi du deuxième chiffre significatif

Nous vous avons expliqué la loi de Benford sur les fréquences du premier chiffre significatif et sa généralisation: la loi de la mantisse. Cette dernière vous paraît trop difficile et vous préférez vous limiter à la première? Faites attention: si vous décidez de frauder et d’imiter la loi de Benford, vous pourriez vous faire prendre au deuxième chiffre significatif. Quelle est sa loi? La même que pour le premier chiffre significatif? Ou encore les deuxièmes chiffres significatifs sont-ils uniformément distribués?

En fait, ni l’un ni l’autre. Mais la loi de la mantisse nous permet de calculer que leurs fréquences sont données dans le tableau ci-dessous.

benford_img4

Eh oui! Il ne faut pas oublier que 0 peut être deuxième chiffre significatif!

Le calcul des fréquences est simple, même s’il est un peu long.

Que signifie par exemple que le deuxième chiffre significatif est 2? Cela signifie que la mantisse est dans la réunion des neuf intervalles du tableau suivant.

benford-6

La probabilité que Y soit dans I est donc donnée par

\[\begin{array}{r c l} \displaystyle \sum_{i=1}^{9}F(i,3)-F(i,2) &=& \displaystyle\sum_{i=1}^{9} \log_{10} \left ( \displaystyle \frac{i+ \displaystyle \frac{3}{10}}{i+ \displaystyle \frac{2}{10}} \right ) \\ &=& \displaystyle \sum_{i=1}^{9} \log_{10} \left ( 1+ \displaystyle \frac{1}{10i+2} \right ). \end{array}\]

Maintenant, vous avez tout compris et vous pouvez calculer la fréquence des troisièmes ou quatrièmes chiffres significatifs, en vous aidant d’un chiffrier ou d’un logiciel bien sûr, car il y a beaucoup de cas!

La contribution de Theodore Hill en 1995

Dans une série de plusieurs articles sur la loi de Benford, Theodore Hill a montré

  • qu’elle est la seule loi de probabilité sur la mantisse invariante par changement d’échelle;
  • que si on modélise une loi de probabilité invariante par changement de base, alors on obtient la loi de Benford;
  • que si on mélange des nombres provenant de différentes distributions alors, sous de bonnes hypothèses, le mélange se comporte comme une distribution sans échelle et suit donc la loi de Benford. C’est une forme de « théorème central limite ».

Pour en s\(\alpha\)voir plus !

http://images.math.cnrs.fr/Quel-est-le-debut-de-ce-nombre.html
Hors série de La Recherche sur les nombres, Ted Hill, Le premier chiffre significatif fait sa loi, page 73, janvier 1999.

PDF

  • ● Version PDF
Partagez
  • tweet

Tags: Applications des mathématiques

Articles récents

  • Le mouvement brownien : Du pollen de Brown à l’origine de la finance moderne

    Michel Adès, Matthieu Dufour, Steven Lu et Serge Provost
  • Le problème des \(N\) corps

    Christiane Rousseau
  • Comprendre la structure des nombres premiers

    Andrew Granville

Sur le même sujet

  • Le mouvement brownien : Du pollen de Brown à l’origine de la finance moderne

    Michel Adès, Matthieu Dufour, Steven Lu et Serge Provost
  • Le problème des \(N\) corps

    Christiane Rousseau
  • À propos du tic-tac-toe

    Christian Genest

Volumes

  • Volume 18.1 – hiver-printemps 2023
  • Volume 17.2 – été-automne 2022
  • Volume 17.1 – hiver-printemps 2022
  • Journée internationale des mathématiques: Accromath multilingue
  • Volume 16.2 – été-automne 2021
  • Volume 16.1 – hiver-printemps 2021
  • Volume 15.2 – été-automne 2020
  • Thème spécial: Les mathématiques sont partout
  • Volume 15.1 – hiver-printemps 2020
  • Volume 14.2 – été-automne 2019
  • Volume 14.1 – hiver-printemps 2019
  • Volume 13.2 – été-automne 2018
  • Volume 13.1 – hiver-printemps 2018
  • Volume 12.2 – été-automne 2017
  • Volume 12.1 – hiver-printemps 2017
  • Volume 11.2 – été-automne 2016
  • Volume 11.1 – hiver-printemps 2016
  • Volume 10.2 – été-automne 2015
  • Volume 10.1 – hiver-printemps 2015
  • Volume 9.2 – été-automne 2014
  • Volume 9.1 – hiver-printemps 2014
  • Volume 8.2 – été-automne 2013
  • Volume 8.1 – hiver-printemps 2013
  • Volume 7.2 – été-automne 2012
  • Volume 7.1 – hiver-printemps 2012
  • Volume 6.2 – été-automne 2011
  • Volume 6.1 – hiver-printemps 2011
  • Volume 5.2 – été-automne 2010
  • Volume 5.1 – hiver-printemps 2010
  • Volume 4.2 – été-automne 2009
  • Volume 4.1 – hiver-printemps 2009
  • Volume 3.2 – été-automne 2008
  • Volume 3.1 – hiver-printemps 2008
  • Volume 2.2 – été-automne 2007
  • Volume 2.1 – hiver-printemps 2007
  • Volume 1 – été-automne 2006
  • Article vedette

    Auteurs

    • Michel Adès
    • Antoine Allard
    • Jean Aubin
    • Marie Beaulieu
    • Rosalie Bélanger-Rioux
    • Claude Bélisle
    • Marc Bergeron
    • Pierre Bernier
    • André Boileau
    • Véronique Boutet
    • Pietro-Luciano Buono
    • Massimo Caccia
    • Jérôme Camiré-Bernier
    • France Caron
    • Philippe Carphin
    • Kévin Cazelles
    • Laurent Charlin
    • Pierre Chastenay
    • Noémie Chenail
    • Jocelyn Dagenais
    • Marie-France Dallaire
    • Jean-Lou de Carufel
    • Jean-Marie De Koninck
    • Lambert De Monte
    • Jean-Paul Delahaye
    • Marc-André Desautels
    • Florin Diacu
    • Jimmy Dillies
    • Nicolas Doyon
    • Philippe Drobinski
    • Hugo Drouin-Vaillancourt
    • Louis J. Dubé
    • Thierry Duchesne
    • Matthieu Dufour
    • Stéphane Durand
    • Thomas Erneux
    • Philippe Etchécopar
    • Julien Fageot
    • Charles Fleurent
    • Jérôme Fortier
    • Marlène Frigon
    • Jean-François Gagnon
    • André Garon
    • Christian Genest
    • Denis Gilbert
    • Jonathan Godin
    • Frédéric Gourdeau
    • Samuel Goyette
    • Andrew Granville
    • Jean Guérin
    • Hervé Guillard
    • Abba B. Gumel
    • James A. Hanley
    • Alain Hertz
    • Bernard R. Hodgson
    • Isabelle Jalliffier-Verne
    • Guillaume Jouvet
    • Tomasz Kaczynski
    • Patrick Labelle
    • Marc Laforest
    • Nadia Lafrenière
    • Josiane Lajoie
    • Alexis Langlois-Rémillard
    • Simon-Olivier Laperrière
    • René Laprise
    • Steffen Lauritzen
    • Denis Lavigne
    • Adrien Lessard
    • Steven Lu
    • Jean Meunier
    • Erica Moodie
    • Normand Mousseau
    • Johanna G. Nešlehová
    • Pierre-André Noël
    • Dmitry Novikov
    • Ostap Okhrin
    • Laurent Pelletier
    • Jean-François Plante
    • Serge B. Provost
    • Annie Claude Prud'Homme
    • Benoît Rittaud
    • Louis-Paul Rivest
    • Serge Robert
    • André Ross
    • Christiane Rousseau
    • Guillaume Roy-Fortin
    • Yvan Saint-Aubin
    • Maria Vittoria Salvetti
    • Charles Senécal
    • Vasilisa Shramchenko
    • Robert Smith?
    • Anik Trahan
    • Shophika Vaithyanathasarma
    • William Verreault
    • Redouane Zazoun

Sujets

Algèbre Applications Applications des mathématiques Changements climatiques Climat Construction des mathématiques COVID-19 Cristallographie cryptographie GPS Gravité Géométrie Histoire des mathématiques Imagerie Infini Informatique Informatique théorique intelligence artificielle Jeux mathématiques Logique mathématique Lumière Mathématiques de la planète Terre Mathématiques et architecture mathématiques et art Mathématiques et arts Mathématiques et astronomie Mathématiques et biologie Mathématiques et développement durable Mathématiques et littérature Mathématiques et musique Mathématiques et médecine Mathématiques et physique Mathématiques et transport Modélisation Nombres Portrait d'un mathématicien Portrait d'un physicien Probabilités Probabilités et statistique Racines Rubrique des Paradoxes Section problèmes Théorie des groupes Éditorial Épidémiologie

© 2023 Accromath