Mathématiques et sciences humaines Mathematics and social sciences 182 | Été 20

Mathématiques et sciences humaines Mathematics and social sciences 182 | Été 2008 Varia Pourquoi la loi de Benford n’est pas mystérieuse A new general explanation of Bendford’s law Nicolas Gauvrit et Jean-Paul Delahaye Édition électronique URL : http://journals.openedition.org/msh/10363 DOI : 10.4000/msh.10363 ISSN : 1950-6821 Éditeur Centre d’analyse et de mathématique sociales de l’EHESS Édition imprimée Date de publication : 30 juin 2008 Pagination : 7-15 ISSN : 0987-6936 Référence électronique Nicolas Gauvrit et Jean-Paul Delahaye, « Pourquoi la loi de Benford n’est pas mystérieuse », Mathématiques et sciences humaines [En ligne], 182 | Été 2008, mis en ligne le 30 juin 2008, consulté le 10 décembre 2020. URL : http://journals.openedition.org/msh/10363 ; DOI : https://doi.org/10.4000/ msh.10363 © École des hautes études en sciences sociales Math. & Sci. hum. / Mathematics and Social Sciences (46e année, n◦182, 2008(2), p. 7–15) POURQUOI LA LOI DE BENFORD N’EST PAS MYSTÉRIEUSE Nicolas GAUVRIT1, Jean-Paul DELAHAYE2 résumé – La loi dite de Benford prévoit que le premier chiffre significatif d’un nombre tiré de manière aléatoire suit une loi logarithmique et non, comme on pourrait s’y attendre, une loi uniforme. Cette loi expérimentale a été démontrée mathématiquement pour diverses suites numé- riques, et a été vérifiée expérimentalement sur d’immenses corpus numériques. Sur ces données naturelles, la loi de Benford apparaît très souvent comme une bonne approximation de la réalité, mais il semble aussi qu’elle ne soit qu’une approximation. Nous proposons une nouvelle explication de la loi de Benford, qui ne devrait pas, à notre avis, être considérée comme paradoxale mathématiquement. Nous énonçons un critère de régularité naturel sur une variable X et nous démontrons que, si ce critière est vérifié, alors X suit « à peu près » la loi de Benford. mots clés – Biais d’équiprobabilité, Loi de Benford, Paradoxe. summary – A new general explanation of Bendford’s law According to Benford’s law, the first digit of a random number does not follow a uniform distri- bution, as many people believe, but a logarithmic distribution. This law was at the begining purely experimental, but it is now established that it holds for various mathematical series and some na- tural data sets. Concerning data sets, Benford’s law often appears as a good approximation of the reality, but as no more than an approximation. Our aim is to present a new explanation for this law. We argue that it should not be considered as a mathematical paradox, but as a purely psychological paradox, a result of a cognitive bias. We express a general criterion of regularity on a random variable X and prove that, whenever X follow this criterion, X is approximately Benford. keywords – Benford’s law, Equiprobability bias, Paradox. D’abord remarquée par Newcomb [1881], la loi dite « de Benford » n’a connu son heure de gloire qu’à partir d’une nouvelle publication 57 ans plus tard [Ben- ford, 1938]. Cette loi prévoit, dans sa version la plus faible, que le premier chiffre significatif d’un nombre tiré dans une série statistique à peu près quelconque ne suit absolument pas la loi uniforme sur {1, ..., 9}. Au contraire, d’après cette loi, le chiffre 1 est largement prépondérant, le chiffre 9 étant à l’inverse le moins fréquent. 1Equipe didactique des mathématiques (DIDIREM), EA 1547, Centre Chevaleret, Université Paris VII, 175 rue du Chevaleret 75013 Paris, adems@free.fr 2Laboratoire d’Informatique Fondamentale de Lille (LIFL), UMR USTL/CNRS 8022, Uni- versité des sciences et technologie de Lille, bâtiment M3, 59655 Villeneuve d’Ascq Cedex, jean- paul.delahaye@lifl.fr 8 n. gauvrit, j.-p. delahaye La probabilité d’apparition d’un chiffre d en position de premier chiffre significatif (c’est-à-dire le chiffre non nul le plus à gauche dans l’écriture décimale du nombre) est log 1 + 1 d  . Largement considérée comme étonnante pour ne pas dire paradoxale, la loi de Benford (ou de Newcomb-Benford) a suscité depuis sa découverte un grand nombre de publications, qui cherchent essentiellement à répondre à deux questions : (1) Pourquoi la plupart des données empiriques comme les constantes physiques (cf. [ Knuth, 1969] ou [Burke, Kincanon, 1991]), certaines données économiques ou démographiques [Nigrini, Wood, 1995], vérifient-elles approximativement cette loi ?3 (2) Quelles conditions générales doit vérifier une variable aléatoire X pour suivre la loi de Benford ? En marge de ces tentatives de résolution du paradoxe s’est posée une autre question : cette loi de Benford est-elle vraiment vérifiée ? Il apparaît que dans les faits bien des ensembles de données ne suivent pas du tout la loi de Benford [Scott, Fasli, 2001]. C’est le cas par exemple des nombres pseudo-aléatoires donnés par des humains [Hill, 1988]. Ces résultats ont déjà été utilisés pour repérer des fraudes, notamment en matière fiscale, mais aussi des données contrefaites dans des articles scientifiques. Mais surtout, ce qui est peut-être plus important, beaucoup de lois empiriques suivent à peu près la loi de Benford, en conservant vis-à-vis d’elle une différence significative que la multiplication des données ne résorbe pas. Cette loi fut d’abord empirique, mais il est maintenant prouvé qu’elle est ri- goureusement vraie pour certains types de données, comme les orbites de certains systèmes dynamiques [Berger et al., 2004]. Hill, après avoir démontré que la loi de Benford était la seule loi possible si on impose l’invariance par changement d’échelle ou de base [1995(a)], a prouvé un théorème selon lequel une suite de valeurs obtenues en sélectionnant, selon certaines contraintes, différents échantillons dans différentes populations pour des variables diverses donne finalement une loi de Benford [1995(b)]. C’est un équivalent, au fond, du théorème central limite : un échantillonnage bien fait doit mener à une loi particulière. Boyle [1994] montre que la multiplication entre elles de variables indépendantes conduit à la loi de Benford. Autrement dit, la loi de Benford serait naturelle si les nombreux facteurs qui expliquent telle ou telle grandeur agissent multiplicativement. Certaines suites numériques, comme (nn) ou n! [Posch, à paraître] suivent exactement la loi de Benford. C’est le cas également de la suite des (an) , avec log10(a) ∈R\Q et plus généralement de toute suite définie par une relation de récurrence polynomiale et dont le polynôme définitoire satisfait certaines conditions [Jolissaint, 2005]. 3La terminologie varie d’un auteur à l’autre. On dit parfois que la variable X suit une loi de Benford pour signifier que le premier chiffre significatif de X suit cette loi logarithmique. Il arrive aussi qu’on dise alors que le premier chiffre significatif de X suit une loi de Benford. Enfin, il arrive que l’expression X suit une loi de Benford indique que la partie fractionnaire de log (X) suit une loi uniforme. Nous utiliserons dans la suite les trois expressions indifféremment, le contexte permettant toujours de comprendre de quelle notion il s’agit. pourquoi la loi de Benford n’est pas mystérieuse 9 Deux raisons peuvent expliquer l’étonnement que suscite la loi de Benford. La première est qu’elle est souvent présentée (à tort) comme une loi universelle, vraie pour tout ensemble de données empiriques ou mathématiques. De nombreuses données empiriques « aléatoires » ne la vérifient pourtant pas, et bien des séries ou des variables mathématiquement simples non plus. Les suites (n), (kn), des nombres premiers, sont dans ce cas. Enfin, de nombreuses listes de données numériques suivent une loi proche de la loi de Benford, mais tout de même différente. Dans l’article initial de Benford [1938], par exemple, la moitié des listes considérées s’écartent significativement de la loi prévue. La seconde raison est d’ordre psychologique : si nous considérons le dernier chiffre d’une série aléatoire suffisamment étalée et régulière de nombres entiers, nous nous attendons à trouver une loi uniforme, donc autant de 0 que de 1, que de 2, etc. Et plus généralement, si des réels sont choisis « aléatoirement », on s’attend également à ce que la partie fractionnaire des nombres suive une loi uniforme. En l’occurrence, cette attente paraît raisonnable, bien qu’il faille, si l’on veut être rigoureux, préciser ce qu’on entend par « série aléatoire de nombres » (la référence par défaut, la loi uniforme, ne pouvant être considérée ici). Cette « loi de la partie fractionnaire » ou du « chiffre des unités », que l’on attend uniforme, est donc une hypothèse rationnelle. Or, une approche superficielle qui s’appuie plus sur la forme que sur le fond, nous pousse à considérer la question du « dernier chiffre » comme parfaitement similaire à celle du « premier chiffre ». C’est justement là que l’intuition fait défaut. Car s’il y a bien un lien entre la loi de la partie fractionnaire et du premier chiffre significatif, il est bien moins direct qu’on ne le pense. On imagine volontiers que si X est une variable aléatoire suffisamment régulière, log (X) l’est aussi, et l’on s’attend donc à ce que la partie fractionnaire de X, mais aussi celle de log (X) , suive une loi uniforme. Or, dans ce dernier cas, cette attente intuitive est précisément une version de la loi de Benford... En réalité, l’attente d’une loi uniforme sur le premier ou le dernier chiffre d’un nombre est le résultat d’une illusion bien connue des psychologues : le uploads/s3/ loi-benford 1 .pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager