HAL Id: tel-01771655 https://hal.archives-ouvertes.fr/tel-01771655 Submitted on

HAL Id: tel-01771655 https://hal.archives-ouvertes.fr/tel-01771655 Submitted on 25 Apr 2018 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Cartographie de l’apprentissage artificiel et de ses algorithmes Antoine Mazieres To cite this version: Antoine Mazieres. Cartographie de l’apprentissage artificiel et de ses algorithmes. Intelligence artifi- cielle [cs.AI]. Université Paris 7 Denis Diderot, 2016. Français. <tel-01771655> C A RTO G R A P H I E D E L’ A P P R E N T I S S A G E A RT I F I C I E L E T D E S E S A L G O R I T H M E S Antoine Mazières (lisis-inra) Thèse de Doctorat - Mention Interdisciplinaire Université Paris Diderot - École Doctorale Frontières du Vivant (ED 474) • Jean-Philippe Cointet (INRA) - Directeur de thèse • Christophe Prieur (ParisTech) - Co-directeur de thèse • Frédéric Kaplan (EPFL) - Rapporteur • Antoine Cornuéjols (ParisTech) - Rapporteur • Dominique Cardon (SciencePo) - Examinateur • Jean-Gabriel Ganascia (UPMC) - Examinateur, Président du Jury Défendue le 18 octobre 2016 à Paris, France. “Il y a des choses comme la signification idéologique des doigts de pieds, dont peu de gens parlent et peu devraient. Il y a des choses comme les fonctions semi-exponentielles, dont peu de gens parlent et beaucoup devraient. Il y a des choses comme la pression des ballons au Super- bowl, ou la manière dont les hommes écartent les jambes en s’asseyant, ou les robes portées à la cérémonies des os- cars, dont beaucoup de gens parlent et peu devraient. Et puis il y a ces choses comme la seconde guerre mon- diale, le réchauffement climatique, les trous noirs ou l’ap- prentissage artificiel, dont beaucoup de gens parlent et beaucoup devraient.” Aaronson [2] Antoine Mazières : Cartographie de l’apprentissage artificiel et de ses algo- rithmes, © September 2016 Illustration de couverture par Bernard “Papa” Mazières. ii R É S U M É L’apprentissage artificiel, ou machine learning, est un ensemble de mé- thodes permettant d’établir, à partir de données, des modèles de prise de décision, de prédiction ou de classification. L’ axiome plus général qui définirait ce champ de recherche est l’ambition de s’inspirer et d’imiter la capacité humaine et animale à apprendre de l’expérience. Les récents succès de ces méthodes - souvent relayés par des médias grand publics - sont seulement révélateurs de l’attention épisodique portée à des techniques qui remontent quant à elles à une cinquan- taine d’années dans le contexte de l’Intelligence Artificielle et de l’in- formatique, et à plusieurs siècles de traditions scientifiques en mathé- matique, statistique, physique. Après avoir rendu compte de ces éléments, cette thèse s’intéresse aux différentes épistémès, “styles de pensée” qui rythment cette commu- nauté, en étudiant les principaux algorithmes développés pour par- venir à la prise de décision, la prédiction ou la classification. Chacun des algorithmes est envisagé de manière historique mais aussi via les contraintes techniques et théoriques qu’il porte, et les compromis d’usages qu’il impose - par exemple entre interprétabilité et efficacité. Ces “tribus” de l’apprentissages apparaissent alors comme des tenta- tives relativement indépendantes de parvenir à un même objectif. Nous envisageons par la suite l’activité de ces sous-communautés algorithmiques dans le champ académique, par l’analyse de corpus bibliographiques extraits de Web of Science. La détection de commu- nautés au sein des réseaux de co-citations construits à partir de ces données nous permet de mettre en lumière les structures thématiques transversales qui innervent les différents types d’algorithmes. Nous avons ainsi pu observer comment chaque discipline scientifique se place de manière spécifique dans le paysage algorithmique de l’ap- prentissage et entretient ou non des relations privilégiées avec les champs propres à sa recherche fondamentale. Il apparait donc, au terme de cette analyse, qu’il est plus facile pour un auteur de se mou- voir d’une thématique à une autre, que d’une méthode d’apprentis- sage à une autre. Enfin, nous nous intéressons à des terrains plus ingénieriques de la pratique de l’apprentissage avec une analyse de données issues des forums de questions-réponses Stackexchange et du site de compéti- tions en ligne Kaggle. On y retrouve plusieurs résultats proches de ceux observés dans le champ académique, comme les disciplines les plus représentées. De nettes différences émergent cependant quant à iii la diversité et la coprésence de ces algorithmes dans les compétitions et les usages des participants. En conclusion, nous mettons en perspective certains des éléments ob- servés dans cette étude avec les récents débats sur la place de ces algorithmes dans les politiques publiques et discutons la question de leur nature discriminatoire. iv R E M E R C I E M E N T S Je tiens à remercier chaleureusement : Mes directeurs, Jean-Philippe Cointet et Christophe Prieur, pour leur soutien tout au long de cette thèse, L’inra et l’école doctorale Frontières du Vivant de m’avoir fait confiance en m’accordant un financement, Les membres du jury, Antoine Cornuéjols, Frédéric Kaplan, Jean-Gabriel Ganascia et Dominique Cardon pour leurs retours constructifs sur mon travail, Joaquin Keller et Constance de Quatrebarbes pour leurs nombreuses suggestions et corrections, Les membres du laboratoire lisis–inra et les toutes les personnes m’ayant aidé, accompagné, encouragé et soutenu pendant ces trois années de thèse. v TA B L E D E S M AT I È R E S Introduction 1 1 l’apprentissage artificiel 6 1.1 Contextes intellectuels de l’apprentissage artificiel . . . 7 1.1.1 Quelques éléments de compréhension de l’ap- prentissage artificiel . . . . . . . . . . . . . . . . 7 1.1.2 Éléments de définition et d’analogie de l’appren- tissage artificiel . . . . . . . . . . . . . . . . . . . 17 1.2 Origines scientifiques et appropriations contemporaines 25 1.2.1 Statistique, Informatique et Matériel . . . . . . . 26 1.2.2 Vers une nouvelle culture des données . . . . . 29 2 typologie des procédures d’apprentissage arti- ficiel 41 2.1 Arbres de décision et forêts aléatoires . . . . . . . . . . 42 2.2 Réseaux bayésiens . . . . . . . . . . . . . . . . . . . . . . 46 2.3 Programmation génétique . . . . . . . . . . . . . . . . . 50 2.4 Machine à vecteurs de support . . . . . . . . . . . . . . 56 2.5 Réseau de neurones artificiels . . . . . . . . . . . . . . . 60 2.6 Typologies et analyses communes . . . . . . . . . . . . 67 3 cartographie des recherches sur et avec l’ap- prentissage artificiel 74 3.1 Extraction et caractéristiques principales des corpus . . 75 3.1.1 Web Of Science et ses corpus de données . . . . . 75 3.1.2 Auteurs et publications . . . . . . . . . . . . . . 78 3.1.3 Pays et domaines d’intérêt . . . . . . . . . . . . 80 3.2 Méthodologie de reconstruction des thématiques de l’ap- prentissage artificiel . . . . . . . . . . . . . . . . . . . . . 83 3.2.1 Citations . . . . . . . . . . . . . . . . . . . . . . . 83 3.2.2 Méthodologie d’analyse . . . . . . . . . . . . . . 86 3.3 Les domaines de recherche et d’applications de l’ap- prentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.3.1 Les thématiques de chaque algorithme . . . . . 94 3.3.2 Démographie des thématiques dans les commu- nautés d’algorithmes . . . . . . . . . . . . . . . . 103 3.3.3 Distributions thématiques des auteurs . . . . . . 106 4 un aperçu de quelques usages contemporains 113 4.1 Stackexchange . . . . . . . . . . . . . . . . . . . . . . . . 114 4.1.1 Présentation du réseau Stackexchange . . . . . . 114 4.1.2 Identifier les sites pertinents . . . . . . . . . . . 115 4.1.3 Réseaux de cooccurrence de mots-clés . . . . . . 118 4.1.4 uploads/Geographie/ 0743-cartographie-de-lapprentissage-artificiel-et-de-ses-algorithmes.pdf

  • 23
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager