Publications du Laboratoire de Statistique et Probabilit´ es Data mining II. Mo
Publications du Laboratoire de Statistique et Probabilit´ es Data mining II. Mod´ elisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 — mises ` a jour : www.lsp.ups-tlse.fr/Besse Laboratoire de Statistique et Probabilit´ es — UMR CNRS C5583 Universit´ e Paul Sabatier — 31062 – Toulouse cedex 4. 2 Avant-propos Motivations du data mining Le d´ eveloppement des moyens informatiques de stockage (bases de donn´ ees) et de calcul permet le traitement et l’analyse d’ensembles de donn´ ees tr` es volumineux. Plus r´ ecemment, le perfectionnement des interfaces offrent aux utilisateurs, statisticiens ou non, des possibilit´ es de mise en œuvre tr` es simples des outils logiciels. Cette ´ evolution, ainsi que la popularisation de nouvelles m´ ethodes algorithmiques (r´ eseaux de neurones) et outils graphiques, conduit au d´ eveloppement et ` a la commercialisation de logiciels int´ egrant un sous-ensemble de m´ ethodes statistiques et algorithmiques sous la terminologie de Data Mi- ning : la prospection ou fouille de donn´ ees. Cette approche, issue du marketing sp´ ecialis´ e dans la gestion de la relation client (client relation management ou CRM) trouve ´ egalement des d´ eveloppements et applications industrielles en contrˆ ole de qualit´ e ou mˆ eme dans cer- taines disciplines scientifiques d` es lors que les ing´ enieurs et chercheurs sont confront´ es ` a un volume de donn´ ees important. Besse et col. (2001) pr´ esente une introduction d´ etaill´ ee de cette d´ emarche et des relations qu’elle entretien avec les disciplines traditionnelles Sta- tistique et Informatique. L’accroche publicitaire souvent cit´ ee par les ´ editeurs de logiciels (SAS) est : Comment trouver un diamant dans un tas de charbon sans se salir les mains. Nous proposons d’´ evaluer et d’exp´ erimenter la r´ ealit´ e de cette annonce qui s’adresse ` a un march´ e en pleine expansion. Les entreprises sont en effet tr` es motiv´ ees pour tirer parti et amortir, par une aide ` a la d´ ecision quantifi´ ee, les coˆ uts de stockage des teras octets que leur service informatique s’emploie ` a administrer. Le contexte informationnel de la fouille de donn´ ees est celui des data wharehouses. Un entrepˆ ot de donn´ ees, dont la mise en place est assur´ e par un gestionnaire de donn´ ees (data manager) est un ensemble de bases relationnelles extraites des donn´ ees brutes de l’entreprise et relatives ` a une probl´ ematique : • gestion des stocks (flux tendu), des ventes d’un groupe afin de pr´ evoir et anticiper au mieux les tendances du march´ e, • suivi des fichiers clients d’une banque, d’une assurance, associ´ es ` a des donn´ ees socio- ´ economiques (INSEE), ` a l’annuaire, en vue de la constitution d’une segmentation (typologie) pour cibler des op´ erations de marketing ou des attributions de cr´ edit. La gestion de la relation client vise ` a une individualisation ou personnalisation de la production et de la communication afin d’´ evacuer la notion de client moyen. • recherche, sp´ ecification puis ciblage de niches de march´ e les plus profitables (banque) ou au contraire les plus risqu´ ees (assurance) ; • suivi en ligne des param` etres de production en contrˆ ole de qualit´ e pour d´ etecter au 3 4 plus vite l’origine d’une d´ efaillance ; • prospection textuelle (text mining) et veille technologique ; • web mining et comportement des internautes ; • . . . Cet environnement se caract´ erise par • une informatique h´ et´ erog` ene faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) ` a travers le r´ eseau de l’entreprise (intranet) ou mˆ eme des acc` es ext´ erieurs (in- ternet). Des contraintes d’efficacit´ e, de fiabilit´ e ou de s´ ecurit´ e conduisent ` a r´ epartir, stocker l’information ` a la source plutˆ ot qu’` a la dupliquer syst´ ematiquement ou ` a la centraliser. • L’incompatibilit´ e logique des informations observ´ ees sur des ´ echantillons diff´ erents ne pr´ esentant pas les mˆ emes strates, les mˆ emes codifications. • Des volumes et flux consid´ erables de donn´ ees issues de saisies automatis´ ees et chiffr´ es en t´ era-octets. • La n´ ecessit´ e de ne pas exclure a priori un traitement exhaustif des donn´ ees afin de ne pas laisser ´ echapper, ` a travers le crible d’un sondage, des groupes de faibles effectifs mais ` a fort impact ´ economique. Strat´ egie du data mining Dans tout ce qui suit, nous disposons d’un ensemble d’observations. Les caract´ eristiques ou variables X = (X1, . . . , Xp) dites explicatives ont ´ et´ e observ´ ees sur un ensemble de n objets, individus ou unit´ es statistiques. Un premier travail, souvent fastidieux mais incontournable, consiste ` a mener une exploration statistique de ces donn´ ees : allure des distributions, pr´ esence de donn´ ees atypiques, corr´ elations et coh´ erence, transformations ´ eventuelles des donn´ ees, description multidimensionnelle, classification. C’est l’objet de la premi` ere partie de ce document. La deuxi` eme partie d´ ecrit les outils de mod´ elisation statistique ou encore d’apprentissage utilisables pour la pr´ ediction d’une variable cible Y par les variables explicatives Xj. L’enchaˆ ınement de ces ´ etapes (exploration puis apprentissage) constitue le fondement de la fouille de donn´ ees. Pour comprendre la structure et bien appr´ ehender le contenu de ce cours, il est impor- tant d’int´ egrer rapidement ce qu’est la strat´ egie ` a mettre en œuvre pour aboutir au bon apprentissage ou encore au bon mod` ele pr´ edictif recherch´ e ` a partir des donn´ ees observ´ ees. Attention, il faut bien noter que, contrairement ` a une d´ emarche statistique tradition- nelle dans laquelle l’observation des donn´ ees est int´ egr´ ee ` a la m´ ethodologie (plannification de l’exp´ erience), les donn´ ees sont ici pr´ ealables ` a l’analyse. N´ eanmoins il est clair que les pr´ eoccupations li´ ees ` a leur analyse et ` a son objectif doivent intervenir le plus en amont possible pour s’assurer quelques chances de succ` es. Les ´ etapes de la fouille de donn´ ees : i. Extraction des donn´ ees avec ou sans ´ echantillonnage faisant r´ ef´ erence ` a des tech- niques de sondage appliqu´ ees ou applicables ` a des bases de donn´ ees. ii. Exploration des donn´ ees pour la d´ etection de valeurs aberrantes ou seulement aty- piques, d’incoh´ erences, pour l’´ etude des distributions des structures de corr´ elation, recherche de typologies, pour des transformations des donn´ ees. . . 5 iii. Partition al´ eatoire de l’´ echantillon (apprentissage, validation, test) en fonction de sa taille et des techniques qui seront utilis´ ees pour estimer une erreur de pr´ ediction en vue des choix de mod` ele, choix et certification de m´ ethode. iv. Pour chacune des m´ ethodes consid´ er´ ees : mod` ele lin´ eaire g´ en´ eral (gaussien,binomial ou poissonien), discrimination param´ etrique (lin´ eaire ou quadratique) ou non pa- ram´ etrique, k plus proches voisins, arbre, r´ eseau de neurones (perceptron), support vecteur machine, combinaison de mod` eles (bagging, boosting). • estimer le mod` ele pour une valeur donn´ ee d’un param` etre de complexit´ e : nombre de variables, de voisins, de feuilles, de neurones, , dur´ ee de l’apprentissage, largeur de fenˆ etre. . . ; • optimiser ce param` etre (sauf pour les combinaisons de mod` eles affranchies des probl` emes de sur-apprentissage) en fonction de la technique d’estimation de l’er- reur retenue : ´ echantillon de validation, validation crois´ ee, approximation par p´ enalisation de l’erreur d’ajustement. v. Comparaison des mod` eles optimaux obtenus (un par m´ ethode) par estimation de l’erreur de pr´ evision sur l’´ echantillon test ou, si la pr´ esence d’un ´ echantillon test est impossible, sur le crit` ere de p´ enalisation de l’erreur (Akaˆ ıke par exemple) s’il en existe une version pour chacune des m´ ethodes consid´ er´ ees. vi. It´ eration ´ eventuelle de la d´ emarche pr´ ec´ edente (valisation crois´ ee), si l’´ echantillon test est trop r´ eduit, depuis (iii). Partitions al´ eatoires successives de l’´ echantillon pour moyenner sur plusieurs cas l’estimation finale de l’erreur de pr´ ediction et s’assurer de la robustesse du mod` ele obtenu. vii. Choix de la m´ ethode retenue en fonction de ses capacit´ es de pr´ ediction, de sa robus- tesse mais aussi, ´ eventuellement, de l’interpr´ etabillit´ e du mod` ele obtenu. Objectif L’objet de ce cours est d’introduire, sous une forme homog` ene et synth´ etique, les prin- cipales techniques d’exploration, de mod´ elisation ou encore d’apprentissage utilis´ ees le plus couramment en fouille de donn´ ees et cit´ ees dans la section pr´ ec´ edente. Il a fallu faire des choix dans l’ensemble des techniques propos´ ees et leurs nombreux avatars. La forme et le contenu sont guid´ es par les besoins exprim´ es lors des stages r´ ealis´ ees par les ´ uploads/Management/cours-besse.pdf
Documents similaires










-
20
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 01, 2021
- Catégorie Management
- Langue French
- Taille du fichier 0.8357MB