Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Ricco Ra

Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 Ricco Rakotomalala • ricco.rakotomalala@univ-lyon2.fr • http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels, … Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 Plan 1. Qu’est ce que le Data Mining ? 2. Spécificités du Data Mining 3. Quelques exemples 4. Typologie des méthodes de Data Mining 5. Ressources – Sites web et bibliographie Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 Une démarche plus qu’une théorie ! Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 • divorcé • 5 enfants à charge • chômeur en fin de droit • compte à découvert Exemple introductif : demande de crédit bancaire Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 Comment et à quelles fins utiliser cette expérience accumulée • coûteuse en stockage • inexploitée Expérience de l’entreprise : ses clients et leur comportement Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 7 Fouille des données (Data mining) Bases de données Mise en forme des Connaissances Déploiement Exploitation • Echantillonnage • Préparation des données • Visualisation des données • Graphes d'Induction • Réseaux de neurones • Analyse discriminante • Régression logistique • Tests statistiques • Re-échantillonnage table modèles Connaissances Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996) Le processus ECD (Extraction de connaissances à partir de données) KDD – Knowledge discovery in Databases Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 Émergence de l’ECD : domaines d’applications Domaine des assurances • analyse des risques (caractérisation des clients à hauts risques, etc.) • automatisation du traitement des demandes (diagnostic des dégâts et détermination automatique du montant des indemnités) Services financiers • consentements de prêts automatisés, support à la décision de crédit • détection des fraudes Grande distribution • profils de consommateurs et modèles d’achats • constitution des rayonnages • marketing ciblé Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 10 Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996) Est-ce vraiment nouveau ? Data Mining : Une nouvelle façon de faire de la statistique ? http://cedric.cnam.fr/~saporta/DM.pdf L’analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.» (J.P.Benzécri1973) The basic steps for developing an effective process model ? http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm 1. Model selection 2. Model fitting 3. Model validation Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 11 (1) Sources de données (2) Techniques utilisées (3) Multiplicité des supports Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 12 Sources de données • valoriser les fichiers de l’entreprise • construire des entrepôts • modifier le schéma organisationnel Techniques utilisées • Intégrer des techniques d’origines diverses Élargissement des supports • Text mining • Image mining • … Multimédia mining Spécificités du Data Mining Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 13 Stockage • orientation analyse • historisées • non-volatiles Production • orientation service (ventes, comptabilité, marketing…) • volatiles Les sources de données Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 14 L’organisation du flux d’informations et les acteurs Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 15 Systèmes de gestion (opérationnel) Systèmes décisionnels (analyse) Objectif dédié au métier et à la production ex: facturation, stock, personnel dédié au management de l'entreprise (pilotage et prise de décision) Volatilité (perennité) données volatiles ex: le prix d'un proiduit évolue dans le temps données historisées ex: garder la trace des évolutions des prix, introduction d'une information daté Optimisation pour les opérations associées ex: passage en caisse (lecture de code barre) pour l'analyse et la récapitulation ex: quels les produits achetés ensembles Granularité des données totale, on accède directement aux informations atomiques agrégats, niveau de synthèse selon les besoins de l'analyse Systèmes de gestion et systèmes décisionnels Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 16 Data Mining vs. Informatique Décisionnelle (Business Intelligence) L’informatique décisionnelle (… BI pour Business Intelligence) désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'une entreprise d’avoir une vue d’ensemble de l’activité traitée. (http://fr.wikipedia.org/wiki/Informatique_décisionnelle) • Sélectionner les données (par rapport à un sujet et/ou une période) • Trier, regrouper ou répartir ces données selon certains critères • Élaborer des calculs récapitulatifs « simples » (totaux, moyennes conditionnelles, etc.) • Présenter les résultats de manière synthétique (graphique et/ou tableaux de bord)  REPORTING http://www.commentcamarche.net/entreprise/business-intelligence.php3 Le Data Mining est proche de ce cadre, mais elle introduit une dimension supplémentaire qui est la modélisation « exploratoire » (détection des liens de cause à effet, validation de leur reproductibilité) Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 17 Spécificités du Data Mining Techniques d’exploration de données • Des techniques d’origines diverses, issues de cultures différentes • …mais qui traitent des problèmes similaires • et qui partent toujours d’un tableau de données Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 18 Techniques utilisées selon leur « origine » Statistiques Théorie de l’estimation, tests Économétrie Maximum de vraisemblance et moindres carrés Régression logistique, … Analyse de données (Statistique exploratoire) Description factorielle Discrimination Clustering Méthodes géométriques, probabilités ACP, ACM, Analyse discriminante, CAH, … Informatique (Intelligence artificielle) Apprentissage symbolique Reconnaissance de formes Une étape de l’intelligence artificielle Réseaux de neurones, algorithmes génétiques… Informatique (Base de données) Exploration des bases de données Volumétrie Règles d’association, motifs fréquents, … Très souvent, ces méthodes reviennent à optimiser les mêmes critères, mais avec des approches / formulations différentes Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 19 Techniques issues de l’Intelligence Artificielle • capacité d ’apprentissage (universel) • structuration / classement Les réseaux de neurones artificiels Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 20 Techniques en provenance des BD If MARITAL_ST MARITAL_ST MARITAL_ST MARITAL_ST is Divorced Divorced Divorced Divorced Then SPOUSE_TIT SPOUSE_TIT SPOUSE_TIT SPOUSE_TIT is None None None None Rule's probability: 0.952 0.952 0.952 0.952 The rule exists in 40 40 40 40 records. If MARITAL_ST MARITAL_ST MARITAL_ST MARITAL_ST is Divorced Divorced Divorced Divorced and LOAN_LENGT LOAN_LENGT LOAN_LENGT LOAN_LENGT = 4.00 4.00 4.00 4.00 Then GUARANTEE GUARANTEE GUARANTEE GUARANTEE is No No No No Rule's probability: 0.966 0.966 0.966 0.966 The rule exists in 28 28 28 28 records. A A A A = B + 2.00 B + 2.00 B + 2.00 B + 2.00 where: A A A A = FAMILY_COU FAMILY_COU FAMILY_COU FAMILY_COU B B B B = CHILDREN CHILDREN CHILDREN CHILDREN Accuracy level : 0.96 0.96 0.96 0.96 The rule exists in 397 397 397 397 records. • traitement « omnibus » • connaissance interprétable Les règles d’association Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 21 Spécificités du Data Mining Élargissement des supports • Text mining • Image mining • …autres… L’appréhension des sources multiples Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 22 Élargir les supports Prédiction Structuration Description Association Les applications Filtrage automatique des e-mails (spams, terrorisme,...) Reconnaissance de la langue à une centrale téléphonique Détection des images pornographiques sur le web Analyse des mammographies Etc. Rôle fondamental de la préparation des données Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 23 (1) Ciblage de clientèle : le scoring (2) Étiquetage automatique de « nouvelles » Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 24 Ciblage de clientèle par publipostage (1/2) Banque française Objectif : Augmenter l’adhésion à un service en ligne (taux d’abonnement actuel 4%) Base marketing : plusieurs centaines de milliers de clients, ~200 variables (95% sont quantitatives) Méthode : isoler des groupes d’individus se ressemblant dans lequel le taux d’abonnement est élevé  les non-abonnés dans ces groupes seront (certainement ?) sensibles à une offre ciblée (hypothèse : s’ils ne sont pas abonnés, c’est qu’ils n’ont pas reçu l’information)  technique : arbre de décision avec échantillonnage équilibré sur chaque noeud Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 25 Évaluation : dépasser le taux (coût) d’erreur, mesurer la qualité du ciblage  meilleur ciblage : toutes les personnes contactées ont souscrit un contrat 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Cumulative % of the population Cumulative % of "rare" Optimal BLS-10000 BLS-500 BLS-300 BgS-10000 BgS-2000 Random Individu Probabilité de souscrire Pourc. Ind. cumul Pourc. Ciblés Cumul Pourc. Ciblés 4 0.95 10% 19% 0.19 9 0.9 20% 37% 0.18 10 0.8 30% 53% 0.16 6 0.65 40% 66% 0.13 3 0.6 50% 78% 0.12 7 0.5 60% 88% 0.1 2 0.35 70% 95% 0.07 5 0.25 80% 100% 0.05 8 0 90% 100% 0 1 0 100% 100% 0 5.00 Ciblage de clientèle par publipostage (2/2) Equipe de recherche en Ingénierie des uploads/Science et Technologie/ introduction-au-data-mining.pdf

  • 12
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager