29/10/2021 1 Data Mining & Big Data 1 Généralités DM, Définitions, Pratiques et
29/10/2021 1 Data Mining & Big Data 1 Généralités DM, Définitions, Pratiques et domaines d'application 29/10/2021 2 Motivation: Pourquoi le Data mining? Est-ce une bonne idée de faire de la publicité de musique rap dans des magazines pour personnes âgées? Est-ce que vous saviez que les compagnies de cartes de crédit peuvent suspecter un vol de carte, même si le propriétaire de la carte n’est pas encore au courant? Qui sont mes meilleurs clients? A combien s’élèvent mes ventes journalières? Pourquoi et comment le chiffre d’affaire a baissé? 3 L. Karim Data Mining et Big Data « La nécessité est la mère de l ’invention » Paradoxe : Production croissante de données accumulées au fil du temps Nous sommes riches en données et pauvres en informations Métaphore : Par analogie à la recherche des pépites d’or dans un gisement, vise extraire des informations cachées par analyse globale à découvrir des modèles (“patterns”) difficiles à découvrir car: le volume de données est très grand le nombre de variables à considérer est important ces “patterns” sont imprévisibles (même à titre d ’hypothèse à vérifier) Motivation: Pourquoi le Data mining? L. Karim Data Mining et Big Data 29/10/2021 3 Motivation: Pourquoi le Data mining? 5 L. Karim Data Mining et Big Data Quantité versus Qualité Quantité Qualité Informations /Données Connaissances / patterns Meta Data / Modèles Motivation: Pourquoi le Data mining? L. Karim Data Mining et Big Data 29/10/2021 4 Définition du Data Mining 7 Définition 1 : L. Karim Data Mining et Big Data Définition du Data Mining 8 Procédé consistant à introduire une règle à titre d’hypothèse afin de considérer un résultat comme un cas particulier tombant sous cette règle La déduction logique est un type de relation que l'on rencontre en logique mathématique. Elle relie des propositions dites prémisses à une proposition dite conclusion et préserve la vérité. L. Karim Data Mining et Big Data 29/10/2021 5 Définition du Data Mining 9 L. Karim Data Mining et Big Data Définition du Data Mining Définition 2 : « ensemble d’outils permettant d’extraire automatiquement des connaissances intéressantes et intelligibles dans les bases de données (règles, régularités, patterns,…) et de découvrir des modèles implicites » [Fayyad 96] Définition 3 : Consiste, depuis un ensemble de données, à découvrir des modèles: [Gardarin 99] soit fonctionnels sous la forme f (x1,...xn) = y (par exemple: une régression linéaire y = ax+b) soit logiques comme les règles d'association ou les arbres de décision 10 L. Karim Data Mining et Big Data 29/10/2021 6 Définition 4 : Extraction d’informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles) à partir de grandes bases de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc … 11 Définition du Data Mining L. Karim Data Mining et Big Data Tâches génériques du DM (1) Analyse dans une optique exploratoire Classification automatique d'objets (= Clustering) à partir d'exemples non structurés, décrit en extension les classes se base sur une mesure de similarité (distance) pour grouper les données ex: aménagement des rayons Description synthétique d'un ensemble d'objets La généralisation simplifie les données en diminuant les détails sémantiques se base sur des connaissances préalables comme des hiérarchies de concepts Statistiques simples jusqu’à 3 variables, Analyse factorielle au-delà permet de réduire N dimensions en P facteurs (technique de projection) 12 L. Karim Data Mining et Big Data 29/10/2021 7 Tâches génériques du DM (2) Analyse exploratoire (suite) Recherche de dépendances Analyse de correspondances Recherche d ’associations ex d’association : X achète télé => X achète récepteur (à 75%) Détection de tendances (trend) et de déviations efface l’influence des données extrêmes ou atypiques les déviations sont détectées en utilisant des tests statistiques sur les écarts. ex: tendance dans l ’évolution de valeurs boursières 13 L. Karim Data Mining et Big Data Tâches génériques du DM (3) Analyse dans une optique décisionnelle Recherche de règles de classement d'objets Identifier les classes avant de classer réellement les objets à partir d’une base d’exemples, induit une description en intention permettant de classer les prochaines données (apprentissage supervisé) résultat : soit règle (si ...alors), soit arbre de décision ou Réseaux Neuronal Exemple: 14 L. Karim Data Mining et Big Data 29/10/2021 8 Tâches génériques du DM (4) Analyse dans une optique décisionnelle Régression Découverte de relations numériques au sein des données méthodes de régression permettant de prédire une variable expriment un lien entre les variables sous forme de fonction mathématique ex : y=a1*x1+a2*x2+...+an*xn + r ; r = résidu et y = variable en sortie ex: prédire le % de profit ou de perte des prêts d'une banque 15 L. Karim Data Mining et Big Data Pourquoi faire ? Applications potentielles Analyse de données et aide à la décision Analyse de marché Marketing ciblé, gestion des relations clients, analyse des achats des clients, ventes croisées, segmentation du marché Analyse de risque Détection de fraudes Autres Applications Text mining : news groups, emails, documents Web. 16 L. Karim Data Mining et Big Data 29/10/2021 9 17 Pourquoi faire ? Applications potentielles Exemple (Assurance) L. Karim Data Mining et Big Data 18 Pourquoi faire ? Applications potentielles Exemple (Banque - Telecom) L. Karim Data Mining et Big Data 29/10/2021 10 Astronomie Le laboratoire JPL a découvert 22 quasars en utilisant les techniques de datamining (des astres distants, qui apparaissent comme des étoiles très brillantes lorsqu'on les observe au télescope, mais dont on sait aujourd'hui qu'il s'agit de noyaux actifs (AGN) de galaxies lointaines) Web IBM a appliqué des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation. Améliorer le WEB marketing 19 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data Applications: Grande Distribution Vente par correspondance Définition de profils des clients Analyse du panier de la ménagère Analyse des données liées au paiement (adresse, sexe…) Prédiction des taux de réponses à des listes de diffusions Optimisation des réapprovisionnements Propositions spécifiques de services à des individus profilés Élimination des “mauvais” clients 20 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data 29/10/2021 11 Application: Assurances Assurances Définition des profils des clients Analyse des données personnelles (sexe, age, profession…) Analyse des données sur les éléments à assurer (type de voiture, puissance…) Analyse des sinistres Élimination des “mauvais” clients Tarification du contrat Évaluation des risques Détection des fraudes 21 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data Application: Banques Banques Définition des profils des clients Analyse de la situation bancaire (solde, produits bancaires …) Analyse de données supplémentaires (sexe, profession, situation familiale…) Élimination des “mauvais” clients Autorisation de crédits aux “bons” clients Propositions spécifiques de services 22 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data 29/10/2021 12 Application: Banques Banques Détection des évolutions de profils Analyse de la situation bancaire (solde, produits bancaires possédés…) Analyse des données supplémentaires (situation familiale, profession…) Détection de la lassitude d’un client (possibilité de trouver de nouvelles propositions plus adaptées) Détection de l’amélioration ou de la détérioration de la situation bancaire 23 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data Application: Banques Banques Détection de comportements particuliers Analyse de la situation bancaire (solde, produits bancaires possédés…) Analyse des données supplémentaires (situation familiale, profession…) Détection des fraudes (utilisation anormale des systèmes de paiement) 24 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data 29/10/2021 13 Application: Bourse Analyse du cours de la bourse pour pouvoir passer des ordres automatiques de transactions boursières 25 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data Application: Production Industrielle Production industrielle Prédiction et détection Analyse du fonctionnement de la chaîne de production Analyse des produits Analyse des ventes Analyse de questionnaires (prospectifs, satisfaction…) Optimisation de la production Adéquation au marché Anticipation des défauts Diagnostics de pannes 26 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data 29/10/2021 14 Application: Internet Internet Détermination d’un thème, d’un sujet Analyse automatique de sites web Analyse automatique du courrier électronique Aide à l’organisation des messages reçus Moteur de recherche évolué (design des systèmes) Décision de marketing Espionnage 27 Pourquoi faire ? Applications potentielles L. Karim Data Mining et Big Data Processus de découverte de connaissance ECD: Vocabulaire associé Datawarehouse (Entrepot de données) Base de données construite dans un but décisionnel construite depuis des bases de production souvent multi-sources et archivant des données historisées actualisées soit par interrogation des bases sources (data pull), soit par envoie automatiques des modifications par les serveurs (data push) généralement de gde taille corr. à l’archivage du résultat des requêtes Datamart : magasin de données ciblé sur qq sujets particuliers à l ’échelle d’un département de l’entreprise 28 L. Karim Data Mining et Big Data 29/10/2021 15 On-Line Analytical Processing (OLAP) exploitation (lecture) d’un datawarehouse par analyse multi- dimensionnelle et interactive représente les données dans des «Data Cubes» donnant des comptages, totaux, ..., pour chaque variable et pour toute combinaison de variables uploads/Management/ data-mining-data-science-chp-1-chp2-impression.pdf
Documents similaires
-
21
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 07, 2021
- Catégorie Management
- Langue French
- Taille du fichier 3.1211MB