1 Analyse et Fouille des données Elaboré par Mme Emna HKIRI Emna.hkiri@gmail.co
1 Analyse et Fouille des données Elaboré par Mme Emna HKIRI Emna.hkiri@gmail.com 2020-2021 5 2 2 Data/des données 90% 80% 20% des données du des données sont des données peuvent être monde a été créé au non structurées. gérées par les bases de cours des 3 dernières données traditionnelles années 5 3 4 3 • Forage de données, explorations de données ou fouilles de données, ce sont les traductions possibles du data mining. • En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le fait de transformer ces données en informations utiles, en établissant des relations entre les données. Data Mining ? 90% 80% 20% des données du des données sont des données peuvent être monde a été créé au non structurées. gérées par les bases de cours des trois données traditionnelles dernières années 5 5 6 a. Pourquoi la Fouille de donnée? b. Métaphore c. Evolution des sciences d. Qu’est ce que la fouille de données? e. Des données aux connaissances f. Exemples d’application concrètes g. Les données h. Fonctionnalités du Data Mining i. Confluence de plusieurs Disciplines j. Logiciels libres Introduction à la fouille de données 4 Introduction Motivation: Le besoin crée l’invention 7 Problème de l’explosion de données Les outils de collecte automatique des données et les bases de données conduisent à d’énormes masses de données stockées dans des entrepôts - Entrepôts du Web - Réseaux sociaux et hébergement de documents : - e-commerce Achats dans les supermarchés - Transactions de cartes bancaires Introduction Motivation: Le besoin crée l’invention 8 • Les données sont collectées et stockées rapidement (GB/heures) - Télescopes, - Puces à ADN générant des expressions de gènes, -Simulations générant de téra-octets de données. • Submergés par les données, manque de connaissance ! Problème de l’explosion de données 5 9 Avant de parler connaissez-vous les préfixes ? Introduction Motivation: Le besoin crée l’invention 10 Introduction Motivation: Le besoin crée l’invention 6 Introduction Motivation: Le besoin crée l’invention 11 Problème de l’explosion de données: Développement des TICs Introduction Motivation: Le besoin crée l’invention 12 Problème de l’explosion de données: Développement des TICs 7 Introduction Motivation: Le besoin crée l’invention 13 Métaphore •Trop de données... – Paradoxe : trop données mais pas assez d’informations • Difficulté d’accès à l’information… – Trop de données tue …l’information • Trop de pistes à explorer Introduction Motivation: Le besoin crée l’invention 14 Problème de l’explosion de données: Développement des TICs 8 15 Evolution des sciences • Avant 1600 : science empirique • 1600-1950 : science théorique • Années 50 - Années 90 : «Computational science» - Depuis plus de 50 ans, beaucoup de disciplines se sont développées - Simulation : trouver des modèles proches de la réalité • 1990 - Aujourd’hui : «data science» - Données omniprésentes - capacité à gérer et stocker des volumes gigantesques. - Internet Solution: Data warehousing et data mining est devenu un challenge majeur !!! 16 •1970… : Bases de données relationnelles •1980… : modèles de données avancé Evolution de la technologie des bases de données 1990 : entrepôts de données, … Entrepôts de données !!! 9 Data warehouse 17 O Data warehouse est un entrepôt de données d’une entreprise qui contient quelques données opérationnelles, données agrégées (agrégations), données historiques, données évolutives et possiblement des données externe à l’entreprise qui ont une relation avec l’activité de l’entreprise. O Ces données sont stockées dans une ou plusieurs base de données relationnelle et sont accessibles par toutes les applications orientées aide à la décision. Data Warehouse est usuellement le point de départ de Data Mining. O Data Warehouse et Data Mining sont des parties du processus KDD. 18 Limites de l’approche humaine & Techniques traditionnelles ne sont pas adaptées Solutions et compétences en Fouille récentes disponibles fournir de meilleurs services, s’adapter aux clients Les données sont produites électroniquement et archivées Le contexte est ultra-concurrentiel : Industriels, médicaux, marketing, etc. – Plateformes de calculs disponibles à bas prix Pourquoi maintenant? 10 19 • Terme récent (1990) représentant un mélange d’idées et d’outils provenant de la Statistique, l’Intelligence Artificielle et l’Informatique. • La définition exacte reste peu claire et les terminologies associées au Data-Mining sont encore floues. Une définition suivant un critère égocentré : Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. Autres définitions : •Data mining : Un processus d’extractions automatique d’informations prédictives à partir de grandes bases de données. Fouille de données: Définition Ce qu’est le Data Mining 20 • Data mining : – Extraction d’informations intéressantes (implicites, et potentiellement utiles) à partir de grandes bases de données. • Le datamining est l’ensemble des: – Algorithmes et méthodes • Destinés à l’exploration et l’analyse • De grandes quantités de données • En vue de détecter des règles, des tendances inconnues ou cachées, des structures particulières restituant de façon concise l’essentiel de l’information utile • … pour l’aide à la décision Fouille de données: Définition 11 21 • Autres appellations: Fouilles de Données / business intelligence, ECD/ (KDD (Knowledge Discovery from Databases Analyse de données/patterns, Fouille de données: Définition 22 pourquoi ça s’est développé ? • Intérêt économique • Technologie de l’information : faible coût de stockage de données, saisie automatique de transaction (code bar, click, données de localisation GPS, internet) • • Augmentation de la puissance de calculs des ordinateurs Fouille de données: les raisons du développement Extraire de la connaissance à partir de grandes bases de données devient possible 12 BD VS DATA MINING 23 Data Mining Vs Statistique 24 O En statistique : O Quelques centaines d’individus O Quelques variables O Fortes hypothèses sur les lois statistiques O Importance accordée au calcul O Échantillon aléatoire. O En Data mining O Des millions d’individus O Des centaines de variables O Données recueillies sans étude préalable O Nécessité de calculs rapides O Corpus d’apprentissage. Data Mining Vs Statistique 13 A quoi sert? 25 Services financiers –Attrition (churn) –Détection de fraudes –Identification opportunités de ventes Marketing –Gestion de la relation client (CRM) –Optimisation de campagnes marketing –Ventes croisées Télécommunications –Fidélisation (anti-churn) –Ventes croisées Assurances, Secteur public –Indiquer les anomalies des comptes –Réduire le coût d’investissement d’activité suspecte –Détection de la fraudes Grande Distribution –Fidélisation –Ventes croisées –Analyses de panier –Détection de fraudes Sciences de la vie –Trouver les facteurs de diagnostic typiques d’une maladie –Alignement gênes & protéïnes –Identifier les capacités d’interaction de médicaments Internet –Personnalisation des pub affichées –Optimisation des sites web –Profilage et Recommendation Autre –Rech. d’info (web ou document) –Recherche par similarité (images…) –Analyse spatiale… Application 26 O Gestion et analyse commerciales O Analyse clientèle ou CRM analytique (gestion de la relation client) : O Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ? O Marketing ciblé, actions commerciales, vente croisée : O Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ? O Analyse du risque O Prédiction, fidélisation des clients, contrôle qualité, compétitivité O Détection des fraudes, analyse des incidents O Autres applications O Gestion, indexation et classification de documents, du web et de la navigation sur Internet. O Moteurs de recherche intelligents 14 Application 27 O Mieux connaître le client →Pour mieux le servir →Pour augmenter sa satisfaction →Pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver) O Data mining pour savoir : O Quel client restera fidèle et qui partira? O Quels produits proposer à quels clients? O Qu’est-ce qui détermine qu’une personne répondra à une offre donnée? O Quel est le prochain produit ou service qu’un client particulier désirera? O Usage du web – marketing et ventes sur internet O Découverte des préférences des clients, optimisation du site, etc. Applications 28 • L’analyse d’une BD de transactions d’un supermarché permet d’étudier le comportement des clients : – réorganiser les rayons/ segmentation du marché – Ajuster les promotions – Associations/co-relations entre ventes de produits • L’analyse de données médicales : – Support pour la recherche • L’analyse de données financières : – Prédire l’évolution des actions – Organismes de crédit (dresser des profils de clients) • Domaine d’astronomie • Autres Applications – Text mining : emails, documents Web. – des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation. 15 La fouille de données : autres domaines □publicité ciblée sur internet □identification des prospects les plus susceptibles de devenir clients □reconnaissance faciale dans une image □calcul de la rentabilité des clients □évaluer le risque d’un client (credit scoring) □détection de fraudes bancaires □analyse automatique de contenus textuels (text mining) □reconnaissance de la parole □calcul de score de réachat □prévision de consommation d’électricité □prévision de traffic routier □tester l’efficacité d’un traitement médical ... 29 / 79 30 Applications KDD: services de transport 16 31 Applications KDD : Commerce électronique 32 Applications KDD : Marketing [Piatetsky-Shapiro et al 2000] • Customer • But : partitionner les consommateurs par rapport uploads/Management/ chapitre1-pw.pdf
Documents similaires










-
25
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 11, 2021
- Catégorie Management
- Langue French
- Taille du fichier 1.3369MB