Université Ferhat Abbes de Sétif 1 ANALYSE PRÉDICTIVES Master Intelligence arti
Université Ferhat Abbes de Sétif 1 ANALYSE PRÉDICTIVES Master Intelligence artificielle et informatique fondamentale Dr. Drif Ahlem 1 2 Les analyses prédictives Les analyses prédictives sont centrées autour des probabilités, pas d’un absolu. Les analyses prédictives utilisent également de plus en plus le Data Mining et le Machine Learning. Le Data Mining, comme son nom l’indique, consiste à examiner de larges ensembles de données afin de découvrir des patterns et de nouvelles informations. Les innovations dans le domaine du Machine Learning comme les réseaux de neurones ou les algorithmes de deep learning permettent quant à elle de traiter les ensembles de données non structurées plus vite qu’un Data Scientist traditionnel avec une précision supérieure à mesure que les algorithmes s’améliorent. L'apprentissage automatique ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches statistiques pour donner aux ordinateurs la capacité d'apprendre à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, le développement et l'implémentation de telles méthodes. Apprentissage Automatique (Machine Learning) L'apprentissage supervisé : (supervised learning) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. Les exemples annotés constituent une base d'apprentissage. On suppose cette base d'apprentissage représentative d'une population d'échantillons plus large et le but des méthodes d'apprentissage supervisé est de bien généraliser, c'est-à-dire d'apprendre une fonction qui fasse des prédictions correctes sur des données non présentes dans l'ensemble d'apprentissage. Les exemples annotés constituent une base d'apprentissage. On suppose cette base d'apprentissage représentative d'une population d'échantillons plus large et le but des méthodes d'apprentissage supervisé est de bien généraliser, c'est-à-dire d'apprendre une fonction qui fasse des prédictions correctes sur des données non présentes dans l'ensemble d'apprentissage. 7 Apprentissage Automatique (Machine Learning) SUPERVISÈ Non SUPERVISÈ Machine Learning Classification Regression Clustering Reduction des dimension Techniques d’apprentissage automatique: 8 Apprentissage Automatique(Machine Learning) Exemple de Classification Exemple de Régression 9 Apprentissage Automatique(Machine Learning) Les algorithme de L'apprentissage Automatique les plus populaire: • Machine à vecteurs de support(SVM):introduit par Vladimir Vapink dans les années 1990, son idée principale est de maximiser la marge entre les classes des données et de trouver la meilleure séparation linéaire entre eux. • Régression Logistique: est un modèle linéaire utilisé pour la classification (binaire et multi- class) qui utilise la fonction logistique Sigmoid pour fournir une probabilité comme sortie. • Arbre de décision: Applications des Les modèles prédictifs L’ARBRE DE DÉCISION Définition d’Arbre de Décision Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteints en fonction de décisions prises à chaque étape. Il s'agit de plus d'une représentation calculable automatiquement par des algorithmes d'apprentissage supervisé. Exemple : Base d’apprentissage Pour Construire un AD il faut avoir une base d’apprentissage numéro Forme Taille Couleur Classe 1 Rond Petit Bleu Oui 2 Carré Grand Rouge Non 3 Rond Petit Blanc Oui 4 Carré Petit Bleu Oui 5 Rond Grand Bleu Oui 6 Carré Grand Blanc Non 7 Carré Petit Blanc Oui 8 Carré Grand Bleu Non 9 Carré Petit Rouge Oui 10 Rond Grand Blanc Oui construction d’un AD Pour construire un tel arbre ,plusieurs algorithme existent : ID3 ,CART, C4.5, CHAID… ⇒ L’arbre est construit récursivement de haut en bas selon le principe « Diviser pour Régner ». La différence principale entre ces algorithmes : ==> Mesure de sélection d’un attribut. ==> Critère de branchement (split). Mesure de sélection d’un attribut: ID3, C4.5 Gain d’information. CART Indice Gini. CHAID Table de contingence statique. Les attributs sont sélectionner selon des heuristiques ou statistique( gain d’information) . On choisit le gain le plus grand. Avant de calculer le gain on calcule « Entropie » ou bien La quantité d’information nécessaire I(p,n)= - p/n log2 (p/n) – n/p log2 (n/p) E(A)= ∑ ((pi+ni)/(p+n)) (I(pi,ni)) Le gain : Gain(A)= I(p,n) – E(A). Pré-élagage: Effectue lors de la construction de l'arbre. Lorsqu'on calcule les caractéristiques statistiques d'une partie des données tel que le gain, on peut décider de l'importance ou non de sa subdivision. Ainsi on coupe complètement des branches qui peuvent être générée. Post-élagage: Effectue après la construction de l'arbre en coupant des sous arbres entiers et en les remplaçant par des feuilles représentant la classe la plus fréquente dans l'ensemble des données de cet arbre. On commence de la racine et on descend, Pour chaque nœud interne (non feuille), on mesure sa complexité avant et après sa coupure (son remplacement par une feuille). Si la différence est peu importante, on coupe le sous arbre et on le remplace par une feuille. Élagage AD construit peut être d'une taille très importante épuisant les ressources de calcul et de stockage. La solution :élagage pour éliminer de l'AD les branches les moins significatives (déduisant d'un min d'exemples ou de appartenant a diff classes). Elagage est deux type avant ou après l'apprentissage (pré et post-élagage). Règles de classification Une règle est générée pour chaque chemin de l’arbre ( de la racine à une feuille). Le paire attribut-valeur d’un chemin forment une conjonction. Le nœud terminale présente la classe prédit . Les règles sont généralement plus facile à comprendre que les arbres. Exemple Détaillé Numéro Forme Taille Couleur Class 1 Rond Petit Bleu Oui 2 Carré Grand Rouge Non 3 Rond Petit Blanc Oui 4 Carré Petit Bleu Oui 5 Rond Grand Bleu Oui 6 Carré Grand Blanc Non 7 Carré Petit Blanc Oui 8 Carré Grand Bleu Non 9 Carré Petit Rouge Oui 10 Rond Grand Blanc Oui Pour construire l’arbre de décision selon la méthode ID3 on doivent calculer le Gain pour chaque attribut. Scission n°1 (forme): Oui Non Rond 4 0 Carré 3 3 Total 7 3 Entropie de cette scission: IR(4,0)= - 4/4 log2 (4/4)- 0/4 log2 (0/4) = 0 IC(3,3)= - 3/6 log2 (3/6)- 3/6 log2 (3/6) = 1 IF(7,3)= - 7/10 log2 (7/10)- 3/10 log2 (3/10) = 0,88 E (forme)= 4/10 IR(4,0) + 6/10 IC(3,3) = 0,6 Gain(forme)= 0,88 - 0,6 = 0,28. Scission n°2 (taille): It(7,3)= - 7/10 log2 (7/10)- 3/10 log2 (3/10) =0,88 E (Taille)= 5/10 IP(5,0) + 5/10 IG(2,3) = 0,4855 Gain(forme)= 0,88 - 0,4855= 0.3957 Oui Non Petit 5 0 Grand 2 3 Total 7 3 Scission n°3 (Couleur): E(couleur)=4/10 IB(3,1) + 2/10 IR(1,1)+ 4/10 IBL(3,1) =0,8488. Gain(couleur)= 0,88 - 0,8488= 0,0324. Oui Non Bleu 3 1 Rouge 1 1 Blanc 3 1 Total 7 3 Donc le plus grand Gain est : la scission Taille. La scission taille est le nœud racine de l’arbre. Les scission possibles pour le noeud fils généré par affectation des nœuds F et C avec attribut Taille. On va trouve que le meilleur gain est de F . Oui Non Rond 2 0 Carré 0 3 Total 2 3 Le résultat: taille petit grand forme rond carré 7: oui [70%] 3: non [30%] 5: oui [100%] 0: non [0%] 2: oui [40%] 3: non [60%] 2: oui [100%] 0: non [0%] 0: oui [0%] 3: non [100%] Les règle de classification sont : Si (taille = petit) Alors OUI. Si (taille = grand) ^ (forme = rond) Alors OUI. Si (taille = grand) ^ (forme = carre) Alors NON. Les aventages Facilité de mise en œuvre : un graphe simple à réaliser même si la partie chiffrage nécessite une analyse précise. Facilité de prise de décision : modélisation des options possibles, visualisation les différents scénarios. Simplification des décisions complexes : le mode graphique permet de comparer de multiples chemins. Chaque nœud peut être mis en perspective et chiffré parmi un ensemble d'hypothèses. Les limites Le chiffrage reposant sur des estimations, la précision des chiffres joue un rôle primordial dans la pertinence du modèle. Un arbre de décision ne prend pas en compte tous les facteurs, notamment ceux reposant sur des évaluations qualitatives. Conclusion Cet outil constitue un outil de décision puissant, car il permet d'étudier des scénarios chiffrés, de poser une base de réflexion et de susciter des échanges productifs. uploads/Management/ analysepredictive-arbredecision.pdf
Documents similaires
-
17
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 19, 2021
- Catégorie Management
- Langue French
- Taille du fichier 1.8163MB