See discussions, stats, and author profiles for this publication at: https://ww
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/274314023 Data Mining avec Weka Thesis · January 2015 CITATIONS 0 READS 2,059 1 author: Some of the authors of this publication are also working on these related projects: Artificial intelligence for all (Book writting) View project Ange Ange Polytechnique Montréal 3 PUBLICATIONS 0 CITATIONS SEE PROFILE All content following this page was uploaded by Ange Ange on 01 April 2015. The user has requested enhancement of the downloaded file. Data Mining avec Weka Projet de Maitrise Geénie Informatique Sommaire Résumé......................................................................................................................................3 INTRODUCTION.....................................................................................................................4 CHAPITRE 1 : DESCRIPTION DU LOGICIEL WEKA......................................................................5 1. Présentation de l’interface graphique..................................................................................6 2. Le traitement de données....................................................................................................6 3. Les classificateurs...............................................................................................................7 a. La classification Bayé sienne..................................................................................................7 b. La méthode de l’arbre de décision..........................................................................................8 4. Le clustering avec Weka.....................................................................................................8 a. Présentation............................................................................................................................8 b. L’apprentissage supervisé.......................................................................................................9 c. L’apprentissage non-supervisé..............................................................................................10 5. L’interface Knowledge flow.............................................................................................13 6- Etude des classes de Weka...................................................................................................13 Communication Python-Java........................................................................................................15 CHAPITRE 2 : L’ALGORITHME DE REGRESSION LOGISTIQUE BETA BERNOUILLI............16 1. Quelques notions sur la régression logistique...................................................................17 2. La régression logistique Beta-Bernoulli............................................................................17 3. Implémentation de l’algorithme........................................................................................18 a. Compréhension du logiciel...................................................................................................19 b. Exploitation de l’algorithme sous le programme Weka........................................................20 CONCLUSION....................................................................................................................................21 Table des illustrations...........................................................................................................................23 Bibliographie........................................................................................................................................23 ANNEXE 1 : CONVERSION DU FICHIER UCI-SPLIT AU FORMAT ARFF.....................25 ANNEXE 2 : LISTE DES CLASSIFICATEURS WEKA.......................................................26 ANNEXE 3 : Java bblr_poly.java............................................................................................27 2 Résumé L'analyse de données dans le domaine de la médecine est de plus en plus fréquente afin de préciser les diagnostics, affiner les méthodes de recherche et prévoir des approvisionnements appropriés en équipement en fonction de l'importance des pathologies qui apparaissent. Pour analyser les données présentes afin de prédire des résultats optimaux, l'intelligence artificielle propose des solutions logicielles parmi elles figurent Weka. Weka est un logiciel open source développé par l'université Wakaito en Nouvelles Zélande. Il possède plusieurs algorithmes de traitement de données de filtrage de classification, d'apprentissage et de visualisation. Ce projet s'intéresse particulièrement à la classification et l'apprentissage supervisé des données. La classification permet d'obtenir un modèle de prédiction à partir de données d'entrainement et de données de test. Ce modèle grâce à la combinaison d'outils mathématiques et de méthodes informatiques, a pour objectif de mettre au jour une liaison fonctionnelle entre une variable cible que l'on cherche à prédire et une ou plusieurs variables prédictives. Weka possède soixante-quinze algorithmes dont les réseaux de neurones, l'arbre de décision et la régression logistique. La régression logistique est l'algorithme d'apprentissage supervisé qui fait l'objet de ce projet. Il consistera à l'intégrer à la plateforme de Weka et de le comparer avec d'autres algorithmes d'apprentissage. Le taux d'erreurs est, en effet, mesuré grâce à la probabilité de déduction du modèle construit par l'algorithme. De ce fait, la régression logistique, basée sur de l'étude d'une fonction logistique, est performante dans la fouille de données binaires. Le domaine médical est le plus expressif des cas de données binaires dans la mesure où les études tournent autour du dépistage de personnes malades ou pas, possédant un symptôme ou non. Ainsi après avoir analysé le diagramme de classe du logiciel Weka 3.4.7 et déterminer les points d'entrée ; le code python de l'algorithme a pu être intégré dans le code source de Weka. Les résultats de l'algorithme de la régression linéaire par Beta Bernoulli sont testés sur la base de données UCI-Split présentant des pathologies principalement sur le cancer du cœur, du sein et du foie. La performance de cet algorithme réside dans sa capacité à bénéficier des bibliothèques de calcul du langage Python et l'analyse efficiente des résultats dans le logiciel Weka. 3 INTRODUCTION L'apprentissage machine est centré sur la construction de systèmes informatiques qui ont la capacité d'améliorer leur performance dans un domaine donné par l'expérience. L'apprentissage automatique est intrinsèquement lié aux thèmes de base de l'intelligence artificielle et fournit une méthodologie et la technologie pour améliorer les applications du monde réel dans beaucoup de ces sujets. L'apprentissage de la machine fournit également un pont entre la technologie AI et génie logiciel moderne. Comme Tom Mitchell souligne, l'apprentissage de la machine est maintenant considéré comme une technologie à la fois pour le développement de logiciels (particulièrement adapté pour des applications difficiles à programme ou pour personnaliser le logiciel) et la construction d'un logiciel intelligent. L'intelligence des programmes définit leur aptitude à prendre des décisions à partir d'une base de connaissance précise. La précision de la base de connaissance permet aux systèmes intelligents de générer de nouvelles règles grâce aux modèles probabilistes issus de l'analyse des données. Dans la génétique, la médecine, l'économie, ou le marketing en passant par l'analyse statistique le traitement intelligent de données a envahi toutes les sphères des sciences modernes. Techniques d'apprentissage automatique sont une partie essentielle d'un nombre croissant d'applications en science, ingénierie, systèmes d'information et de l'éducation, tels que la reconnaissance vocale, le traitement du langage naturel et la vision par ordinateur, entre autres. Domaines émergents tels que l'exploration de données et l'exploration du Web utilisent des techniques d'apprentissage machine de base, y compris les arbres de décision, réseaux de neurones et l'apprentissage Bayésien. Weka est un ensemble d'algorithmes d'apprentissage machine pour les tâches d'exploration de données. Les algorithmes peuvent soit être directement appliquées à un ensemble de données ou appelés à partir de votre propre code Java. Weka contient des outils pour les données de prétraitement, la classification, la régression, le clustering, règles d'association, et la visualisation. Il est aussi bien adapté pour le développement de nouveaux programmes d'apprentissage de la machine. Ce logiciel comprend une pléiade d'algorithmes. Des algorithmes qui peuvent aider à l'apprentissage machine sont très diversifiés. La classification : étant donné un ensemble marqué d'observations, apprendre à prédire des étiquettes pour de nouvelles observations, la régression : valeur numérique à la place de l'étiquette, attribut sélection : trouver les attributs d'observations qui sont importants pour la prédiction et le clustering: aucune étiquette, juste à identifier les groupes de mêmes observations (clusters). Il y a aussi le support pour l'extraction de règles d'association et (conditionnel) l'estimation de densité. À travers ce premier projet, l'aspect pratique du logiciel WEKA sera parcouru sur tous les aspects à savoir premièrement le traitement de donnée, deuxièmement les algorithmes d'explorations de données pour terminer avec les mesures de performances des différents algorithmes d'apprentissage. La partie réalisation du projet portera sur l'intégration de l'algorithme de régression logistique binaire par la méthode Béta Bernoulli dans le logiciel Weka. Cet algorithme est un classificateur dont nous étudierons toutes les phases et l'importance de son déploiement pour l'intelligence artificielle moderne. 4 CHAPITRE 1 : DESCRIPTION DU LOGICIEL WEKA 5 1. Présentation de l’interface graphique Le logiciel Weka peut être utilisé sous à travers deux modes principaux. Le premier mode est une interface de commande en ligne Simple CLI appelée qui est interpréteur de ligne de commande. Le deuxième mode est une interface graphique Explorer. L'interface graphique du logiciel présente six onglets correspondant soit à des étapes du processus d'apprentissage, soit des classes d'algorithmes de classification (supervisée ou non): Preprocess : La saisie des données, l’examen et la sélection des attributs, les transformations d’attributs. Classify : Les méthodes de classification. Cluster : Les méthodes de segmentation (clustering). Associate : Les règles d’association. Select attributes : L’étude et la recherche de corrélations entre attributs. Visualize : représentations graphiques des données. Figure 1: Interface Graphique Weka 2. Le traitement de données Les données sont de plus en plus volumineuses dans l'industrie et le traitement de données constitue un véritable défi pour les systèmes informatiques. Le logiciel Weka se présente comme une solution efficace pour le traitement de données même celles de grandes envergures appelées « Big Data ». Pour être traitées, les données doivent être entrées sous les formats ARFF, CSV, Binaire, BDD, SQL et URL. Le format le plus utilisé est le format ARFF. Les données sous ces formats sont compatibles si elles sont bien structurées. La structure des données se compose de noms des données(@relation) suivis des attributs (@attribut) suivis de 6 la variable de classe à prédiction (@data).Les données peuvent contenir divers types numérique continue, numérique discrète, catégorie, avec ou sans relation d'ordre (par ex. : rouge/vert/bleu), binaire (vrai/faux), les données structurées : arbres, graphes. Les attributs sont des réel (real), des chaînes de caractères (string) et des dates (date). Le principal outil de prétraitement de données est le filtre. Il existe deux types de filtres avec Weka : l'un non- supervisé et l'autre supervisé. Il existe d'autres types de filtre pour les attributs et pour les exemples : Attribute Selection Filter: sélection d'attributs selon les classes, par exemple, gain en information ; Discretize Filter: discrétise un intervalle d'attributs numériques vers des attributs nominaux ; Nominal To Binary Filter: Conversion d'attributs nominaux vers binaires ; Numeric Transformation Filter: Transformation d'attributs numériques selon une méthode à préciser (Racine carrée, val. Absolue). 3. Les classificateurs Les classificateurs sont des modèles qui permettent à partir des modèles entrés de prédire les valeurs nominales numériques. Ces outils permettent d'obtenir une valeur chiffrée résultante des données et expériences à partir d'algorithme qui selon leur performance répondent à des indications précises sur l'attribut étudié. Ils existent uploads/Management/ projet-maitrise-14301881.pdf
Documents similaires
-
15
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Aoû 10, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.5607MB