Rapport Ingénierie linguistique et système documentaire Etude de cas : Logiciel

Rapport Ingénierie linguistique et système documentaire Etude de cas : Logiciel RapidMiner Master VeCIS 2020–2021 Année universitaire :2020/2021 1 2 Table des matières Introduction 3 Chapitre 1 : Définition du concept 3 Définition de data mining 3 Démarche méthodologique de DM 4 Chapitre 2 : Présentation l’outil RapidMiner 5 Définition (wikipédia ) 5 Tutoriel explicatif 5 Chapitre 3 : Méthodes d’évaluation 9 Évaluation transversale : (les systèmes similaires) 9 Évaluation boite noire 10 Évaluation humaine 11 Évaluation orienté usage : ( recommandations , retour d’expériences) 11 Conclusion 12 Webographie 13 3 Chapitre 1 : Définition du concept Définition de data mining C’est quoi le Data mining : L’application des techniques de statistiques, d’analyse de données et d’intelligence artificielle à l’exploration et l’analyse de grande base de données afin d’extraire des informations intéressantes (non triviales, implicites, préalablement inconnues et potentiellement utiles). Les domaines d’application de DM ● Domaine du commerce: ■ Etudier le comportement des clients, ■ Regrouper les clients selon certains critères, ■ Ajuster les promotions, ■ Cibler les « mailings », ● Domaine des assurances: ■ Analyse des risques (caractérisation des clients à hauts risques, etc.), ■ Automatisation du traitement des demandes (diagnostic des dégâts et détermination automatique du montant des indemnités), ● Domaine des données financières : ■ Prédire l’évolution des actions, ■ Organismes de crédit (dresser des profils de clients), 4 ■ Détection de fraudes, De manière générale, le DM permet de : ● Limiter la subjectivité humaine dans le processus de prise de décision. ● Traiter de plus en plus rapidement de grandes quantités de données. ● Avoir une meilleure connaissance et compréhension des clients afin de garantir une meilleure adaptation de l’entreprise à leurs besoins. Démarche méthodologique de DM Titre : Processus de data mining La préparation des données : c’est un processus qui précède celui de l'analyse de données. Il est constitué de plusieurs tâches comme la collecte de données, le nettoyage de données, l'enrichissement de données ou encore la fusion de données. -l'analyse prédictive (extraction de connaissances à partir de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des événements futurs). ➔ 5 Chapitre 2 : Présentation l’outil RapidMiner Définition (wikipédia ) RapidMiner est une plateforme logicielle de science des données qui fournit un environnement intégré pour la préparation des données, l'apprentissage automatique, l'apprentissage en profondeur, l'exploration de texte et l'analyse prédictive. Il est utilisé pour les applications commerciales ainsi que pour la recherche, l'éducation, la formation, le prototypage rapide et le développement d'applications et prend en charge toutes les étapes du processus d'apprentissage automatique, y compris la préparation des données, la visualisation des résultats, la validation et l'optimisation des modèles. C’est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils pour traiter les données : lecture des différents formats d’entrées, préparation et nettoyage des données, statistiques, tous les algorithmes de data mining, évaluation des performances et visualisation diverses. Il est disponible sur le site officiel du Rapidminer sous plusieurs système d'exploitation (Mac, Windows, Linux): https://my.rapidminer.com/nexus/account/index.html#downloads et sa dernière version est la 9.8.1, noter que le logiciel a été écrit en Java. Tutoriel explicatif Titre : Premier page de Logiciel Rapidminer 6 A l'ouverture du programme, RapidMiner vous propose soit de commencer un nouveau schéma de traitement de données, un projet, soit d'en ouvrir un existant. Choisissez 'new', ce qui vous amène à choisir un dossier qui stockera votre espace de travail. Titre : Zone centrale de logiciel Nous arrivons maintenant à l'écran de travail proprement dit, cet espace de travail se divise en cinq zones principales : La zone centrale servira à dessiner le schéma du flux de données : il partira d'une source, qui passera successivement à travers plusieurs outils (préparation des données, traitement, évaluation de performances...). Le catalogue des outils, à gauche, où nous irons chercher les composants à utiliser dans la zone centrale. Ces composants peuvent être des sources de données, des modificateurs de données, des algorithmes de data mining, des évaluateurs de performances. Pour chaque outil utilisé, la zone de droite listera ses paramètres. La zone des informations en bas à droite renseigne sur le fonctionnement de l'outil courant. 7 Titre : Exemple pour importer les données dans le logiciel Venons maintenant à tester le logiciel , nous allons importer un jeu de données classique: Le première chose consiste à ouvrir un fichier de données, et à l'inspecter afin d'avoir une idée de sa configuration et des caractéristiques des données qui le composent. Nous utilisons l' exemple classique des Iris. Cet ensemble regroupe la description de 150 iris, de trois sortes différentes. Chaque individu est décrit par 4 paramètres entiers : la longueur et la largeur des pétales et des sépales, et la cinquième valeur est la sorte d'iris de l'exemple. Le but du jeu est d'écrire un algorithme qui, à partir des quatre premiers paramètres, devine correctement la sorte d'iris. Titre : Exemple du tableau des données 8 Nous avons glissé le jeu de données dans la zone centrale puis nous avons choisi un algorithme “decision tree”. Decision Tree reçoit en entrée un ensemble d'exemples dont un des attributs est un label et construit un arbre de décision qui essaie de deviner ce label en se servant des autres attributs. Titre : Test d’une shéma pour prise de décision En reliant les bords de data avec le modèle on peut obtenir des résultats de classification des données sous forme d’arbre. Titre : Résultat de test avec l’arbre de décision On peut ajouter par la suite un outil d'évaluation pour calculer la performance de l’outil. 9 Titre : Workflow générale pour traitement des données 10 Chapitre 3 : Méthodes d’évaluation Évaluation transversale : (les systèmes similaires) Cet outil est fondamentalement identique à Alteryx, mais nettement moins cher (orale). Le tableau suivant illustre une comparaison des deux systèmes : RapidMiner et Monday.com Titre : Comparaison entre RapidMiner et Monday.com RapidMiner Monday.com Fonctionnalités : ● Alertes/Notifications ● Collaboration ● Contrôles ● Extraction de données ● Gestion visuel du workflow ● Mappage de processus ● suivi des changements de processus Fonctionnalités : ● Alertes/Notifications ● Budgétisation et prévision ● Collaboration ● Contrôles ● Devises et offres ● Extraction de données ● Gestion des fournisseurs ● Gestion visuel du workflow ● Mappage de processus ● suivi des changements de processus Évaluation boite noire - RapidMiner Studio dispose de la plupart des modèles d'apprentissage machine utilisés dans les universités et l'industrie - Certaines techniques de visualisation sont ambiguës. - RapidMiner comprend de nombreuses bibliothèques et algorithmes d'apprentissage automatique. 11 - RapidMiner nécessite beaucoup de mémoire pour traiter les données. donc il ne fonctionne pas bien avec le Big Data (mégadonnées). - Diversité des fonctions (Nettoyage, traitement, analyse) - Le nombre et la fréquence des versions éditées à ce jour (une mise à jour sera faite sous acceptation de l’usager sans avoir besoin d’installer la dernière version du logiciel) - La pérennité potentielle du logiciel (le logiciel ne cesse pas d’évoluer, à chaque fois on remarque des nouvelles fonctions) - Il n’est pas le seul programme de traitement de données: il contient des outils qui permettent d'importer des données format d'un autre logiciel. Évaluation humaine - Le traitement de données volumineuses, comme le fait de disposer d'un grand nombre d'exemples et d'attributs, prend beaucoup de temps : le temps cumulé augmente, lorsque l'utilisateur optimise manuellement des différents attributs en fonction des résultats - L'une des difficultés rencontrées lors de la manipulation du code consiste à modifier les paramètres de ces modèles, mais grâce à l'interface visuelle, il suffit de cliquer sur le processus et de le mettre à jour. - RapidMiner est également bien documenté. Chacun des processus à sa description, son entrée, sa sortie et ses paramètres bien décrits. - Des tutoriels vidéo ainsi que des blogs sont disponibles sur leur site web. Le studio RapidMiner dispose d'une communauté de spécialistes des données qui peuvent vous aider lorsque vous avez une question. - Création des modèles d'apprentissage automatique en quelques minutes. - Pas besoin de compétences en codage! On sait bien que l'une des exigences pour les scientifiques et les conteurs de données est l'apprentissage d'un langage de programmation tel que matlab et python et l'écriture de code pour leurs tâches. ;Rapid-miner est un outil qui permet de connecter des boîtes sur un canevas pour effectuer l'analyse des données, ce qui constitue une excellente introduction à l'analyse des données: En effet, les fonctionnalités de RapidMiner sont une interface visuelle par glisser-déposer, ce qui fait toute la différence. La préparation des données 12 jusqu'à la sortie finale et la visualisation est aussi simple que de faire glisser des blocs de votre flux de travail dans un canevas et de les relier entre eux. (reformuler) - Des workflows d'apprentissage automatique simples et compréhensibles (aborder facilement un flux de travail sans avoir à écrire de code) - Il est pertinent: il est lié à la subjectivité de l'humain (il s’adapte avec l'évolution de l’usager) Évaluation orienté usage : uploads/Management/ rapport-ingenieurie-linguistique-vecis-google-docs.pdf

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Mar 23, 2022
  • Catégorie Management
  • Langue French
  • Taille du fichier 1.1030MB