TP1 - Découverte du logiciel Knime 1 Introduction et objectifs du TP Les donnée

TP1 - Découverte du logiciel Knime 1 Introduction et objectifs du TP Les données sont devenues une matière première qu’il faut indispensable- ment maîtriser pour mieux comprendre le monde dans lequel nous vivons et ainsi devenir plus compétitifs. La fouille de données prétend répondre à ce besoin et se décline dans de nombreux secteurs comme nous le verrons dans ce module. Seulement, l’analyse de données, souvent très volumineuses, ne peut être accomplie manuellement. L’existence d’outils informatiques adap- tés est donc nécessaires. Dans ce module, nous utiliserons un logiciel bien connu dans le monde de la fouille de données : Knime. Ce logiciel open- source utilisé par plus de 15000 utilisateurs dans le monde provenant de différents milieux (universitaires, recherche, petites et grandes entreprises) dans différents secteurs (banque, pharmacie, tourisme, ...) possède de solides atouts : — Sa facilité d’utilisation et son interface graphique le rendent accessible aux non-initiés en fouille de données ; — Il peut lire de très nombreux formats de données ; — Il comporte de très nombreuses solutions pour pré-traiter, analyser et visualiser des données et des résultats d’analyses ; — La communauté des utilisateurs est très active et peut contribuer à ajouter de nouvelles fonctionnalités au logiciel. Ce premier TP a pour objectif de vous familiariser avec ce logiciel et notamment avec le concept principal qui sera manipulé tout au long des dif- férents TPs : le workflow. Un workflow peut être vu comme une succession de briques (composants élémentaires). Chaque brique possède une fonction- nalité bien précise, e.g., lire un fichier, visualiser des données. En enchainant ces composants, il est alors possible de réaliser des analyses de données très sophistiquées de manière intuitive. Ce TP permettra d’aborder ces concepts. En particulier, nous aborderons les points suivants : — Comment lancer le logiciel, ouvrir et enregistrer un workflow ; 1 — Comment ajouter des composants à un workflow et les configurer ; — Comment les relier ; — Comment exécuter un premier workflow ; — Comment appliquer quelques pré-traitements sur des données ; — Comment visualiser des données et calculer quelques statistiques sur celles-ci. 2 Présentation de l’interface L’interface principale par défaut du logiciel est présentée dans la Figure 1. Celle-ci est principalement composée de 6 parties : 1. La liste des workflows disponibles (accessibles via Internet ou stockés localement) est disponible dans le coin supérieur gauche de la fenêtre. C’est ici que vous retrouverez vos workflows une fois que vous les aurez enregistré ; 2. La liste des composants classés thématiquement est disponible dans le coin inférieur gauche ; 3. Une vue générale du workflow est présentée en bas ; 4. A sa droite, il est possible de voir la console, qui permet de voir les traces d’exécution d’un workflow. 5. Vu le grand nombre de composants disponibles dans Knime, les connaître tous n’est pas aisé. Aussi, la partie droite de la fenêtre propose une documentation sur le composant sélectionné. 6. Enfin, la fenêtre princpale, au milieu de l’écran, permet de composer un workflow et d’interagir avec celui-ci (configurer les composants, les repositionner, les relier, ...) Instructions 1. Démarrez le logiciel. S’il n’est pas présent sur votre machine, téléchar- gez le à l’adresse http://www.knime.org/downloads/overview en choisissant KNIME for Windows (self-extracting archive) et installez- le. Pour cela, il suffit de décompresser l’archive dans un répertoire lo- cal. Attention, si le logiciel n’est pas installé sur votre machine, vous devrez reproduire cette étape à chaque TP. 2. Ouvrez le logiciel en double cliquant sur l’icône Knime dans le réper- toire où le logiciel est installé. 2 Répertoire de workspaces Liste des composants disponibles Vue générale du workspace courant Console Documentation associée au composant sélectionné Fenêtre principale de composition de workspace Figure 1 – Interface par défaut du logiciel Knime 3. Au démarrage, le logiciel vous demande de sélectionner votre Works- pace. Il s’agit d’un répertoire dans lequel seront stockés les workflows que vous créerez dans ce module. Afin de ne pas voir votre tra- vail effacé d’une séance à l’autre, créez un répertoire Fouille- Workspace dans votre répertoire personnel partagé. 4. Nous allons créer un workflow vierge qui contiendra le travail de ce TP. Pour ce faire, cliquez sur File puis sur New... puis New KNIME Workflow. Donnez un nom explicite à ce workflow et laissez le champ Destination... inchangé. Cliquez ensuite sur Finish pour basculer vers la fenêtre principale et disposer de votre workflow vierge. 3 Mon premier workflow 3.1 Mise en place du premier composant Pour créer un workflow, il faut des composants. Nous allons donc débuter par créer et configurer un composant qui aura pour rôle de lire un fichier texte. Les composants qui ont pour fonction la lecture ou l’écriture de fichier sont regroupés dans la catégorie IO. 3 1. Double-cliquez sur le composant FileReader (dans la sous-catégorie Read). Le composant apparaît au milieu de la fenêtre principale. D’un point de vue graphique, plusieurs éléments doivent être notés concer- nant un composant. Ceux-ci sont récapitulés dans la Figure 2. 2. Nous allons maintenant configurer le composant. Pour cela, double- cliquez (ou faites un clic droit puis Configure) sur le composant. Une boîte de dialogue s’ouvre alors. Elle contient 3 onglets : Settings, Flow Variables et Policy. Seul le premier onglet sera utilisé au cours des TPs. Vous pouvez y spécifier le fichier que vous voulez considérer ainsi que quelques options relatives à ce fichier. Nous al- lons utiliser un jeu de données exemple bien connu dans le monde de la fouille de données : le jeu de données adult. Ce jeu de données décrit quelques 30000 individus selon une dizaine de caractéristiques et est classiquement utilisé dans un contexte prédictif, i.e., l’indi- vidu a-t-il des revenus faibles ou élevés 1. Vous pouvez télécharger ce jeu de données à l’adresse www.irit.fr/~Yoann.Pitarch/Docs/MER/ TP1/adult.data. 3. Si vous avez bien configuré votre composant, le fichier devrait s’affi- cher dans la boîte de dialogue. Type de composant Sortie(s) du composant Entrée(s) du composant Avertissement indiquant un champ de configuration vide Nom du composant (peut être modifié) Etat du composant : - Rouge = pb de config - Orange = config OK mais composant non exécuté - Vert = confie OK et composant correctement exécuté Figure 2 – Un composants et ses informations associées 1. De plus amples informations sur ce jeu de données sont disponibles à l’adresse https: //archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names 4 3.2 Enchaînons deux composants Nous allons réaliser un premier workflow très simple dont l’objectif est de discrétiser un des attributs numériques du jeu de données utilisé précédem- ment, l’attribut Age. Pour cela, nous allons utiliser un des composants de la catégories Data Manipulation. Cette catégorie est extrêmement utile pour pré-traiter des données et nous l’utiliserons abondemment dans ce TP (et les autres qui suivront). Dans la mesure où la discrétisation est une méthode qui agit sur une colonne, cliquez sur Column. Ici aussi les outils de manipu- lation des colonnes sont catégorisés. La catégorie associée à la discrétisation est Binning. A l’intérieur de celle-ci, choisissez le composant Auto-Binner. Configurez le pour discréditer la colonne Age en 5 classes de même taille et dont le nom sera donné par les extrémités des intervalles. Reliez ces deux composants entre eux (la sortie du fichier vers ce nouveau composant) à l’aide de la souris. Voilà, vous avez créer votre premier workflow. Nous allons maintenant l’exécuter. Pour cela, vous devez repérer en haut de l’interface un bouton vert, avec deux triangles orientés vers la droite. Ce bouton permet de lancer tous les nœuds exécutables présents dans le workflow. Il est également possible de n’exécuter qu’un sous-ensemble de nœuds (ceux sélectionnés) à l’aide du bouton situé à gauche (un rond vert et un seul triangle) 2. Une fois que ce workflow a été exécuté avec succès (l’indicateur d’état est en vert), il est possible de visualiser la sortie de ce composant. Pour cela, faites un clic droit sur ce composant. Vous vous trouvez devant un menu contextuel. Les deux derniers items de ce menu correspondent aux deux sorties du compo- sant. La sortie nous intéressant est Binned Data. En cliquant dessus, vous pouvez visualiser le résultat de la discrétisation. Pour aller plus loin, nous nous proposons d’ajouter deux composants supplémentaires : — Filtrer les lignes pour ne conserver que les individus dont l’âge est compris entre 18 et 60 ans (inclus). Pour cela, vous devrez utiliser un composant manipulant les lignes. Ce composant est Row Filter dans Data Manipulation > Row > Filter. Ce traitement devra être effectué avant l’étape de discrétisation. — Excluez les lignes dont la colonne Education matche avec l’expression régulière .*th.*. Dans la mesure où on modifie l’ensemble des valeurs possibles pour cet attribut, il est nécessaire de connecter ce filtre à un 2. En réalité, l’exécution d’un ensemble de nœuds déclenche en cascade les nœuds qui précèdent ceux sélectionnés. Ceci est logique puisque un composant ne pourra fonctionner que si son/ses composant(s) le précédent a/ont été correctement configurés et exécutés. 5 autre composant : Domain Calculator. Cette étape est indispensable lorsque vous aurez à visualiser cet attribut (sans uploads/Litterature/ apprendre-knime.pdf

  • 20
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager