Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

TP1 - Découverte du logiciel Knime 1 Introduction et objectifs du TP Les donnée

TP1 - Découverte du logiciel Knime 1 Introduction et objectifs du TP Les données sont devenues une matière première qu’il faut indispensable- ment maîtriser pour mieux comprendre le monde dans lequel nous vivons et ainsi devenir plus compétitifs. La fouille de données prétend répondre à ce besoin et se décline dans de nombreux secteurs comme nous le verrons dans ce module. Seulement, l’analyse de données, souvent très volumineuses, ne peut être accomplie manuellement. L’existence d’outils informatiques adap- tés est donc nécessaires. Dans ce module, nous utiliserons un logiciel bien connu dans le monde de la fouille de données : Knime. Ce logiciel open- source utilisé par plus de 15000 utilisateurs dans le monde provenant de diﬀérents milieux (universitaires, recherche, petites et grandes entreprises) dans diﬀérents secteurs (banque, pharmacie, tourisme, ...) possède de solides atouts : — Sa facilité d’utilisation et son interface graphique le rendent accessible aux non-initiés en fouille de données ; — Il peut lire de très nombreux formats de données ; — Il comporte de très nombreuses solutions pour pré-traiter, analyser et visualiser des données et des résultats d’analyses ; — La communauté des utilisateurs est très active et peut contribuer à ajouter de nouvelles fonctionnalités au logiciel. Ce premier TP a pour objectif de vous familiariser avec ce logiciel et notamment avec le concept principal qui sera manipulé tout au long des dif- férents TPs : le workﬂow. Un workﬂow peut être vu comme une succession de briques (composants élémentaires). Chaque brique possède une fonction- nalité bien précise, e.g., lire un ﬁchier, visualiser des données. En enchainant ces composants, il est alors possible de réaliser des analyses de données très sophistiquées de manière intuitive. Ce TP permettra d’aborder ces concepts. En particulier, nous aborderons les points suivants : — Comment lancer le logiciel, ouvrir et enregistrer un workﬂow ; 1 — Comment ajouter des composants à un workﬂow et les conﬁgurer ; — Comment les relier ; — Comment exécuter un premier workﬂow ; — Comment appliquer quelques pré-traitements sur des données ; — Comment visualiser des données et calculer quelques statistiques sur celles-ci. 2 Présentation de l’interface L’interface principale par défaut du logiciel est présentée dans la Figure 1. Celle-ci est principalement composée de 6 parties : 1. La liste des workﬂows disponibles (accessibles via Internet ou stockés localement) est disponible dans le coin supérieur gauche de la fenêtre. C’est ici que vous retrouverez vos workﬂows une fois que vous les aurez enregistré ; 2. La liste des composants classés thématiquement est disponible dans le coin inférieur gauche ; 3. Une vue générale du workﬂow est présentée en bas ; 4. A sa droite, il est possible de voir la console, qui permet de voir les traces d’exécution d’un workﬂow. 5. Vu le grand nombre de composants disponibles dans Knime, les connaître tous n’est pas aisé. Aussi, la partie droite de la fenêtre propose une documentation sur le composant sélectionné. 6. Enﬁn, la fenêtre princpale, au milieu de l’écran, permet de composer un workﬂow et d’interagir avec celui-ci (conﬁgurer les composants, les repositionner, les relier, ...) Instructions 1. Démarrez le logiciel. S’il n’est pas présent sur votre machine, téléchar- gez le à l’adresse http://www.knime.org/downloads/overview en choisissant KNIME for Windows (self-extracting archive) et installez- le. Pour cela, il suﬃt de décompresser l’archive dans un répertoire lo- cal. Attention, si le logiciel n’est pas installé sur votre machine, vous devrez reproduire cette étape à chaque TP. 2. Ouvrez le logiciel en double cliquant sur l’icône Knime dans le réper- toire où le logiciel est installé. 2 Répertoire de workspaces Liste des composants disponibles Vue générale du workspace courant Console Documentation associée au composant sélectionné Fenêtre principale de composition de workspace Figure 1 – Interface par défaut du logiciel Knime 3. Au démarrage, le logiciel vous demande de sélectionner votre Works- pace. Il s’agit d’un répertoire dans lequel seront stockés les workﬂows que vous créerez dans ce module. Aﬁn de ne pas voir votre tra- vail eﬀacé d’une séance à l’autre, créez un répertoire Fouille- Workspace dans votre répertoire personnel partagé. 4. Nous allons créer un workﬂow vierge qui contiendra le travail de ce TP. Pour ce faire, cliquez sur File puis sur New... puis New KNIME Workflow. Donnez un nom explicite à ce workﬂow et laissez le champ Destination... inchangé. Cliquez ensuite sur Finish pour basculer vers la fenêtre principale et disposer de votre workﬂow vierge. 3 Mon premier workﬂow 3.1 Mise en place du premier composant Pour créer un workﬂow, il faut des composants. Nous allons donc débuter par créer et conﬁgurer un composant qui aura pour rôle de lire un ﬁchier texte. Les composants qui ont pour fonction la lecture ou l’écriture de ﬁchier sont regroupés dans la catégorie IO. 3 1. Double-cliquez sur le composant FileReader (dans la sous-catégorie Read). Le composant apparaît au milieu de la fenêtre principale. D’un point de vue graphique, plusieurs éléments doivent être notés concer- nant un composant. Ceux-ci sont récapitulés dans la Figure 2. 2. Nous allons maintenant conﬁgurer le composant. Pour cela, double- cliquez (ou faites un clic droit puis Configure) sur le composant. Une boîte de dialogue s’ouvre alors. Elle contient 3 onglets : Settings, Flow Variables et Policy. Seul le premier onglet sera utilisé au cours des TPs. Vous pouvez y spéciﬁer le ﬁchier que vous voulez considérer ainsi que quelques options relatives à ce ﬁchier. Nous al- lons utiliser un jeu de données exemple bien connu dans le monde de la fouille de données : le jeu de données adult. Ce jeu de données décrit quelques 30000 individus selon une dizaine de caractéristiques et est classiquement utilisé dans un contexte prédictif, i.e., l’indi- vidu a-t-il des revenus faibles ou élevés 1. Vous pouvez télécharger ce jeu de données à l’adresse www.irit.fr/~Yoann.Pitarch/Docs/MER/ TP1/adult.data. 3. Si vous avez bien conﬁguré votre composant, le ﬁchier devrait s’aﬃ- cher dans la boîte de dialogue. Type de composant Sortie(s) du composant Entrée(s) du composant Avertissement indiquant un champ de conﬁguration vide Nom du composant (peut être modiﬁé) Etat du composant : - Rouge = pb de conﬁg - Orange = conﬁg OK mais composant non exécuté - Vert = conﬁe OK et composant correctement exécuté Figure 2 – Un composants et ses informations associées 1. De plus amples informations sur ce jeu de données sont disponibles à l’adresse https: //archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names 4 3.2 Enchaînons deux composants Nous allons réaliser un premier workﬂow très simple dont l’objectif est de discrétiser un des attributs numériques du jeu de données utilisé précédem- ment, l’attribut Age. Pour cela, nous allons utiliser un des composants de la catégories Data Manipulation. Cette catégorie est extrêmement utile pour pré-traiter des données et nous l’utiliserons abondemment dans ce TP (et les autres qui suivront). Dans la mesure où la discrétisation est une méthode qui agit sur une colonne, cliquez sur Column. Ici aussi les outils de manipu- lation des colonnes sont catégorisés. La catégorie associée à la discrétisation est Binning. A l’intérieur de celle-ci, choisissez le composant Auto-Binner. Conﬁgurez le pour discréditer la colonne Age en 5 classes de même taille et dont le nom sera donné par les extrémités des intervalles. Reliez ces deux composants entre eux (la sortie du ﬁchier vers ce nouveau composant) à l’aide de la souris. Voilà, vous avez créer votre premier workﬂow. Nous allons maintenant l’exécuter. Pour cela, vous devez repérer en haut de l’interface un bouton vert, avec deux triangles orientés vers la droite. Ce bouton permet de lancer tous les nœuds exécutables présents dans le workﬂow. Il est également possible de n’exécuter qu’un sous-ensemble de nœuds (ceux sélectionnés) à l’aide du bouton situé à gauche (un rond vert et un seul triangle) 2. Une fois que ce workﬂow a été exécuté avec succès (l’indicateur d’état est en vert), il est possible de visualiser la sortie de ce composant. Pour cela, faites un clic droit sur ce composant. Vous vous trouvez devant un menu contextuel. Les deux derniers items de ce menu correspondent aux deux sorties du compo- sant. La sortie nous intéressant est Binned Data. En cliquant dessus, vous pouvez visualiser le résultat de la discrétisation. Pour aller plus loin, nous nous proposons d’ajouter deux composants supplémentaires : — Filtrer les lignes pour ne conserver que les individus dont l’âge est compris entre 18 et 60 ans (inclus). Pour cela, vous devrez utiliser un composant manipulant les lignes. Ce composant est Row Filter dans Data Manipulation > Row > Filter. Ce traitement devra être eﬀectué avant l’étape de discrétisation. — Excluez les lignes dont la colonne Education matche avec l’expression régulière .*th.*. Dans la mesure où on modiﬁe l’ensemble des valeurs possibles pour cet attribut, il est nécessaire de connecter ce ﬁltre à un 2. En réalité, l’exécution d’un ensemble de nœuds déclenche en cascade les nœuds qui précèdent ceux sélectionnés. Ceci est logique puisque un composant ne pourra fonctionner que si son/ses composant(s) le précédent a/ont été correctement conﬁgurés et exécutés. 5 autre composant : Domain Calculator. Cette étape est indispensable lorsque vous aurez à visualiser cet attribut (sans uploads/Litterature/ apprendre-knime.pdf