Présentation de Weka (1) ▶Weka (Waikato Environment for Knowledge Analysis) Env

Présentation de Weka (1) ▶Weka (Waikato Environment for Knowledge Analysis) Environnement Waikato pour l’analyse de connaissances ▶Suite de logiciels d’apprentissage automatique et d’exploration de données écrite en Java ▶Développée à l’université de Waikato en Nouvelle-Zélande ▶Historique ▶1993, Développement de la version originale en C ▶1997, Re-développement à partir de zéro en Java ▶2005, Weka reçoit le SIG KDD award ▶2006, Pentaho Corporation acquiert une licence exclusive Présentation de Weka (2) ▶2 848 660 downloads sur Sourceforge (2011) ▶Disponible pour toutes les plateformes ▶Windows x86, Windows x64, Mac OS X, Linux etc. ▶Documentation riche et communauté large ▶Le livre Data Mining : Practical Machine Learning Tools and Techniques (troisième édition) ▶API http://weka.sourceforge.net/doc.stable/ ▶Wiki http://weka.wikispaces.com/ ▶FAQ http://weka.wikispaces.com/FAQ ▶Tutoriels, mailing list, etc. Que contient le toolkit Weka ? ▶Outils de pré-traitement des données (filtering) ▶Sélection, transformation, combinaison d’attributs, normalisation, re-échantillonnage, etc. ▶Algorithmes pour l’exploration de données ▶Clustering, classification, régression, etc. ▶Analyse de résultats ▶Évaluation de performances, comparaison d’algorithmes, etc. ▶Plusieurs interfaces ▶Graphiques (Explorer, Experimenter et Knowledge Flow) ▶En ligne de commande (CLI) Aperçu de l’interface de Weka 04 jan 2012 / Rév. 1 - page 10 sur 53 Format d’entrée (1) ▶Le format d’entrée par défaut de Weka est le ARFF (Attribute Relation File Format) ▶D’autres formats peuvent être importés ▶CSV, binaire, BDD SQL (avec JDBC), à partir d’une URL, etc. ▶Caractéristiques du format de fichier ARFF : 1. Les commentaires sont précédés de % % Ceci est un commentaire dans un ensemble % de donnees. 2. Définition du nom de l’ensemble de données avec @relation ▶Le nom doit être aussi compréhensible que possible @relation temperatureMaison_14jours Format d’entrée (2) 3. Définition des features avec @attribute ▶Attributs nominaux suivis des valeurs entre accolades @attribute outlook {sunny, overcast, rainy} ▶Attributs numériques avec real @attribute temperature real ▶Attributs chaines avec string, les valeurs doivent être entre doubles guillemets "blah blih bloh" @attribute unTexte string ▶Attributs dates avec date (yyyy-MM-dd-THH :mm :ss) @attribute uneDate date 4. @data signale le début des instances Exemple de fichier ARFF % Ensemble de donnees sur la meteo @relation weather % Definition des features @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} % Debut des instances @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes ... Format d’entrée (3) ▶Par défaut, le dernier attribut est considéré comme la variable de classe / à prédire ▶En CLI, la commande -c permet de choisir la variable à prédire, e.g. -c 1 spécifie le premier attribut ▶Dans le cas de données éparses, il est possible de compresser les données en ne représentant pas explicitement les valeurs 0 ▶Le format est <index><espace><valeur> % Instances contenant beaucoup de 0 0, 6, 0, 0, 0, 0, 3, 0, 0, 0, "class A" 0, 0, 0, 4, 0, 0, 0, 0, 0, 0, "class B" % Instances compressees avec des accolades {1 6, , 0 "class A"} {3 4, 0 "class B"} 1 6 3 1 uploads/Litterature/ weka.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager