Overblog
Suivre ce blog Administration + Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

19 mars 2008 3 19 /03 /mars /2008 13:59

WEKA est un logiciel de Data Mining libre très populaire dans la communauté « Machine Learning ». Il intègre un grand nombre de méthodes, articulées essentiellement autour des approches supervisées et non supervisées.

WEKA possède un format de fichier propriétaire (*.ARFF), qui est un format texte, avec des spécifications ad hoc sur documenter les variables. Importer un fichier ARFF ne pose donc pas de problèmes particuliers, dès lors que l’on sait appréhender un fichier texte.

Dans ce didacticiel, nous montrons comment charger un fichier ARFF dans SIPINA. L’importation est directe, il s’agit simplement de connaître la bonne procédure. Nous profitons de cet exemple pour montrer comment subdiviser aléatoirement un ensemble de données pour : construire l’arbre sur l’échantillon d’apprentissage, l’évaluer sur l’échantillon test. Nous utilisons la méthode C4.5 (Quinlan, 1993).

Mots clés : WEKA, format de fichier ARFF, arbres de décision, C4.5, subdivision apprentissage et test, évaluation des classifieurs
Lien : fr_sipina_weka_file_format.pdf
Données : ionosphere.arff

Partager cet article
Repost0
18 mars 2008 2 18 /03 /mars /2008 06:51
Un texte, un peu ancien et assez succinct, qui décrit les principales fonctionnalités de SIPINA : chargement de données, avec le format propriétaire binaire (*.fdm) ; choix de la méthode d'apprentissage ; définition de la variable à prédire et des variables prédictives ; sélection des individus en apprentissage et en test ; création et lecture d'un arbre de décision.

Le principal intérêt de ce document est qu'il essaie de recenser les éléments d'interface du logiciel : barre d'outils, explorateur de projets, barre d'état, etc.

Mots-clés : interface SIPINA, arbres de décision
Lien : french_introduction_sipina_research.pdf

Un texte, un peu ancien et assez succinct, qui décrit les principales fonctionnalités de SIPINA : chargement de données, avec le format propriétaire binaire (*.fdm) ; choix de la méthode d'apprentissage ; définition de la variable à prédire et des variables prédictives ; sélection des individus en apprentissage et en test ; création et lecture d'un arbre de décision.

Le principal intérêt de ce document est qu'il essaie de recenser les éléments d'interface du logiciel : barre d'outils, explorateur de projets, barre d'état, etc.
Un texte, un peu ancien et assez succinct, qui décrit les principales fonctionnalités de SIPINA : chargement de données, avec le format propriétaire binaire (*.fdm) ; choix de la méthode d'apprentissage ; définition de la variable à prédire et des variables prédictives ; sélection des individus en apprentissage et en test ; création et lecture d'un arbre de décision.

Le principal intérêt de ce document est qu'il essaie de recenser les éléments d'interface du logiciel : barre d'outils, explorateur de projets, barre d'état, etc.
Un texte, un peu ancien et assez succinct, qui décrit les principales fonctionnalités de SIPINA : chargement de données, avec le format propriétaire binaire (*.fdm) ; choix de la méthode d'apprentissage ; définition de la variable à prédire et des variables prédictives ; sélection des individus en apprentissage et en test ; création et lecture d'un arbre de décision.

Le principal intérêt de ce document est qu'il essaie de recenser les éléments d'interface du logiciel : barre d'outils, explorateur de projets, barre d'état, etc.

Un texte, un peu ancien et assez succinct, qui décrit les principales fonctionnalités de SIPINA : chargement de données, avec le format propriétaire binaire (*.fdm) ; choix de la méthode d'apprentissage ; définition de la variable à prédire et des variables prédictives ; sélection des individus en apprentissage et en test ; création et lecture d'un arbre de décision.

Le principal intérêt de ce document est qu'il essaie de recenser les éléments d'interface du logiciel : barre d'outils, explorateur de projets, barre d'état, etc.
_bug_fck
Partager cet article
Repost0
17 mars 2008 1 17 /03 /mars /2008 06:44

Déploiement de modèles. Le déploiement des modèles est une activité clé du Data Mining. Dans le cas de l’apprentissage supervisé, il s’agit de classer de nouveaux individus à partir des valeurs connues des variables prédictives introduites dans le modèle. SIPINA peut directement appliquer un arbre de décision sur un nouveau fichier non étiqueté. Petite contrainte néanmoins, le processus de déploiement doit être consécutif à l’apprentissage.  Il n’est pas possible de distribuer un modèle pour l’appliquer sur de nouveaux individus en dehors de l’environnement SIPINA.

Evaluation des performances. Prédire sur des nouveaux individus, c’est bien. Mais il faut pouvoir annoncer à l’avance les performances à venir. En effet, une affectation erronée produit des conséquences négatives (ex. diagnostiquer l’absence d’une maladie chez une personne souffrante fera qu’elle ne sera pas soignée). Pouvoir évaluer la fiabilité d’un modèle prédictif est primordiale pour la décision de sa mise en production (ou non). Nous utiliserons la méthode bootstrap dans ce didacticiel. Le but est de fournir une mesure crédible de la performance de l’arbre construit sur la totalité des données disponibles.

Ce tutoriel montre comment, avec SIPINA, construire un arbre de décision, l’appliquer sur un fichier de données non étiqueté. Par la suite, les performances en prédiction sont estimées par bootstrap. Le même schéma sera appliqué dans un second temps en utilisant l’analyse discriminante.

Mots clés :
déploiement de modèles, arbres de décision, évaluation des classifieurs, bootstrap, méthodes de ré échantillonnage
Lien : fr_sipina_deployment.pdf
Données : wine_deployment.xls

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 20:57

Sipina et Orange sont parmi les très rares logiciels libres à intégrer des fonctionnalités interactives dans la construction d'un arbre de décision. Pourtant, cette particularité, c.-à-d. la possibilité pour un expert de guider la construction du modèle en accord avec les connaissances du modèle, constitue un des atouts majeurs de cette technique par rapport aux autres méthodes de data mining.
 
Ce tutoriel compare les potentialités des logiciels Sipina et Orange dans une session d'élaboration interactive d'un arbre de décision. Les points suivants sont abordés : (1) importation d'un fichier texte ; (2) partitionnement d'un fichier en ensemble d'apprentissage et ensemble test, en utilisant une variable supplémentaire qui désigne le rôle des individus ; (3) induction et évaluation des performances d'un arbre ; (4) élagage manuel de l'arbre ; (5) choix de la variable de segmentation sur un nœud.
 
Le fichier IRIS est utilisé. Pas vraiment original à vrai dire, mais au moins on devine à l'avance la teneur des résultats que l'on devrait obtenir.
 
Mots clés : arbre de décision, analyse interactive, apprentissage et évaluation des classifieurs, fichier texte
 
Lien : http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_Interactive_Tree_Builder.pdf
 
Données : http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/iris_tree.txt

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 20:56
Le succès des arbres de décision repose en grande partie sur les fonctionnalités interactives des logiciels qui les implémentent. L'expert (lebanquier, le médecin, etc.) peut intervenir pour guider l'exploration vers les solutions qui sont en accord avec les connaissances du domaine. On imagine très mal un logiciel commercial d'induction d'arbres ne proposant pas ces fonctionnalités : exploration locale des sommets, choix des variables de segmentation, élagage manuel, ...

Du côté des logiciels gratuits, l'offre est nettement moindre. Certes, de nombreux logiciels proposent des algorithmes d'induction d'arbres, mais ils les présentent comme des techniques purement automatisées, au même titre que les autres méthodes de fouilles de données où le rôle de l'utilisateur se réduit à cliquer au bon endroit pour lancer les traitements et attendre les résultats pour les interpréter (quand c'est possible).

SIPINA est un des rares logiciels entièrement gratuits à  offrir des ressources permettant à l'utilisateur d'approfondir son analyse durant la construction même de l'arbre. Elles sont peu connues du grand public car mal documentées. Je suis un peu fautif dans cette histoire. Dans la frénésie de la programmation, je n'avais pas eu (pris !) le temps de les documenter. Je passe mon temps à essayer de les recenser maintenant, j'en découvre encore maintenant, plusieurs années après l'arrêt du développement.

Dans ce didacticiel, les potentialités interactives de SIPINA pour comprendre, interpréter et manipuler l'arbre de décision pendant la phase d'exploration sont mises en avant.

Mots clés : arbres de décision, analyse interactive

Lien : http://eric.univ-lyon2.fr/~ricco/doc/fr_sipina_interactive.pdf

Données : http://eric.univ-lyon2.fr/~ricco/dataset/blood_pressure_levels.xls

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 20:56
Ce didacticiel montre comment exploiter un fichier scindé en deux parties : la première est dédiée à l'apprentissage de l'arbre de décision (échantillon d'apprentissage), la seconde est dédiée à son évaluation (échantillon test). 

Dans cet exemple, une variable indicatrice supplémentaire est intégrée au données, elle désigne le rôle que joue chaque individu dans la modélisation (apprentissage ou test). SIPINA s'appuie sur cette variable pour subdiviser le fichier. De manière plus générale, il est possible d'effectuer directement un partitionnement aléatoire des individus dans le logiciel lui même, la procédure est beaucoup plus simple. 

La subdivision préalable, telle qu'elle est mise en oeuvre dans ce didacticiel, se justifie surtout lorsque nous voulons comparer les résultats produits par différents logiciels (ex. arbres de décision sous SIPINA vs. la procédure rpart du package du même nom de R, etc.). Ainsi, nous maîtrisons totalement le mode de subdivision des données, avec des résultats directement comparables d'un outil à l'autre : ils ont travaillé sur les mêmes individus en apprentissage et calculer les performances sur les mêmes individus en test.

Ce didacticiel présente un second thème : il montre comment mettre en oeuvre les coûts de mauvais classement dans une variante de C4.5. L'arbre de décision est ainsi optimisé pour non plus minimiser le taux d'erreur, mais un indicateur tenant compte de la nature non-symétrique des coûts  telle que la F-Measure.

L'exemple traité concerne la détection automatique de spams à partir de caractéristiques extraites de courriers eléctroniques.

Mots-clés : arbres de décision, évaluation des classifieurs, C4.5, coûts de mauvais classement non-symétriques, F-Measure, détection de spams

Lien : http://eric.univ-lyon2.fr/~ricco/doc/fr_sipina_cost_sensitive.pdf

Données : http://eric.univ-lyon2.fr/~ricco/dataset/spam.xls

Références : http://eric.univ-lyon2.fr/~ricco/cours/slides/resampling_evaluation.pdf

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 20:55

L'importation des données est un écueil important  pour les logiciels libres de Data Mining. La grande majorité des utilisateurs travaillent avec un tableur, Excel principalement, en la couplant avec un logiciel spécialisé de Data Mining (voir à ce sujet l'enquête KDD -- http://www.kdnuggets.com/polls/2006/data_mining_analytic_tools.htm). Dès lors, une question récurrente des utilisateurs est "comment faire pour importer mes données dans Sipina ?"

Il est possible d'importer différents types de formats avec Sipina. Pour ce qui est des classeurs Excel, un dispositif particulier a été mis en place. 

Une macro complémentaire est copiée automatiquement sur la machine lors de l'installation de la version recherche de SIPINA. Il faut l'intégrer dans Excel. La macro ajoute un nouveau menu dans le tableur. Après avoir sélectionné la plage de données, l'utilisateur n'a plus qu'à l'activer, s'en suivent les opérations suivantes : (1) SIPINA est automatiquement démarré ; (2) les données sont transférées via le presse-papier ; (3) SIPINA considère que la première ligne de la plage de cellules correspond aux noms de variables ; (4) les colonnes avec des valeurs numériques sont des variables quantitatives ; (5) les colonnes avec des valeurs alphanumériques sont des variables catégorielles.

Contrairement aux autres didacticiels, la séquence des manipulations sont décrites dans une vidéo. Cela relativise un peu le fait que le descriptif qui l'accompagne soit en anglais.

Ce didacticiel décrit la procédure pour Excel 2000. Il est valable jusqu'à la version 2003. Un autre document est disponible pour les versions récentes d'Excel (Excel 2007 et 2010).

Mots clés : arbres de décision, importation des données, fichier excel
Installation de la macro complémentaire : http://eric.univ-lyon2.fr/~ricco/doc/sipina_xla_installation.htm
Utilisation de la macro complémentaire : http://eric.univ-lyon2.fr/~ricco/doc/sipina_xla_processing.htm

Partager cet article
Repost0