Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

17 mars 2008 1 17 /03 /mars /2008 06:44

Déploiement de modèles. Le déploiement des modèles est une activité clé du Data Mining. Dans le cas de l’apprentissage supervisé, il s’agit de classer de nouveaux individus à partir des valeurs connues des variables prédictives introduites dans le modèle. SIPINA peut directement appliquer un arbre de décision sur un nouveau fichier non étiqueté. Petite contrainte néanmoins, le processus de déploiement doit être consécutif à l’apprentissage.  Il n’est pas possible de distribuer un modèle pour l’appliquer sur de nouveaux individus en dehors de l’environnement SIPINA.

Evaluation des performances. Prédire sur des nouveaux individus, c’est bien. Mais il faut pouvoir annoncer à l’avance les performances à venir. En effet, une affectation erronée produit des conséquences négatives (ex. diagnostiquer l’absence d’une maladie chez une personne souffrante fera qu’elle ne sera pas soignée). Pouvoir évaluer la fiabilité d’un modèle prédictif est primordiale pour la décision de sa mise en production (ou non). Nous utiliserons la méthode bootstrap dans ce didacticiel. Le but est de fournir une mesure crédible de la performance de l’arbre construit sur la totalité des données disponibles.

Ce tutoriel montre comment, avec SIPINA, construire un arbre de décision, l’appliquer sur un fichier de données non étiqueté. Par la suite, les performances en prédiction sont estimées par bootstrap. Le même schéma sera appliqué dans un second temps en utilisant l’analyse discriminante.

Mots clés :
déploiement de modèles, arbres de décision, évaluation des classifieurs, bootstrap, méthodes de ré échantillonnage
Lien : fr_sipina_deployment.pdf
Données : wine_deployment.xls

Partager cet article

Repost 0

commentaires