Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

20 mai 2009 3 20 /05 /mai /2009 08:14
La sélection de variables est un aspect essentiel de l’apprentissage supervisé. Nous devons déterminer les variables pertinentes pour la prédiction des valeurs de la variable à prédire, pour différentes raisons : un modèle plus simple sera plus facile à comprendre et à interpréter ; le déploiement sera facilité, nous aurons besoin de moins d’informations à recueillir pour la prédiction ; enfin, un modèle simple se révèle souvent plus robuste en généralisation c.-à-d. lorsqu’il est appliqué sur la population.

Trois familles d’approches sont mises en avant dans la littérature. Les approches FILTRE consistent à introduire les procédures de sélection préalablement et indépendamment de l’algorithme d’apprentissage mise en oeuvre par la suite. Pour les approches INTEGREES, le processus de sélection fait partie de l’apprentissage. Les algorithmes d’induction d'arbres de décision illustrent parfaitement cette méthode. Enfin, l’approche WRAPPER cherche à optimiser un critère de performance en présentant à la méthode d’apprentissage des scénarios de solutions. Le plus souvent, il s’agit du taux d’erreur. Mais en réalité, tout critère peut convenir.

Dans ce didacticiel, nous mettrons en œuvre la méthode WRAPPER couplée avec le modèle bayesien naïf (modèle d’indépendance conditionnelle). Nous utilisons les logiciels SIPINA et R. Pour ce dernier, le code écrit est le plus générique possible afin que le lecteur puisse comprendre chaque étape du processus de sélection et adapter le programme à d’autres données, et à d’autres méthodes d’apprentissage supervisé.

La stratégie WRAPPER est a priori la meilleure puisqu’elle optimise explicitement le critère de performance. Nous vérifierions cela en comparant les résultats avec ceux fournis par l’approche FILTRE (méthode FCBF) proposée dans TANAGRA. Nous verrons que les conclusions ne sont pas aussi tranchées qu’on pourrait le croire.

Mots clés : sélection de variables, apprentissage supervisé, classifieur bayesien naïf, wrapper, fcbf, sipina, logiciel R, package RWeka
Lien : Wrapper

Partager cet article

Repost 0

commentaires