Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

27 mars 2008 4 27 /03 /mars /2008 16:58
Description. Ma méthode préférée, celle que je présente en priorité dans mes enseignements. Elle est directement dérivée de CHAID. Elle apporte quelques améliorations : le critère t de Tschuprow est substitué au KHI-2, essentiellement parce qu'il est normalisé ; des paramètres supplémentaires sont introduits pour mieux contrôler la taille de l'arbre.

Paramètres.
P-level for splitting nodes :
Risque critique du test d'indépendance du KHI-2 lors de la segmentation. Si la p-value du test est supérieur à ce seuil, le partitionnement est refusé. Plus on diminue ce seuil, plus petit sera l'arbre de décision.
P-level for merging nodes
: Risque critique du test d'équivalence distributionnelle (basé aussi sur une statistique du KHI-2) lors de la fusion. Si la p-value du test est plus petit que ce seuil, les sommets ne sont pas fusionnés. Plus le seuil sera grand, moins nous serons enclins à fusionner, plus l'arbre sera large.
Ajustement de Bonferroni
: Les p-value calculées sont faussées car, à chaque étape, nous multiplions les tests pour choisir la meilleure configuration, augmentant ainsi la chance de trouver une segmentation fallacieusement intéressante. Pour contrecarrer cette propension, on peut introduire la correction de Bonferroni, bien connue dans les comparaisons multiples en statistique. A mon sens, mieux vaut ne pas trop s'appuyer sur ce paramètre qui donne l'illusion de « vérité statistique ». Nous sommes dans le cadre de l'induction, si nous souhaitons guider l'apprentissage vers des solutions qui nous conviennent plus (arbre plus petit et/ou moins large), mieux vaut, en toute conscience, manipuler les paramètres « p-level ».
Max. depth
: Ce paramètre permet de limiter la profondeur de l'arbre. Il a une vraie utilité pratique. Dans la majorité des cas, les utilisateurs lancent un premier traitement « pour voir », prendre connaissance des données, comprendre les différentes interactions entre les variables. Il est tout à fait inutile dans cette première étape de construire un arbre qui peut être immense, illisible, qui rebuterait plus qu'autre chose. Par la suite, l'utilisateur peut le modifier pour produire un arbre performant.
Min size of node to split
: Il s'agit de l'effectif minimum pour segmenter. Si un sommet comporte un effectif inférieur à ce seuil, le partitionnement ne sera même pas lancé.
Min size of leaves
: Il s'agit de l'effectif d'admissibilité. Lors de la segmentation d'un nœud, on vérifie si toutes les feuilles produites ont un effectif supérieur ou égal à ce seuil. Dans le cas contraire, la segmentation est refusée, SIPINA choisira la variable suivante (si elle passe les critères de segmentation).

Référence. R. Rakotomalala, " Arbres de décision ", in Revue Modulad, n°33, 2005.


Partager cet article

Repost 0

commentaires