Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

27 mars 2008 4 27 /03 /mars /2008 16:42
Description. CHAID est la variante supervisée (variable à prédire catégorielle) des techniques issues de AID (Morgan et Sonquist, 1963), considérée comme l'ancêtre de toutes les méthodes de segmentation.

Cette méthode se démarque de deux manières : le critère de segmentation est le KHI-2 ; les feuilles produites par un partitionnement peuvent être fusionnées si elles présentent des profils (distributions) identiques.

Ces deux particularités se complètent fort heureusement. En effet, le KHI-2 a la fâcheuse tendance de favoriser les variables comportant un grand nombre de modalités. Avec le processus de fusion, on évite l'élaboration d'arbres trop « larges ».

La méthode CHAID est très largement diffusée, très populaire auprès des statisticiens, elle est présente dans de nombreux logiciels commerciaux. Elle l'est moins souvent en revanche dans les logiciels libres, elle est peu connue de la communauté « machine learning ».

Paramètres.

P-level for splitting nodes : Risque critique du test d'indépendance du KHI-2 lors de la segmentation. Si la p-value du test est supérieur à ce seuil, le partitionnement est refusé. Plus on diminue ce seuil, plus petit sera l'arbre de décision.
P-level for merging nodes : Risque critique du test d'équivalence distributionnelle (basé aussi sur une statistique du KHI-2) lors de la fusion. Si la p-value du test est plus petit que ce seuil, les sommets ne sont pas fusionnés. Plus le seuil sera grand, moins nous serons enclins à fusionner, plus l'arbre sera large.
Ajustement de Bonferroni : Les p-value calculées sont faussées car, à chaque étape, nous multiplions les tests pour choisir la meilleure configuration, augmentant ainsi la chance de trouver une segmentation fallacieusement intéressante. Pour contrecarrer cette propension, on peut introduire la correction de Bonferroni, bien connue dans les comparaisons multiples en statistique. A mon sens, mieux vaut ne pas trop s'appuyer sur ce paramètre qui donne l'illusion de « vérité statistique ». Nous sommes dans le cadre de l'induction, si nous souhaitons guider l'apprentissage vers des solutions qui nous conviennent plus (arbre plus petit et/ou moins large), mieux vaut, en toute conscience, manipuler les paramètres « p-level ».

Référence.
G. Kass, « An exploratory technique for investigating large quantities of categorical data », Applied Statistics, 29(2), pp. 119-127, 1980.

 

Partager cet article

Repost 0

commentaires