Overblog Suivre ce blog
Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

Top articles

  • Dessin "smart" de l'arbre dans la version 3.6

    16 mars 2011 ( #Fonctionnalités )

    Un étudiant est venu me voir un jour pour me dire que le dessin de l'arbre de Sipina n'était pas très " smart " par rapport à certains logiciels commerciaux, dont on voit des copies d'écran dans des ouvrages bien connus. Il trouvait ça dommage parce que...

  • Capacités de traitement

    11 mars 2008 ( #Fonctionnalités )

    Les capacités de SIPINA sont de 16384 variables et, approximativement, de 500.000.000 observations. Ces indications sont purement théoriques. En effet, comme le logiciel charge toutes les données en mémoire centrale, sous une forme encodée certes, la...

  • Arbres de décision - Revue Modulad

    11 mars 2008 ( #Références en ligne )

    Cet article présente de manière didactique l'induction d'un arbre de décision à partir de données. A l'aide d'un exemple tiré de l'ouvrage de Quinlan (1993), les principales étapes de l'apprentissage d'un arbre de décision sont mises en avant. L'accent...

  • Graphes d’Induction

    11 mars 2008 ( #Références en ligne )

    Ma thèse de doctorat. Pour être tout à fait lucide, ma principale contribution dans cette histoire aura été de compiler, de classer, les innombrables variantes qui existaient à l'époque concernant la construction d'un arbre de décision. C'étaient le temps...

  • Segmentation par arbre - Nakache et Confais

    11 mars 2008 ( #Bibliographie )

    Cette partie (la 3-ème) de l'ouvrage de Nakache et Confais est dédiée à la segmentation par arbres. Deux aspects retiennent principalement l'attention : une description approfondie de la méthode CART (Breiman et al., 1984) ; l'instanciation de la segmentation...

  • Etude du logiciel SIPINA

    11 mars 2008 ( #Ils en parlent )

    Une documentation réalisée par des étudiants de Master 2. Elle liste les principaux menus du logiciel. Une étude comparative de quelques algorithmes d'induction d'arbres sur un même jeu de données est réalisée. Les étudiants ont surtout eu le mérite de...

  • Graphes d'induction - Apprentissage et Data Mining

    11 mars 2008 ( #Bibliographie )

    Ecrit avec D.A. Zighed, cet ouvrage reprend en grande partie ma thèse de doctorat. Il se démarque néanmoins par la " Partie 2 ", très didactique, où les méthodes les plus populaires (CHAID, CART et C4.5) sont présentées de manière détaillée. En effet,...

  • Arbres de discrimination binaire

    11 mars 2008 ( #Bibliographie )

    Chapitre 7 rédigée par A. Guéguen dans un ouvrage collectif, il décrit principalement la méthode CART de Breiman et al. (1984), abordant tous les points important de l'approche, notamment le post élagage. Elément intéressant, la section 7.8 détaille les...

  • Arbres de partitionnement

    11 mars 2008 ( #Bibliographie )

    Chapitre 4 de l'ouvrage de Bardos, le texte décrit la méthode CART, plus ou moins succinctement. On y retrouve en tous les cas les points importants : choix des variables de segmentation basé sur la réduction d'un critère d'impureté ; post élagage avec...

  • Arbres de décision - Wikipédia

    11 mars 2008 ( #Références en ligne )

    Une présentation convenue mais finalement très didactique des arbres de décision. Après un exemple introductif où l’on construit un arbre sur les données de Quinlan (1993), les points importants dans la construction de l’arbre sont mis en avant : choix...

  • Segmentation - Lebart et al., 2000

    11 mars 2008 ( #Bibliographie )

    Lebart et al. (2000) consacre une section à la discrimination par arbres dans leur ouvrage. La description assez succincte est basée sur la méthode CART, à l’instar de la très grande majorité des ouvrages en français. Il s’agit quand même d’un survol...

  • Apprentissage automatique : les arbres de décision

    11 mars 2008 ( #Références en ligne )

    Une présentation rédigée des arbres de décision, accessible en ligne. C’est assez rare pour être souligné. Les deux principales méthodes CART et C4.5 sont décrites, assez succinctement. Néanmoins, les principaux repères sont mis en avant, avec parfois...

  • A survey of Data Mining...

    11 mars 2008 ( #Ils en parlent )

    Cette étude compare 43 de logiciels de Data Mining à dominante Machine Learning. Les logiciels d’obédience statistique sont très peu représentés. Les prototypes issus de la recherche comme les produits commerciaux sont représentés. On notera néanmoins...

  • Data Mining et Scoring - Les arbres de décision

    11 mars 2008 ( #Bibliographie )

    Dans l’ouvrage de Tufféry, les arbres de décision interviennent à deux endroits. La section 4.6.4 présente la méthode de manière simplifiée, les trois grandes méthodes C4.5 (ou C5.0 pour la version commerciale), CART et CHAID sont positionnées les unes...

  • Connexion Excel - Sipina

    11 mars 2008 ( #Doc. et tutoriels )

    L'importation des données est un écueil important pour les logiciels libres de Data Mining. La grande majorité des utilisateurs travaillent avec un tableur, Excel principalement, en la couplant avec un logiciel spécialisé de Data Mining (voir à ce sujet...

  • Analyse interactive avec Sipina

    11 mars 2008 ( #Doc. et tutoriels )

    Le succès des arbres de décision repose en grande partie sur les fonctionnalités interactives des logiciels qui les implémentent. L'expert (lebanquier, le médecin, etc.) peut intervenir pour guider l'exploration vers les solutions qui sont en accord avec...

  • Apprentissage - test avec Sipina

    11 mars 2008 ( #Doc. et tutoriels )

    Ce didacticiel montre comment exploiter un fichier scindé en deux parties : la première est dédiée à l'apprentissage de l'arbre de décision (échantillon d'apprentissage), la seconde est dédiée à son évaluation (échantillon test). Dans cet exemple, une...

  • Arbres interactifs - Sipina et Orange

    11 mars 2008 ( #Doc. et tutoriels )

    Sipina et Orange sont parmi les très rares logiciels libres à intégrer des fonctionnalités interactives dans la construction d'un arbre de décision. Pourtant, cette particularité, c.-à-d. la possibilité pour un expert de guider la construction du modèle...

  • Déploiement d'un arbre de décision

    17 mars 2008 ( #Doc. et tutoriels )

    Déploiement de modèles. Le déploiement des modèles est une activité clé du Data Mining. Dans le cas de l’apprentissage supervisé, il s’agit de classer de nouveaux individus à partir des valeurs connues des variables prédictives introduites dans le modèle....

  • Description de l’interface SIPINA

    18 mars 2008 ( #Doc. et tutoriels )

    Un texte, un peu ancien et assez succinct, qui décrit les principales fonctionnalités de SIPINA : chargement de données, avec le format propriétaire binaire (*.fdm) ; choix de la méthode d'apprentissage ; définition de la variable à prédire et des variables...

  • Importer un fichier Weka dans Sipina

    19 mars 2008 ( #Doc. et tutoriels )

    WEKA est un logiciel de Data Mining libre très populaire dans la communauté « Machine Learning ». Il intègre un grand nombre de méthodes, articulées essentiellement autour des approches supervisées et non supervisées. WEKA possède un format de fichier...

  • Statistiques descriptives avec SIPINA

    25 mars 2008 ( #Doc. et tutoriels )

    SIPINA propose des fonctionnalités de statistiques descriptives. Peu de personnes le savent. En soi l'information n'est pas éblouissante, il existe un grand nombre de logiciels libres capables de produire les indicateurs de la description statistique....

  • Échantillonnage dans les arbres de décision

    27 mars 2008 ( #Algos et méthodes )

    Stratégie d'échantillonnage pour les arbres de décision. Dans tous les algorithmes d'induction d'arbres, SIPINA introduit une option d'échantillonnage. L'idée est la suivante : plutôt que de travailler sur l'ensemble des individus disponibles sur chaque...

  • A Limited search induction tree algorithm (Catlett, 1991)

    27 mars 2008 ( #Algos et méthodes )

    Description. Catlett (1991) est certainement un des premiers data miner de l’histoire. Son seul tort est d’avoir eu raison trop tôt. En effet, plusieurs années avant la grande vague du data mining et l’article fondateur de Fayyad (1996), il a présenté...

  • ID3-IV (Quinlan, 1986)

    27 mars 2008 ( #Algos et méthodes )

    Description. ID3-IV (1986) est la (une des) dernière version de ID3, avant que Quinlan ne se tourne vers le post-élagage avec C4 puis C4.5 (et les autres versions commerciales, non publiées qui s'en suivront). Par rapport à l'algorithme originel (ID 3...

1 2 3 > >>