Overblog Suivre ce blog
Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

19 mai 2014 1 19 /05 /mai /2014 11:22
Le transfert entre le tableur  Excel et Sipina a été fiabilisé sur les bases de taille modérée (sur les grandes bases, plusieurs centaines de milliers d’observations, mieux vaut toujours passer par l’importation directe de fichier au format texte .TXT). La gestion du point décimal a été améliorée. La transformation automatique est maintenant bien plus rapide qu’auparavant.

La précision des seuils numériques affichés dans un arbre de décision devient paramétrable. L’utilisateur y accède vient un nouvel item dans le menu « Tree Management ».
 
Mots-clés : excel, add-in, add-on, macro complémentaire, sipina.xla
Lien : Sipina 3.12
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
30 mai 2013 4 30 /05 /mai /2013 13:51
Une nouvelle version multithread de l’analyse discriminante linéaire est ajoutée dans Sipina 3.11. Par rapport à la précédente, elle présente le double avantage (1) de pouvoir utiliser tous les ressources disponibles sur les machines à processeurs multi-cœurs ou multiprocesseur ; (2) de mieux équilibrer la répartition des charges. Elle est en revanche plus gloutonne en espace mémoire, les structures internes de calcul sont dupliquées M fois (M est le nombre de threads).

Un tutoriel  viendra comparer le comportement de cette nouvelle approche avec la version précédente et l’implémentation monothread.

 

Mots-clés : analyse discriminante linéaire, analyse discriminante prédictive, threads, multithreading
Lien : Sipina 3.11
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
23 mai 2013 4 23 /05 /mai /2013 10:08
L’analyse discriminante linéaire a été améliorée. Toutes les opérations sont réalisées en une seule passe sur les données.

Une version multithreadée de l’analyse discriminante linéaire a été ajoutée. Elle améliore la rapidité d’exécution en répartissant les calculs sur les éventuels coeurs (ordinateur avec un processeur multicoeur) ou processeurs (ordinateur multiprocesseur) présents sur la machine.

 

Mots-clés : analyse discriminante linéaire, analyse discriminante prédictive, threads, multithreading
Lien : Sipina 3.10
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
22 mars 2012 4 22 /03 /mars /2012 08:41
L'add-on « SipinaLibrary.oxt » a été rajouté à la distribution. A partir d'un menu additionnel intégrée au tableur CALC, il permet de lancer directement le logiciel SIPINA sur une sélection de données. L'add-on fonctionne pour les suites bureautiques Open Office (testée pour la version 3.3.0) et Libre Office (version 3.5.1.2).

Rappelons qu'un add-on, sous forme de macro-complémentaire (sipina.xla), permet également à SIPINA de s'intégrer dans le tableur Excel.

Mots-clés : add-on, add-in, tableur calc, libre office, open office
Lien : Sipina 3.9
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
18 janvier 2012 3 18 /01 /janvier /2012 19:02
Les logiciels (SIPINA RESEARCH, REGRESS et ASSOCATION RULE SOFTWARE) associés à la distribution SIPINA ont été mis à jour avec plusieurs améliorations.

SIPINA.XLA. La macro complémentaire fonctionne indifféremment les versions 32 et 64 bits d’Excel (testée jusqu’à Excel 2010).

Importation des fichiers textes. Le temps de traitement a été amélioré. Cette modification joue également sur le temps de transfert durant l’envoi des données d’Excel vers les logiciels via la macro-complémentaire (qui utilise un fichier temporaire au format texte).

Association rule software. L’interface a été simplifiée, l’affichage des règles est rendue plus lisible.

S'appuyant sur le gestionnaire de mémoire FastMM, ces 3 logiciels peuvent adresser jusqu'à 3 Go sous Windows 32 bits et 4 Go sous Windows 64 bits. Les capacités de traitement sont améliorées.

Mots-clés : arbres de décision, régression, règles d’association
Lien : Sipina 3.8
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
18 mai 2011 3 18 /05 /mai /2011 09:31
Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (cf. LIENS - Télécharger SIPINA). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression Linéaire Multiple et Règles d'Association) sont déjà intégrées dans TANAGRA qui est très largement diffusé.

Pourquoi en parler aujourd'hui alors ? Tout simplement parce que, concernant REGRESS en tous les cas, je me suis rendu compte en préparant le fascicule de cours consacré à la régression linéaire simple et multiple (Econométrie - Régression Linéaire Simple et Multiple), que le relatif manque de puissance du logiciel - par rapport à TANAGRA - est largement compensé par une grande facilité d'utilisation. Pour les utilisateurs qui souhaitent manipuler un outil simple, sans fioritures, REGRESS peut encore rendre de grands services.

REGRESS a été recompilé en introduisant deux améliorations : il peut s'intégrer dans le tableur Excel via une macro-complémentaire maintenant, la même que celle de SIPINA (SIPINA.XLA), cela accroît grandement sa facilité d'utilisation ; j'ai revérifié les formules pour qu'elles soient complètement cohérentes avec celles obtenues par tableur décrites dans mes fascicules de cours.

Mots clés : logiciel regress, économétrie, régression linéaire simple, régression linéaire multiple, points aberrants, points atypiques, points influents, normalité des résidus, test de Jarque-Bera, droite de Henry, normal probability plot, q-q plot, macro complémentaire, sipina.xla, add-in
Lien : REGRESS dans la distribution SIPINA
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
16 mars 2011 3 16 /03 /mars /2011 18:13
Un étudiant est venu me voir un jour pour me dire que le dessin de l'arbre de Sipina n'était pas très " smart " par rapport à certains logiciels commerciaux, dont on voit des copies d'écran dans des ouvrages bien connus. Il trouvait ça dommage parce que par ailleurs il trouvait les fonctionnalités pas si mal finalement (ouf !).

Bien, bien. Qu'est-ce qu'il ne faut pas entendre je vous jure. La plupart du temps, je me sors de ce genre de situations avec une pirouette plus ou moins heureuse. Il n'en reste pas moins que j'ai bien entendu, et que je n'oublie jamais. Pour la version 3.6 de SIPINA, j'ai donc décidé d'introduire de très légères modifications cosmétiques en modifiant le dessin de l'arbre.

Il suffit de peu de choses finalement : des couleurs plus chatoyantes, des lignes plus stylisées, des étiquettes placées différemment, et le tour est joué. Au final, je ne sais pas si le nouveau dessin est « smart » mais, en tous les cas, je me suis bien amusé à le faire.

 

Smart or not smart, that is the question...

 

Mots clés : smart, dessin de l'arbre

Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
19 mai 2010 3 19 /05 /mai /2010 09:35
En travaillant sur la traduction du tutoriel décrivant l'implémentation des graphes d'induction à l'aide de la version 2.5 de SIPINA, je suis tombé sur un ancien document de présentation de la dite version. Le texte est assez ancien. Il est directement extrait de mon mémoire de doctorat (chapitre 11, pages 269 à 292). Il a été repris tel quel dans l'ouvrage paru en 2000 (chapitre 16, pages 391 à 414). J'imagine qu'il a été préparé en vue d'une publication dans une revue quelconque. Mais, à ma connaissance, il n'a finalement jamais été valorisé sous la forme d'un article. Ce n'est pas plus mal, nous avons l'occasion de le mettre en avant sur ce blog.

Je regarde toujours avec beaucoup de nostalgie cette version 2.5 de SIPINA. Le projet a été initié par des étudiants du Master SISE (dont je faisais partie). J'ai entièrement repris le projet de l'automne 1995 jusqu'à l'été 1997, en essayant de le perfectionner au possible, en rajoutant des modules de calculs (les algorithmes d'induction d'arbres de décision tels que C4.5, CHAID; les techniques de ré-échantillonnage pour l'évaluation des résultats, bootstrap, validation croisée, etc.). Néanmoins, je n'ai jamais pu aller très loin dans le développement du logiciel. Principalement à cause d'un cahier de charges initial trop timoré qui a lourdement pesé sur sa conception; et l'utilisation de bibliothèques payantes 16 bits qui ont compromis tout passage au 32 bits.

La version recherche (ou version 3.0 et suivantes) a été conçue pour dépasser les limitations structurelles de la version 2.5. Il n'en reste pas moins que cette dernière est encore utilisée de nos jours. En effet, c'est le seul logiciel qui implémente la méthode SIPINA telle qu'elle est décrite dans littérature. Mieux même, il s'agit vraisemblablement du seul outil gratuit au monde qui propose une implémentation facilement exploitable des graphes de décision. C'est la raison pour laquelle je la mets encore en ligne sur le site web à ce jour.

Mots-clés : graphes d'induction, graphes de décision, sipina version 2.5
Texte : Sipina_windows_v25.pdf
Références :
R. Rakotomalala, Graphes d’induction, Thèse de Doctorat, Université Lyon 1, 1997 (URL : http://eric.univ-lyon2.fr/~ricco/publications.html).
D. Zighed, R. Rakotomalala, Graphes d’induction : Apprentissage et Data Mining, Hermès, 2000.
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
21 octobre 2009 3 21 /10 /octobre /2009 10:37
Triturer les très grands fichiers est le fantasme ultime du data miner. On veut pouvoir traiter de très grandes bases dans l'espoir d'y déceler des informations cachées. Malheureusement, rares sont les logiciels libres qui peuvent les appréhender. Tout simplement parce que la quasi-totalité d'entre eux chargent les données en mémoire. Knime semble faire exception. Il sait swapper une partie des données sur le disque. Mais j'avoue ne pas savoir comment exploiter pleinement cet atout (paramétrer ou contrôler l'encombrement mémoire en fonction des données et des algorithmes utilisés par exemple).

Cette rareté n'est guère étonnante. En effet, l'affaire est compliquée. Il ne s'agit pas seulement de copier des informations sur le disque, il faut pouvoir y accéder efficacement compte tenu de la méthode d'apprentissage mise en œuvre. Deux aspects s'entremêlent : (1) comment organiser les données sur le disque ; (2) est-il possible de proposer un système de cache afin d'éviter d'avoir à accéder au disque à chaque fois qu'il faut traiter un individu ou lire la valeur d'une variable.

Dans ce didacticiel, nous montrons comment exploiter une solution que j'ai naguère implémentée dans Sipina. Elle n'a jamais été valorisée ni documentée. J'avoue l'avoir totalement oubliée jusqu'à ce que je la redécouvre par hasard en préparant le tutoriel sur l'échantillonnage dans les arbres. Nous montrons qu'il est possible de traiter, en disposant de toutes les fonctionnalités interactives, un fichier comportant 41 variables et (surtout) 9.634.198 observations lorsque nous activons cette option.

Pour apprécier pleinement la solution proposée par Sipina, nous ferons le parallèle avec le comportement des logiciels Tanagra 1.4.33 et Knime 2.0.3 face à un tel fichier.

Mots clés : gros volumes, très grands fichiers, grandes bases de données, arbre de décision, échantillonnage
Lien : Sipina - Traitement des très grands fichiers
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article
21 janvier 2009 3 21 /01 /janvier /2009 06:12
Je suis dans la période où je (re)découvre Linux. J'avais étudié récemment la possibilité de travailler avec Tanagra sous Linux via Wine, simplement, sans contorsions compliquées.

Nous montrons dans ce document qu'il est possible de faire de même avec Sipina. Toutes les fonctionnalités du logiciel sont accessibles. On pense notamment aux outils interactifs qui permettent de guider la construction de l'arbre et d'explorer finement les sous-groupes d'observations associées aux nœuds.

Dans ce tutoriel, nous chargeons une fichier de données. Nous le subdivisons aléatoirement en apprentissage et test. Nous créons l'arbre sur la première partie, nous la validons sur la seconde. Nous explorons ensuite de manière détaillée un des noeuds de l'arbre.

Nous ne nous étendrons pas outre mesure sur ces fonctionnalités qui sont largement présentées par ailleurs dans d'autres didactciels accessibles sur ce site (voir Doc. et tutoriels), notre principal objectif étant de montrer qu'il est possible d'utiliser Sipina sous Linux.

Nous utilisons la distribution française de Ubuntu 8.10. Nous avons également installé WINE, un outil extraordinaire qui permet d'exécuter un très grand nombre de logiciels initialement compilés pour Windows.

Mots clés : linux, ubuntu, wine, sipina, arbres de décision
Lien : Sipina sous Linux
Repost 0
Published by Sipina - dans Fonctionnalités
commenter cet article