Présentation

Anciennes versions

Sipina

SIPINA est un logiciel gratuit de Data Mining spécialisé dans l'induction des arbres de décision. Curieusement, c'est un des très rares outils en libre accès intégrant des fonctionnalités interactives lors de la construction d'un arbre de décision. Fonctionnalités qui, pourtant, font tout le sel de cette méthode dans une activité de fouille de données.

SIPINA implémente également d'autres méthodes supervisées. Mais son intérêt est moindre dans ce contexte. Depuis le développement et la diffusion de TANAGRA (Janvier 2004), je conseille systématiquement d'utiliser ce dernier. Il comporte non seulement les méthodes supervisées mais également une grande majorité des techniques de statistique et d'analyse de données telles que les analyses factorielles, la classification automatique, etc., et la possibilité de les faire coopérer entre elles.

Les différentes versions de SIPINA sont disponibles sur le web depuis 1995. La version actuelle n'a guère évolué depuis 2000. Elle est néanmoins distribuée car, comme je le disais plus haut, il y a très peu d'équivalents gratuits au monde. Le site de distribution en anglais est régulièrement consulté encore à ce jour, et le logiciel téléchargé. Il doit bien y avoir une raison à cela. J'ai donc décidé de la documenter un peu plus, aspect totalement négligé à l'époque de son développement. Je redécouvre d'ailleurs ainsi de très nombreuses fonctionnalités imaginées, expérimentées, et finalement connues de moi seul… autant que tout le monde en profite.

Configuré judicieusement, SIPINA peut traiter de très gros volumes (plusieurs millions d'observations - voir Sipina - Traitement des très grands fichiers) tout en conservant ses fonctionnalités interactives.

Ce site rassemble tout le matériel concernant SIPINA.  Autre évolution notable, il est entièrement en français, le site initial ayant toujours été exclusivement en anglais. Le logiciel reste en anglais, mais les mots clés sont relativement simples à appréhender.

SIPINA est totalement gratuit, quel que soit le contexte d'utilisation.

Ricco Rakotomalala.

Jeudi 22 mars 2012 4 22 /03 /Mars /2012 08:41
L'add-on « SipinaLibrary.oxt » a été rajouté à la distribution. A partir d'un menu additionnel intégrée au tableur CALC, il permet de lancer directement le logiciel SIPINA sur une sélection de données. L'add-on fonctionne pour les suites bureautiques Open Office (testée pour la version 3.3.0) et Libre Office (version 3.5.1.2).

Rappelons qu'un add-on, sous forme de macro-complémentaire (sipina.xla), permet également à SIPINA de s'intégrer dans le tableur Excel.

Mots-clés : add-on, add-in, tableur calc, libre office, open office
Lien : Sipina 3.9
Par Sipina - Publié dans : Fonctionnalités
Voir les 0 commentaires
Mercredi 18 janvier 2012 3 18 /01 /Jan /2012 19:02
Les logiciels (SIPINA RESEARCH, REGRESS et ASSOCATION RULE SOFTWARE) associés à la distribution SIPINA ont été mis à jour avec plusieurs améliorations.

SIPINA.XLA. La macro complémentaire fonctionne indifféremment les versions 32 et 64 bits d’Excel (testée jusqu’à Excel 2010).

Importation des fichiers textes. Le temps de traitement a été amélioré. Cette modification joue également sur le temps de transfert durant l’envoi des données d’Excel vers les logiciels via la macro-complémentaire (qui utilise un fichier temporaire au format texte).

Association rule software. L’interface a été simplifiée, l’affichage des règles est rendue plus lisible.

S'appuyant sur le gestionnaire de mémoire FastMM, ces 3 logiciels peuvent adresser jusqu'à 3 Go sous Windows 32 bits et 4 Go sous Windows 64 bits. Les capacités de traitement sont améliorées.

Mots-clés : arbres de décision, régression, règles d’association
Lien : Sipina 3.8
Par Sipina - Publié dans : Fonctionnalités
Voir les 0 commentaires
Vendredi 30 décembre 2011 5 30 /12 /Déc /2011 21:38
Triturer des très grands fichiers était de fantasme ultime du data miner a-t-on coutume de dire. Etant passé récemment à un système 64 bits (mieux vaut tard que jamais), je me propose d’étudier le comportement des outils spécifiquement dédiés à ce système, principalement Knime 2.4.2 et RapidMiner 5.1.011.

Ce document vient compléter l'étude précédente où nous traitions une base moyennement volumineuse avec 500.000 observations et 22 variables. Nous poussons le curseur un peu plus loin en reprenant un tutoriel où le fichier à traiter comportait 9.634.198 observations et 41 variables, (quasiment) impossible à faire tenir en mémoire sur un système 32 bits. L’idée était alors de montrer qu’un système de swap adapté aux algorithmes d’apprentissage, l’induction d’un arbre de décision en l’occurrence, permettait d’appréhender de très grandes bases avec des temps de traitement raisonnables. La procédure avait été implémentée dans Sipina.

Dans ce tutoriel, nous constatons que le passage aux 64 bits augmente considérablement les capacités de calcul des logiciels de Data Mining. C’est indéniable. Mais il faut disposer d’une machine à l’avenant pour en tirer réellement parti.

Mots clés : gros volumes, très grands fichiers, grandes bases de données, arbre de décision, échantillonnage, sipina, knime, rapidminer, tanagra, windows 7 - 64 bits
Lien : Arbres de décision sur les "très" grandes bases (suite)
Par Sipina - Publié dans : Algos et méthodes
Voir les 0 commentaires
Mardi 13 décembre 2011 2 13 /12 /Déc /2011 09:14
S’endormir sur ses lauriers est impossible en informatique. Tout évolue très vite : matériel, système, logiciel. C’est un de ses principaux attraits d’ailleurs. La vérité d’aujourd’hui n’est pas celle d’hier, elle sera peut être différente demain, il faut être sur le qui-vive. Ayant changé de système, je suis passé à Windows 7 en 64 bits (avec un Quad Core Q9400 à 2.66 Ghz), j’étais curieux de voir le nouveau comportement des outils analysés dans un ancien document dont l'objet était l'analyse comparative des performances des différents logiciels de data mining durant l'apprentissage d'un arbre de décision. Surtout que plusieurs de ces outils sont passés à une version 64 bits (Knime, RapidMiner, R).

J’ai donc reproduit la même analyse avec les mêmes données et mesuré les mêmes critères : temps de traitement et occupation mémoire. J’ai constaté que la grande majorité des outils ont bien progréssé en termes de temps de traitement, à des degrés divers néanmoins. En revanche, les évolutions ne sont pas manifestes concernant l’occupation mémoire. Nous détaillons tout cela dans la dernière section de cette nouvelle version de notre tutoriel. Finalement, SIPINA s'en sort pas trop mal face à des outils pourtant,pour certains, très sophistiqués.

Mots-clés : c4.5, arbres de décision, grandes bases de données, comparaison de logiciels, knime2.4.2, orange 2.0b, r 2.13.2, rapidminer 5.1.011, sipina 3.7, tanagra 1.4.41, weka 3.7.4, windows 7 - 64 bits
Lien : Arbres de décision sur les très grandes bases (suite)
Par Sipina - Publié dans : Algos et méthodes
Voir les 0 commentaires
Mercredi 18 mai 2011 3 18 /05 /Mai /2011 09:31
Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (cf. LIENS - Télécharger SIPINA). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression Linéaire Multiple et Règles d'Association) sont déjà intégrées dans TANAGRA qui est très largement diffusé.

Pourquoi en parler aujourd'hui alors ? Tout simplement parce que, concernant REGRESS en tous les cas, je me suis rendu compte en préparant le fascicule de cours consacré à la régression linéaire simple et multiple (Econométrie - Régression Linéaire Simple et Multiple), que le relatif manque de puissance du logiciel - par rapport à TANAGRA - est largement compensé par une grande facilité d'utilisation. Pour les utilisateurs qui souhaitent manipuler un outil simple, sans fioritures, REGRESS peut encore rendre de grands services.

REGRESS a été recompilé en introduisant deux améliorations : il peut s'intégrer dans le tableur Excel via une macro-complémentaire maintenant, la même que celle de SIPINA (SIPINA.XLA), cela accroît grandement sa facilité d'utilisation ; j'ai revérifié les formules pour qu'elles soient complètement cohérentes avec celles obtenues par tableur décrites dans mes fascicules de cours.

Mots clés : logiciel regress, économétrie, régression linéaire simple, régression linéaire multiple, points aberrants, points atypiques, points influents, normalité des résidus, test de Jarque-Bera, droite de Henry, normal probability plot, q-q plot, macro complémentaire, sipina.xla, add-in
Lien : REGRESS dans la distribution SIPINA
Par Sipina - Publié dans : Fonctionnalités
Voir les 0 commentaires
Mercredi 16 mars 2011 3 16 /03 /Mars /2011 18:13
Un étudiant est venu me voir un jour pour me dire que le dessin de l'arbre de Sipina n'était pas très " smart " par rapport à certains logiciels commerciaux, dont on voit des copies d'écran dans des ouvrages bien connus. Il trouvait ça dommage parce que par ailleurs il trouvait les fonctionnalités pas si mal finalement (ouf !).

Bien, bien. Qu'est-ce qu'il ne faut pas entendre je vous jure. La plupart du temps, je me sors de ce genre de situations avec une pirouette plus ou moins heureuse. Il n'en reste pas moins que j'ai bien entendu, et que je n'oublie jamais. Pour la version 3.6 de SIPINA, j'ai donc décidé d'introduire de très légères modifications cosmétiques en modifiant le dessin de l'arbre.

Il suffit de peu de choses finalement : des couleurs plus chatoyantes, des lignes plus stylisées, des étiquettes placées différemment, et le tour est joué. Au final, je ne sais pas si le nouveau dessin est « smart » mais, en tous les cas, je me suis bien amusé à le faire.

 

Smart or not smart, that is the question...

 

Mots clés : smart, dessin de l'arbre

Par Sipina - Publié dans : Fonctionnalités
Voir les 0 commentaires
Jeudi 2 décembre 2010 4 02 /12 /Déc /2010 08:12
Une grande partie des PC modernes sont équipés de processeurs multi-cœurs. Dans les faits, l'ordinateur fonctionne comme s'il disposait de plusieurs processeurs. Certains d'ailleurs, les gros serveurs notamment, en disposent effectivement. Les logiciels et les algorithmes de data mining doivent être aménagés pour pouvoir en tirer profit. A l'heure actuelle, rares sont les outils à large diffusion qui exploitent ces nouvelles caractéristiques des machines.

En effet, l'affaire n'est pas simple. Il est impossible de mettre en place une démarche générique qui serait valable quelle que soit la méthode d'apprentissage utilisée. Pour une technique donnée, décomposer un algorithme en tâches que l'on peut exécuter en parallèle est un domaine de recherche à part entière. Les publications scientifiques regorgent de propositions en tous genres, tant au niveau méthodologique (modification des algorithmes) qu'au niveau technologique (implémentation sur les machines). Une grande majorité d'entre elles s'intéressent surtout à l'implantation sur de gros systèmes. Il y a très peu de propositions de solutions légères que l'on peut introduire facilement sur des logiciels destinés aux ordinateurs personnels.

Dans ce didacticiel, une solution basée sur les threads est mise en avant. Elle est implantée dans la version 3.5 de Sipina.

Mots-clés : multithreading, thread, threads, arbres de décision, chaid, sipina 3.5, knime 2.2.2, rapidminer 5.0.011
Lien : Multithreading
Par Sipina - Publié dans : Algos et méthodes
Voir les 0 commentaires
Mercredi 29 septembre 2010 3 29 /09 /Sep /2010 08:18
Le déploiement des modèles est une étape importante du processus Data Mining. Dans le cadre de l'apprentissage supervisé, il s'agit de réaliser des prédictions en appliquant les modèles sur des observations non étiquetées.

Nous avons décrit à maintes reprises la procédure pour différents outils (ex.Tanagra, Sipina, Spad, ou encore R). Ils ont pour point commun d'utiliser le même logiciel pour la construction du modèle et son déploiement.

Ce nouveau didacticiel se démarque des précédents dans la mesure où nous utilisons un logiciel tiers pour le classement des nouvelles observations. Il est possible d'élaborer un arbre de décision avec différents outils (SIPINA, KNIME et RAPIDMINER), de les exporter en respectant la norme PMML, puis de les déployer de manière indifférenciée sur des observations non étiquetées via PDI-CE. L'adoption d'un standard de description des modèles (la norme PMML) devient particulièrement intéressante dans ce cas.

Mots-clés : déploiement, pmml, arbres de décision
Lien : Déploiement de modèles avec PMML
Par Sipina - Publié dans : Doc. et tutoriels
Voir les 0 commentaires
Vendredi 27 août 2010 5 27 /08 /Août /2010 13:33
La macro complémentaire sipina.xla participe largement à la diffusion du logiciel Sipina. Dans un environnement qui lui est familier, le tableur, l'utilisateur peut manipuler / transformer / recoder les données à sa guise avant de les envoyer vers le logiciel spécialisé de Data Mining. Exit les problèmes de compatibilités entre formats de fichiers, les points décimaux capricieux, etc. Il lui suffit de sélectionner les données puis de cliquer sur un nouveau menu intégré dans Excel.

Nous avons décrit l'installation et l'utilisation de l'add-in dans Office 2000 (la procédure est valable jusqu'à Office 2003). Dans ce nouveau didacticiel, nous montrons comment procéder, toujours avec la macro sipina.xla, avec les dernières versions d'Office, Excel 2007 et Excel 2010.

Le document décrit la procédure pour le logiciel Tanagra. La transposition à Sipina est immédiate.

Mots-clés : importation des données, fichier excel, xls, xlsx, macro complémentaire, add-in, add-on
Lien : Add-in pour Excel 2007 et 2010
Par Sipina - Publié dans : Doc. et tutoriels
Voir les 0 commentaires
Mercredi 19 mai 2010 3 19 /05 /Mai /2010 09:35
En travaillant sur la traduction du tutoriel décrivant l'implémentation des graphes d'induction à l'aide de la version 2.5 de SIPINA, je suis tombé sur un ancien document de présentation de la dite version. Le texte est assez ancien. Il est directement extrait de mon mémoire de doctorat (chapitre 11, pages 269 à 292). Il a été repris tel quel dans l'ouvrage paru en 2000 (chapitre 16, pages 391 à 414). J'imagine qu'il a été préparé en vue d'une publication dans une revue quelconque. Mais, à ma connaissance, il n'a finalement jamais été valorisé sous la forme d'un article. Ce n'est pas plus mal, nous avons l'occasion de le mettre en avant sur ce blog.

Je regarde toujours avec beaucoup de nostalgie cette version 2.5 de SIPINA. Le projet a été initié par des étudiants du Master SISE (dont je faisais partie). J'ai entièrement repris le projet de l'automne 1995 jusqu'à l'été 1997, en essayant de le perfectionner au possible, en rajoutant des modules de calculs (les algorithmes d'induction d'arbres de décision tels que C4.5, CHAID; les techniques de ré-échantillonnage pour l'évaluation des résultats, bootstrap, validation croisée, etc.). Néanmoins, je n'ai jamais pu aller très loin dans le développement du logiciel. Principalement à cause d'un cahier de charges initial trop timoré qui a lourdement pesé sur sa conception; et l'utilisation de bibliothèques payantes 16 bits qui ont compromis tout passage au 32 bits.

La version recherche (ou version 3.0 et suivantes) a été conçue pour dépasser les limitations structurelles de la version 2.5. Il n'en reste pas moins que cette dernière est encore utilisée de nos jours. En effet, c'est le seul logiciel qui implémente la méthode SIPINA telle qu'elle est décrite dans littérature. Mieux même, il s'agit vraisemblablement du seul outil gratuit au monde qui propose une implémentation facilement exploitable des graphes de décision. C'est la raison pour laquelle je la mets encore en ligne sur le site web à ce jour.

Mots-clés : graphes d'induction, graphes de décision, sipina version 2.5
Texte : Sipina_windows_v25.pdf
Références :
R. Rakotomalala, Graphes d’induction, Thèse de Doctorat, Université Lyon 1, 1997 (URL : http://eric.univ-lyon2.fr/~ricco/publications.html).
D. Zighed, R. Rakotomalala, Graphes d’induction : Apprentissage et Data Mining, Hermès, 2000.
Par Sipina - Publié dans : Fonctionnalités
Voir les 0 commentaires
 
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus - Articles les plus commentés