Overblog
Suivre ce blog Administration + Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

19 mai 2015 2 19 /05 /mai /2015 18:13

Le site Sipina a été transféré à cette adresse : http://sipina-arbres-de-decision.blogspot.fr/

Partager cet article
Repost0
19 mai 2014 1 19 /05 /mai /2014 11:22
Le transfert entre le tableur  Excel et Sipina a été fiabilisé sur les bases de taille modérée (sur les grandes bases, plusieurs centaines de milliers d’observations, mieux vaut toujours passer par l’importation directe de fichier au format texte .TXT). La gestion du point décimal a été améliorée. La transformation automatique est maintenant bien plus rapide qu’auparavant.

La précision des seuils numériques affichés dans un arbre de décision devient paramétrable. L’utilisateur y accède vient un nouvel item dans le menu « Tree Management ».
 
Mots-clés : excel, add-in, add-on, macro complémentaire, sipina.xla
Lien : Sipina 3.12
Partager cet article
Repost0
30 octobre 2013 3 30 /10 /octobre /2013 16:06
Outre les arbres de décision qui restent quand même son véritable terrain de prédilection, le logiciel SIPINA intègre d’autres méthodes supervisées. Certes, les mêmes sont disponibles dans Tanagra (qui – lui - ne propose pas les arbres graphiques interactifs), elles y sont mieux mises en valeur, nous pouvons les enchaîner (ex. réaliser une régression sur facteurs de l’ACP), récupérer les résultats dans un tableur pour des calculs ultérieurs (ex. effectuer des calculs supplémentaires à partir des coefficients fournis par la régression logistique), etc. Dans les faits,  en mettant à part les arbres toujours, je me sers avant tout de SIPINA comme laboratoire d’idées pour l’optimisation des implémentations des algorithmes de data mining ces dernières années (dump des données sur le disque pour réduire l’occupation mémoire, échantillonnage, multithreading, …).

Dernièrement, je me suis intéressé à l’analyse discriminante prédictive, plus précisément à l’exploitation des threads pour tirer parti des capacités des machines multi-cœurs ou multiprocesseurs. Deux stratégies – décrites dans deux tutoriels –  ont été mises au point : la première, implémentée dans Sipina 3.10, est parcimonieuse en  mémoire, mais ses performances sont dépendantes des caractéristiques des données traitées et non de la machine utilisée (certains cœurs peuvent rester inactifs) ; la seconde, implémentée dans Sipina 3.11, s’adapte aux capacités de la machine utilisée, mais s’avère plus gourmande en mémoire (les matrices de calcul sont dupliquées autant de fois qu’il y a de threads lancés). Quoiqu’il en soit, une chose est sûre, sauf gestion calamiteuse de la synchronisation des calculs et de la manipulation des données, une stratégie multithread devrait toujours être plus rapide qu’une approche purement séquentielle.

Mots-clés : analyse discriminante linéaire, analyse discriminante prédictive, threads, multithreading, processeurs multi-coeurs, ordinateur multiprocesseur
Partager cet article
Repost0
30 mai 2013 4 30 /05 /mai /2013 13:51
Une nouvelle version multithread de l’analyse discriminante linéaire est ajoutée dans Sipina 3.11. Par rapport à la précédente, elle présente le double avantage (1) de pouvoir utiliser tous les ressources disponibles sur les machines à processeurs multi-cœurs ou multiprocesseur ; (2) de mieux équilibrer la répartition des charges. Elle est en revanche plus gloutonne en espace mémoire, les structures internes de calcul sont dupliquées M fois (M est le nombre de threads).

Un tutoriel  viendra comparer le comportement de cette nouvelle approche avec la version précédente et l’implémentation monothread.

 

Mots-clés : analyse discriminante linéaire, analyse discriminante prédictive, threads, multithreading
Lien : Sipina 3.11
Partager cet article
Repost0
23 mai 2013 4 23 /05 /mai /2013 10:08
L’analyse discriminante linéaire a été améliorée. Toutes les opérations sont réalisées en une seule passe sur les données.

Une version multithreadée de l’analyse discriminante linéaire a été ajoutée. Elle améliore la rapidité d’exécution en répartissant les calculs sur les éventuels coeurs (ordinateur avec un processeur multicoeur) ou processeurs (ordinateur multiprocesseur) présents sur la machine.

 

Mots-clés : analyse discriminante linéaire, analyse discriminante prédictive, threads, multithreading
Lien : Sipina 3.10
Partager cet article
Repost0
22 mars 2012 4 22 /03 /mars /2012 08:41
L'add-on « SipinaLibrary.oxt » a été rajouté à la distribution. A partir d'un menu additionnel intégrée au tableur CALC, il permet de lancer directement le logiciel SIPINA sur une sélection de données. L'add-on fonctionne pour les suites bureautiques Open Office (testée pour la version 3.3.0) et Libre Office (version 3.5.1.2).

Rappelons qu'un add-on, sous forme de macro-complémentaire (sipina.xla), permet également à SIPINA de s'intégrer dans le tableur Excel.

Mots-clés : add-on, add-in, tableur calc, libre office, open office
Lien : Sipina 3.9
Partager cet article
Repost0
18 janvier 2012 3 18 /01 /janvier /2012 19:02
Les logiciels (SIPINA RESEARCH, REGRESS et ASSOCATION RULE SOFTWARE) associés à la distribution SIPINA ont été mis à jour avec plusieurs améliorations.

SIPINA.XLA. La macro complémentaire fonctionne indifféremment les versions 32 et 64 bits d’Excel (testée jusqu’à Excel 2010).

Importation des fichiers textes. Le temps de traitement a été amélioré. Cette modification joue également sur le temps de transfert durant l’envoi des données d’Excel vers les logiciels via la macro-complémentaire (qui utilise un fichier temporaire au format texte).

Association rule software. L’interface a été simplifiée, l’affichage des règles est rendue plus lisible.

S'appuyant sur le gestionnaire de mémoire FastMM, ces 3 logiciels peuvent adresser jusqu'à 3 Go sous Windows 32 bits et 4 Go sous Windows 64 bits. Les capacités de traitement sont améliorées.

Mots-clés : arbres de décision, régression, règles d’association
Lien : Sipina 3.8
Partager cet article
Repost0
30 décembre 2011 5 30 /12 /décembre /2011 21:38
Triturer des très grands fichiers était de fantasme ultime du data miner a-t-on coutume de dire. Etant passé récemment à un système 64 bits (mieux vaut tard que jamais), je me propose d’étudier le comportement des outils spécifiquement dédiés à ce système, principalement Knime 2.4.2 et RapidMiner 5.1.011.

Ce document vient compléter l'étude précédente où nous traitions une base moyennement volumineuse avec 500.000 observations et 22 variables. Nous poussons le curseur un peu plus loin en reprenant un tutoriel où le fichier à traiter comportait 9.634.198 observations et 41 variables, (quasiment) impossible à faire tenir en mémoire sur un système 32 bits. L’idée était alors de montrer qu’un système de swap adapté aux algorithmes d’apprentissage, l’induction d’un arbre de décision en l’occurrence, permettait d’appréhender de très grandes bases avec des temps de traitement raisonnables. La procédure avait été implémentée dans Sipina.

Dans ce tutoriel, nous constatons que le passage aux 64 bits augmente considérablement les capacités de calcul des logiciels de Data Mining. C’est indéniable. Mais il faut disposer d’une machine à l’avenant pour en tirer réellement parti.

Mots clés : gros volumes, très grands fichiers, grandes bases de données, arbre de décision, échantillonnage, sipina, knime, rapidminer, tanagra, windows 7 - 64 bits
Lien : Arbres de décision sur les "très" grandes bases (suite)
Partager cet article
Repost0
13 décembre 2011 2 13 /12 /décembre /2011 09:14
S’endormir sur ses lauriers est impossible en informatique. Tout évolue très vite : matériel, système, logiciel. C’est un de ses principaux attraits d’ailleurs. La vérité d’aujourd’hui n’est pas celle d’hier, elle sera peut être différente demain, il faut être sur le qui-vive. Ayant changé de système, je suis passé à Windows 7 en 64 bits (avec un Quad Core Q9400 à 2.66 Ghz), j’étais curieux de voir le nouveau comportement des outils analysés dans un ancien document dont l'objet était l'analyse comparative des performances des différents logiciels de data mining durant l'apprentissage d'un arbre de décision. Surtout que plusieurs de ces outils sont passés à une version 64 bits (Knime, RapidMiner, R).

J’ai donc reproduit la même analyse avec les mêmes données et mesuré les mêmes critères : temps de traitement et occupation mémoire. J’ai constaté que la grande majorité des outils ont bien progréssé en termes de temps de traitement, à des degrés divers néanmoins. En revanche, les évolutions ne sont pas manifestes concernant l’occupation mémoire. Nous détaillons tout cela dans la dernière section de cette nouvelle version de notre tutoriel. Finalement, SIPINA s'en sort pas trop mal face à des outils pourtant,pour certains, très sophistiqués.

Mots-clés : c4.5, arbres de décision, grandes bases de données, comparaison de logiciels, knime2.4.2, orange 2.0b, r 2.13.2, rapidminer 5.1.011, sipina 3.7, tanagra 1.4.41, weka 3.7.4, windows 7 - 64 bits
Lien : Arbres de décision sur les très grandes bases (suite)
Partager cet article
Repost0
18 mai 2011 3 18 /05 /mai /2011 09:31
Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (cf. LIENS - Télécharger SIPINA). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression Linéaire Multiple et Règles d'Association) sont déjà intégrées dans TANAGRA qui est très largement diffusé.

Pourquoi en parler aujourd'hui alors ? Tout simplement parce que, concernant REGRESS en tous les cas, je me suis rendu compte en préparant le fascicule de cours consacré à la régression linéaire simple et multiple (Econométrie - Régression Linéaire Simple et Multiple), que le relatif manque de puissance du logiciel - par rapport à TANAGRA - est largement compensé par une grande facilité d'utilisation. Pour les utilisateurs qui souhaitent manipuler un outil simple, sans fioritures, REGRESS peut encore rendre de grands services.

REGRESS a été recompilé en introduisant deux améliorations : il peut s'intégrer dans le tableur Excel via une macro-complémentaire maintenant, la même que celle de SIPINA (SIPINA.XLA), cela accroît grandement sa facilité d'utilisation ; j'ai revérifié les formules pour qu'elles soient complètement cohérentes avec celles obtenues par tableur décrites dans mes fascicules de cours.

Mots clés : logiciel regress, économétrie, régression linéaire simple, régression linéaire multiple, points aberrants, points atypiques, points influents, normalité des résidus, test de Jarque-Bera, droite de Henry, normal probability plot, q-q plot, macro complémentaire, sipina.xla, add-in
Lien : REGRESS dans la distribution SIPINA
Partager cet article
Repost0