Overblog Suivre ce blog
Editer la page Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

/ / /
SIPINA V2.5, baptisée " Version professionnelle ", est la version précédant la Version Recherche (actuelle). Elle implémente les algorithmes de graphes et arbres d'induction. SIPINA a été développé à l'origine pour sa thèse par D.A. ZIGHED dans le milieu des années 80. La version 2.0 a été réalisée par des étudiants du DESS SISE sous BORLAND PASCAL, puis sous DELPHI 1.0, pour implémenter l'algorithme SIPINA. Les principaux maîtres d'oeuvres ont été Renaud BAC et Lionel PONSARD. Je me suis greffé sur le projet à partir du printemps 1995 pour incorporer la discrétisation et la gestion des règles.

A partir de l'automne 1995, j'ai entièrement repris le projet pour ma thèse de doctorat. L'objectif était d'en faire un outil d'expérimentation et de recherche en intégrant plusieurs modules : les autres méthodes d'induction d'arbres de décision (ID3, C4.5, CHAID, etc.), la simplification des règles, l'évaluation des classifieurs (validation croisée, bootstrap, etc.)... Cette version de SIPINA est très intéressante à plus d'un titre : étant distribuée sur internet, à une époque où les logiciels de recherche en DATA MINING en mode graphique étaient encore rares, il a connu un très grand nombre de téléchargements. Il est de ce fait très bien connu des chercheurs. Cela a grandement contribué à la popularisation des travaux du laboratoire ERIC.

Cette version présentait en revanche des défauts structurels. Programmée en 16 bits et utilisant des DLL commerciales (WINSYS de Turbo Power), il était quasiment impossible de la passer en 32 bits (à partir de DELPHI 2). De plus, les structures de données étaient essentiellement tournées vers la construction des graphes d'induction, le passage vers d'autres méthodes d'apprentissage se révélait problématique.

Autre défaut franchement rédhibitoire, la gestion des données était plombée par l'héritage du format antérieur des données. La phase de préparation imposait l'élaboration de deux fichiers distincts : " .par " correspond au dictionnaire des données, " .dat " aux valeurs observées. Pendant très longtemps, les questions des internautes (90%) tournaient essentiellement autour de l'importation des données, comment les préparer, est-ce qu'il est possible d'importer des données en provenance d'un tableur, etc.

Un effort a été fait lors de l'intégration de Data Manager, développée par Valérie GOYET, à l'été 1996. Un outil externe, sous forme d'un tableur gérant les formats XLS (jusqu'à Excel 5.0) permettait de générer facilement les fichiers attendus par SIPINA, les fameux " .dat " et " .par ". Malgré des multiples essais, il n'a pas été possible d'intégrer Data Manager directement dans SIPINA, les structures étaient incompatibles. Finalement, Data Manager, du moins sous cette forme, aura été peu utilisé, les utilisateurs ne comprenant pas qu'il faille lancer tout d'abord un programme externe pour préparer les données, avant de lancer SIPINA lui même. Bref, il était temps de tout remettre à plat et passer à la version suivante de SIPINA, début 1997…

Accès au logiciel : Sipina Pro
Documentation : Manuel de l'utilisateur

Partager cette page

Repost 0
Published by