Overblog
Suivre ce blog Administration + Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

12 octobre 2008 7 12 /10 /octobre /2008 07:11
Dans ce document, nous comparons les performances de SIPINA avec celles de plusieurs implémentations libres lors du traitement d’un fichier de taille relativement importante, avec 500.000 observations et 22 variables. Nous avons utilisé la méthode C4.5 (Quinlan, 1993). La taille de l’arbre qui résulte des calculs est considérable, avec 233 noeuds. Nos principaux critères de comparaison sont le temps de calcul et l’occupation mémoire.

Par rapport aux autres logiciels, SIPINA est désavantagé par le fait qu’il propose des fonctionnalités interactives. Nous l’avons maintes fois répété, ces fonctionnalités constituent en grande partie le véritable intérêt des arbres par rapport aux autres méthodes de data mining. C’est donc un avantage indéniable dans l’absolu. Mais, lors du traitement de gros volumes, cela peut constituer un inconvénient.

En effet, SIPINA s’astreint à conserver un nombre considérable d’informations sur chaque nœud de l’arbre : la liste des segmentations candidates ; les valeurs des critères et les distributions associées ; les statistiques descriptives destinées à caractériser le sous-groupe d’individus (moyenne ou distribution de fréquences comparatives) ; et même la liste des observations, nécessaire lorsque l’utilisateur souhaite les visualiser ou réaliser des traitements spécifiques. Tout cela ne pénalise pas le temps de calcul, l’occupation mémoire par contre s’en ressent forcément.

Au final, il apparaît que SIPINA s’en sort plutôt bien. Principalement parce qu’étant compilé, il ne nécessite pas le lancement de tout un environnement nécessaire à son bon fonctionnement. Son occupation mémoire est comparable à ceux des autres outils, qui eux, ne proposent pas de fonctionnalités interactives.

Mots clés : comparaison de logiciels, logiciels libres, C4.5, grandes bases de données
Lien : Traitement de gros volumes - Comparaison de logiciels
Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 10:33
Les capacités de SIPINA sont de 16384 variables et, approximativement, de 500.000.000 observations. Ces indications sont purement théoriques. En effet, comme le logiciel charge toutes les données en mémoire centrale, sous une forme encodée certes, la véritable limitation est la mémoire vive disponible sur votre ordinateur.

Autre aspect important, SIPINA est capable de gérer les variables discrètes comportant 16384 modalités. Il ne distingue pas les variables nominales des variables ordinales.

Enfin, lors de l'importation des données, il est possible d'indiquer au logiciel que la première colonne contient les libellés des observations. Leur longueur maximale est de 25 caractères. Cette colonne ne peut évidemment pas être introduite dans une analyse. Elle permet en revanche de distinguer les individus dans les tableaux de données intermédiaires, par exemple lorsqu'on cherche à connaître la liste des observations associées à un des nœuds d'un arbre de décision.

Partager cet article
Repost0