12 octobre 2008
7
12
/10
/octobre
/2008
07:11
Dans ce document, nous comparons les performances de SIPINA avec celles de plusieurs implémentations libres lors du traitement d’un fichier de taille relativement importante, avec 500.000 observations et 22 variables. Nous avons utilisé la méthode C4.5 (Quinlan, 1993). La taille de l’arbre qui résulte des calculs est considérable, avec 233 noeuds. Nos principaux critères de comparaison sont le temps de calcul et l’occupation mémoire.
Par rapport aux autres logiciels, SIPINA est désavantagé par le fait qu’il propose des fonctionnalités interactives. Nous l’avons maintes fois répété, ces fonctionnalités constituent en grande partie le véritable intérêt des arbres par rapport aux autres méthodes de data mining. C’est donc un avantage indéniable dans l’absolu. Mais, lors du traitement de gros volumes, cela peut constituer un inconvénient.
En effet, SIPINA s’astreint à conserver un nombre considérable d’informations sur chaque nœud de l’arbre : la liste des segmentations candidates ; les valeurs des critères et les distributions associées ; les statistiques descriptives destinées à caractériser le sous-groupe d’individus (moyenne ou distribution de fréquences comparatives) ; et même la liste des observations, nécessaire lorsque l’utilisateur souhaite les visualiser ou réaliser des traitements spécifiques. Tout cela ne pénalise pas le temps de calcul, l’occupation mémoire par contre s’en ressent forcément.
Au final, il apparaît que SIPINA s’en sort plutôt bien. Principalement parce qu’étant compilé, il ne nécessite pas le lancement de tout un environnement nécessaire à son bon fonctionnement. Son occupation mémoire est comparable à ceux des autres outils, qui eux, ne proposent pas de fonctionnalités interactives.
Mots clés : comparaison de logiciels, logiciels libres, C4.5, grandes bases de données
Lien : Traitement de gros volumes - Comparaison de logiciels
Par rapport aux autres logiciels, SIPINA est désavantagé par le fait qu’il propose des fonctionnalités interactives. Nous l’avons maintes fois répété, ces fonctionnalités constituent en grande partie le véritable intérêt des arbres par rapport aux autres méthodes de data mining. C’est donc un avantage indéniable dans l’absolu. Mais, lors du traitement de gros volumes, cela peut constituer un inconvénient.
En effet, SIPINA s’astreint à conserver un nombre considérable d’informations sur chaque nœud de l’arbre : la liste des segmentations candidates ; les valeurs des critères et les distributions associées ; les statistiques descriptives destinées à caractériser le sous-groupe d’individus (moyenne ou distribution de fréquences comparatives) ; et même la liste des observations, nécessaire lorsque l’utilisateur souhaite les visualiser ou réaliser des traitements spécifiques. Tout cela ne pénalise pas le temps de calcul, l’occupation mémoire par contre s’en ressent forcément.
Au final, il apparaît que SIPINA s’en sort plutôt bien. Principalement parce qu’étant compilé, il ne nécessite pas le lancement de tout un environnement nécessaire à son bon fonctionnement. Son occupation mémoire est comparable à ceux des autres outils, qui eux, ne proposent pas de fonctionnalités interactives.
Mots clés : comparaison de logiciels, logiciels libres, C4.5, grandes bases de données
Lien : Traitement de gros volumes - Comparaison de logiciels