Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

30 octobre 2013 3 30 /10 /octobre /2013 16:06
Outre les arbres de décision qui restent quand même son véritable terrain de prédilection, le logiciel SIPINA intègre d’autres méthodes supervisées. Certes, les mêmes sont disponibles dans Tanagra (qui – lui - ne propose pas les arbres graphiques interactifs), elles y sont mieux mises en valeur, nous pouvons les enchaîner (ex. réaliser une régression sur facteurs de l’ACP), récupérer les résultats dans un tableur pour des calculs ultérieurs (ex. effectuer des calculs supplémentaires à partir des coefficients fournis par la régression logistique), etc. Dans les faits,  en mettant à part les arbres toujours, je me sers avant tout de SIPINA comme laboratoire d’idées pour l’optimisation des implémentations des algorithmes de data mining ces dernières années (dump des données sur le disque pour réduire l’occupation mémoire, échantillonnage, multithreading, …).

Dernièrement, je me suis intéressé à l’analyse discriminante prédictive, plus précisément à l’exploitation des threads pour tirer parti des capacités des machines multi-cœurs ou multiprocesseurs. Deux stratégies – décrites dans deux tutoriels –  ont été mises au point : la première, implémentée dans Sipina 3.10, est parcimonieuse en  mémoire, mais ses performances sont dépendantes des caractéristiques des données traitées et non de la machine utilisée (certains cœurs peuvent rester inactifs) ; la seconde, implémentée dans Sipina 3.11, s’adapte aux capacités de la machine utilisée, mais s’avère plus gourmande en mémoire (les matrices de calcul sont dupliquées autant de fois qu’il y a de threads lancés). Quoiqu’il en soit, une chose est sûre, sauf gestion calamiteuse de la synchronisation des calculs et de la manipulation des données, une stratégie multithread devrait toujours être plus rapide qu’une approche purement séquentielle.

Mots-clés : analyse discriminante linéaire, analyse discriminante prédictive, threads, multithreading, processeurs multi-coeurs, ordinateur multiprocesseur

Partager cet article

Repost 0

commentaires