Ludovic Deruffe - Projet SAS

Page d'accueil

Espace Pro

Mon CV

8. Conclusion :

Les différentes classifications hiérarchiques nous ont appris que quatre principales classes ressortaient de l’étude de ses données. En effet, quelque soit la distance utiliser, il en ressort soit quatre classes avec à peu près le même nombre de comtés, soit plus de quatre classes, mais avec plein de sous-groupes qui ne comportent que très peu d’éléments (pas plus de deux). Si bien qu’on a toujours quatre principales classes.

Nous avons vu que ce qui différenciait les méthodes était les distances choisies. Ainsi, selon la distance choisit, la classification va intégrer des comtés avec des valeurs « aberrante » dans de classes ou bien les isoler.

On a donc des classifications qui englobent les valeurs « aberrante » et des autres qui les isolent, car souvent, ces valeurs « aberrante » sont uniques dans ses sous-groupes.

L’avantage des classifications avec les distances ou l’on obtient seulement quatre classes (on peut garder la méthode Average ou il y a cinq classes mais ou une classe est composé du seul comté de Highland) est qu’avec peu de classes on va englober toutes les valeurs, même les valeurs extrêmes. Par contre cela peu se faire au détriment de la variance intra classe et de la variance inter classe.

Lorsque l’on obtient, plus de quatre classes, il va nous falloir plus de classes pour englober toutes les valeurs, mais dans ces cas la variance intra classe va diminuer et la variance interclasse va augmenter. Les groupes seront mieux « séparer »

Le fait de repeter plusieurs fois de suite l’algorithme k-means ne va pas changer grand chose si l’on a choisit au préalable les centres initiaux grâce aux classifications hiérarchiques, par contre, ça va améliorer les résultats si l’on a pas choisit les centre initiaux. On retiendra ici qu’il est préférable de choisir les centres initiaux et de répéter la méthode k-means pas plus de trois, car après les données n’évoluent plus.

En fait, on pourra proposer deux classifications différentes, selon que l’on privilégie la variance ou bien le nombre de classes.

Pour le nombre de classes, on pourra prendre la classification se servant des distances Complete ou Ward. On peu aussi prendre la distance Average qui met à part seulement le comté Highland.

Si on privilégie la variance, on choisira la classification trouvée en se servant de la distance Single car c’est celle qui a la variance intra classe la moins élevé.