8. Conclusion :
Les différentes classifications hiérarchiques nous ont appris que quatre
principales classes ressortaient de l’étude de ses données. En effet, quelque
soit la distance utiliser, il en ressort soit quatre classes avec à peu près le
même nombre de comtés, soit plus de quatre classes, mais avec plein de
sous-groupes qui ne comportent que très peu d’éléments (pas plus de deux). Si
bien qu’on a toujours quatre principales classes.
Nous avons vu que ce qui différenciait les méthodes était les distances
choisies. Ainsi, selon la distance choisit, la classification va intégrer des
comtés avec des valeurs « aberrante » dans de classes ou bien les isoler.
On a donc des classifications qui englobent les valeurs « aberrante » et des
autres qui les isolent, car souvent, ces valeurs « aberrante » sont uniques dans
ses sous-groupes.
L’avantage des classifications avec les distances ou l’on obtient seulement
quatre classes (on peut garder la méthode Average ou il y a cinq classes mais ou
une classe est composé du seul comté de Highland) est qu’avec peu de classes on
va englober toutes les valeurs, même les valeurs extrêmes. Par contre cela peu
se faire au détriment de la variance intra classe et de la variance inter
classe.
Lorsque l’on obtient, plus de quatre classes, il va nous falloir plus de classes
pour englober toutes les valeurs, mais dans ces cas la variance intra classe va
diminuer et la variance interclasse va augmenter. Les groupes seront mieux «
séparer »
Le fait de repeter plusieurs fois de suite l’algorithme k-means ne va pas
changer grand chose si l’on a choisit au préalable les centres initiaux grâce
aux classifications hiérarchiques, par contre, ça va améliorer les résultats si
l’on a pas choisit les centre initiaux. On retiendra ici qu’il est préférable de
choisir les centres initiaux et de répéter la méthode k-means pas plus de trois,
car après les données n’évoluent plus.
En fait, on pourra proposer deux classifications différentes, selon que l’on
privilégie la variance ou bien le nombre de classes.
Pour le nombre de classes, on pourra prendre la classification se servant des
distances Complete ou Ward. On peu aussi prendre la distance Average qui met à
part seulement le comté Highland.
Si on privilégie la variance, on choisira la classification trouvée en se
servant de la distance Single car c’est celle qui a la variance intra classe la
moins élevé.
|