Recently Published
Hierarchical Cluster Analysis with Dendrogram for Optimal Class Selection
This analysis applies hierarchical clustering to a simulated dataset of 50 observations with 5 variables using Ward's method and Euclidean distance, visualizes the results with a dendrogram, and extracts cluster assignments
Hierarchical Cluster Analysis with Dendrogram
L'analyse de clustering hiérarchique avec dendrogramme, présentée dans ce document, est une méthode statistique permettant de regrouper des observations similaires en clusters basés sur leurs caractéristiques. Elle commence par calculer une matrice de distances (euclidienne dans ce cas) entre les observations, après standardisation des données pour éliminer les biais d'échelle. La méthode de Ward.D2 est utilisée pour construire un dendrogramme en minimisant la variance intra-cluster à chaque étape de fusion. Le nombre optimal de clusters est déterminé à l'aide de l'algorithme NbClust, qui évalue des indices comme la silhouette et l'écart (gap statistic) pour identifier une partition robuste (ici, 3 clusters). Une analyse en composantes principales (ACP) est ensuite effectuée pour réduire la dimensionnalité, suivie d'une classification hiérarchique sur composantes principales (HCPC) pour affiner les résultats. Les visualisations, notamment via fviz_dend, permettent d'interpréter les regroupements, avec des rectangles colorés mettant en évidence les clusters dans le dendrogramme. Les résultats sont exportés sous forme de tableaux et de fichiers pour une analyse ultérieure.
The hierarchical clustering analysis with dendrogram, as presented in this document, is a statistical method designed to group similar observations into clusters based on their characteristics. It begins by computing a Euclidean distance matrix between observations after standardizing the data to eliminate scale biases. The Ward.D2 method is employed to construct a dendrogram by minimizing intra-cluster variance at each merging step. The optimal number of clusters is determined using the NbClust algorithm, which evaluates indices such as silhouette and gap statistics to identify a robust partition (here, 3 clusters). A principal component analysis (PCA) is then performed to reduce dimensionality, followed by hierarchical clustering on principal components (HCPC) to refine the results. Visualizations, particularly via fviz_dend, facilitate interpretation of the groupings, with colored rectangles highlighting clusters in the dendrogram. The results are exported as tables and files for further analysis.