La performance repose sur une étape de prétraitement intelligente. Par défaut, l'action effectue un thresholding (seuillage) de la matrice de covariance pour identifier des composants connectés. Si le réseau est divisible, gvarcluster traite chaque bloc indépendamment. Cette approche de diviser pour régner sur les données permet de paralléliser massivement les calculs sur les nœuds du clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. SAS Viya, réduisant radicalement le temps de traitement par rapport à une approche globale unique.
Comment l'action gvarcluster parvient-elle à traiter des données massives aussi rapidement ?
Exemples pour l'action gvarcluster
Exemple simple de clustering de variables
Un premier essai pour regrouper nos variables continues avec les paramètres par défaut. Simple, basique, efficace.
Clustering avancé avec gestion des graphes (arêtes et sommets)
Ici on sort l'artillerie lourde : on inclut notre variable nominale 'cat', on désactive l'approximation avec 'exact=true', on modifie la pénalité 'rho', et on prépare les tables réseaux (nœuds et arêtes). L'astuce du chef pour préparer une belle visualisation réseau !