Comment choisir la métrique de distance idéale pour capturer la similarité parfaite entre vos observations ?

L'action permet de configurer la mesure de proximité via distanceMetric selon trois axes :

  • L2 (Euclidienne) : C'est la distance géométrique classique. Utilisez-la pour des variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. numériques standards où l'amplitude physique entre les valeurs est l'indicateur principal de différence.
  • COSINE (Cosinus) : Elle mesure l'angle entre deux vecteurs. C'est la métrique reine pour le traitement du langage naturel (NLPTraitement automatique du langage naturel visant à permettre aux machines de comprendre, d'interpréter et de générer du texte ou de la parole de manière cohérente et structurée.) ou l'analyse de documents, car elle se concentre sur l'orientation (le contenu) plutôt que sur la magnitude (la longueur du texte).
  • IP (Inner Product) : Le produit scalaire est souvent utilisé dans les architectures de Deep LearningSous-ensemble du Machine Learning basé sur des réseaux de neurones artificiels profonds. Il excelle dans l'extraction automatique de motifs complexes depuis des données brutes (images, texte, son). pour comparer des vecteurs d'embeddings et maximiser la corrélation.

Exemples pour l'action fastknn

Recherche exacte de base

Trouver les 3 voisins les plus proches de manière exacte pour chaque point de la table 'requete' en utilisant les points de 'reference'.

Recherche approximative haute performance avec distances

Utilise la méthode approximative (HNSW) pour aller plus vite que la lumière, calcule les distances cosinus, et sauvegarde les distances dans une table séparée.

Imputation de valeurs manquantes par k-NN

Cette option permet de nettoyer vos données en remplaçant les trous par la 'sagesse du voisinage'.