Quelle stratégie algorithmique choisir pour l'affectation automatique des catégories documentaires ?

Lors de la compilation d'un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de catégorisation via l'option modelType paramétrée sur CATEGORY, vous avez le contrôle absolu sur le mécanisme de calcul du score de pertinence. Le paramètre scoringAlgorithm propose deux options métier :

  • L'algorithme FREQUENCY : Cette approche se base sur le décompte brut des occurrences des règles validées. Elle est redoutable d'efficacité pour des documents courts ou très standardisés.
  • L'algorithme WEIGHTED : Cette méthode pondérée est souvent privilégiée par les architectes de solutions Data sur des corpus hétérogènes. Elle permet de valoriser l'impact de certaines règles syntaxiques spécifiques, offrant ainsi une classification textuelle beaucoup plus fine et nuancée face à l'ambiguïté inhérente au langage naturel.

Exemples pour l'action exportTextModel

Exportation simple d'un modèle de concepts

Cet exemple transforme une table de concepts en un Astore prêt pour le déploiement.

Exportation avancée d'un modèle de catégories avec pondération

Ici, on exporte un modèle de catégories en spécifiant un algorithme de scoring pondéré et un format de sortie spécifique.

Exportation de modèle de Sentiment avec DataGrid

Utilisation du mode DATAGRID pour compacter les résultats du futur scoring dans une seule colonne par document.