Quelle stratégie algorithmique choisir pour l'affectation automatique des catégories documentaires ?

Question

Nicolas Housset · Accepted Answer

Lors de la compilation d'un modèle de catégorisation via l'option modelType paramétrée sur CATEGORY, vous avez le contrôle absolu sur le mécanisme de calcul du score de pertinence. Le paramètre scoringAlgorithm propose deux options métier :L'algorithme FREQUENCY : Cette approche se base sur le décompte brut des occurrences des règles validées. Elle est redoutable d'efficacité pour des documents courts ou très standardisés.L'algorithme WEIGHTED : Cette méthode pondérée est souvent privilégiée par les architectes de solutions Data sur des corpus hétérogènes. Elle permet de valoriser l'impact de certaines règles syntaxiques spécifiques, offrant ainsi une classification textuelle beaucoup plus fine et nuancée face à l'ambiguïté inhérente au langage naturel.

Quelle stratégie algorithmique choisir pour l'affectation automatique des catégories documentaires ?

Exemples pour l'action exportTextModel

Exportation simple d'un modèle de concepts

Exportation avancée d'un modèle de catégories avec pondération

Exportation de modèle de Sentiment avec DataGrid

Action CAS associée

À lire aussi...