Le choix dépend de vos données de validation. L'algorithme C4.5, piloté par le paramètre cfLev, ajuste l'agressivité de l'élagage en fonction d'un niveau de confiance statistique (par défaut à 0.25). À l'inverse, la méthode Reduced-Error (activée par reducedError) nécessite une table de test distincte définie dans le paramètre table. Cette dernière méthode crée une séquence de sous-arbres et sélectionne celui qui minimise l'erreur réelle sur les données de test, offrant souvent une robustesse supérieure dans les environnements Cloud Analytic ServicesMoteur d'exécution in-memory de SAS Viya. Il assure le traitement massivement parallèle (MPP) et distribué des données pour optimiser les performances analytiques et le passage à l'échelle. (CAS).
Quelle est la stratégie d'élagage la plus efficace entre C4.5 et Reduced-Error ?
Exemples pour l'action dtreePrune
Élagage par coût-complexité
Exemple simple montrant comment utiliser l'élagage par coût-complexité avec l'hyperparamètre `alpha`.
Élagage par erreur réduite avec extraction du score aStore
Cet exemple utilise une approche de validation par erreur réduite. Il évalue le modèle avec une table de validation (`table`), exige un nombre cible de feuilles (`nLeaf`), et sauvegarde le modèle optimisé au format %%aStore%% prêt à l'emploi !