genmodScore
Description
L'action genmodScore est l'outil de précision pour appliquer un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de régression généralisé précédemment ajusté (sauvegardé via un item storeFichier binaire SAS stockant les résultats de procédures (modèles, sélections, scores) pour un usage ultérieur, permettant d'appliquer un modèle entraîné à de nouvelles données via PROC SCORE.) à de nouvelles données. C'est un peu comme si votre modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)., après avoir passé ses examens avec l'action genmod, entrait enfin sur le marché du travail pour juger de nouveaux dossiers. Elle permet de générer non seulement des prédictions, mais aussi toute une panoplie de diagnostics (résidus, leviers, distances d'influence) pour vérifier que vos données ne jouent pas aux rebelles.
Paramètres Clés
| Nom du paramètre | Description |
|---|---|
| alpha | Spécifie le niveau de signification pour la construction des intervalles de confiance (0.05 par défaut). |
| casOut | Définit les paramètres de la table CAS de sortie qui contiendra les scores. |
| cBar | Nomme la variable contenant le déplacement de l'intervalle de confiance (mesure d'influence globale). |
| copyVars | Liste des variables de la table d'entrée à transférer directement dans la table de sortie. |
| difChisq | Nomme la variable pour le changement de la statistique du Chi-deux de Pearson (diagnostic d'influence). |
| difDev | Nomme la variable pour le changement de la déviance lors de la suppression de l'observation. |
| display | Définit les tables de résultats à afficher dans la sortie ODS. |
| fitData | À mettre sur TRUE si vous scorez les données qui ont servi à l'entraînement (influence les calculs de diagnostics). |
| h | Nomme la variable pour l'effet levier (hat diagonal) de l'observation. |
| into | Pour les modèles de classification, nomme la variable contenant le niveau de réponse prédit. |
| intoCutpt | Seuil de probabilité (entre 0 et 1) pour classer une observation dans l'événement (0.5 par défaut). |
| ipred | Nomme la valeur prédite individuelle pour les fonctions de lien cumulatif. |
| lcl | Borne inférieure de l'intervalle de confiance pour le prédicteur linéaire. |
| lclm | Borne inférieure de l'intervalle de confiance pour la moyenne prédite. |
| level | Nomme la variable contenant le niveau de réponse ordonné. |
| obscat | Calcule les statistiques au niveau de la catégorie réellement observée (pour les modèles multinomiaux). |
| outputTables | Permet de sauvegarder les tables de résultats affichées sous forme de tables CAS physiques. |
| pred | Nomme la variable de la valeur prédite (moyenne de la distribution). |
| resChi | Nomme la variable pour le résidu de Pearson. |
| resDev | Nomme la variable pour le résidu de déviance. |
| resLik | Nomme la variable pour le résidu de vraisemblance. |
| resRaw | Nomme la variable pour le résidu brut (Observé - Prédit). |
| restore | Paramètre CRITIQUE : spécifie la table BLOB contenant le modèle sauvegardé précédemment par l'action genmod. |
| resWork | Nomme la variable pour le résidu de travail. |
| role | Variable identifiant le rôle de l'observation (Train, Val, Test). |
| stdResChi | Nomme la variable pour le résidu de Pearson standardisé. |
| stdResDev | Nomme la variable pour le résidu de déviance standardisé. |
| stdXBeta | Nomme la variable pour l'erreur type du prédicteur linéaire. |
| table | Définit la table CAS d'entrée contenant les données à scorer. |
| ucl | Borne supérieure de l'intervalle de confiance pour le prédicteur linéaire. |
| uclm | Borne supérieure de l'intervalle de confiance pour la moyenne prédite. |
| xBeta | Nomme la variable pour le prédicteur linéaire (η = g(μ)). |
Préparation des données
Préparation du modèle et des données
Nous créons un modèle de régression gamma sur les données Heart, le sauvegardons, puis préparons le scoring.
| 1 | DATA mycas.heart; SET sashelp.heart; RUN; |
| 2 | PROC CAS; |
| 3 | regression.genmod / |
| 4 | TABLE={name="heart", where="AgeAtStart < 50"}, |
| 5 | class={"Sex", "BP_Status"}, |
| 6 | model={depVar="Cholesterol", effects={"Sex", "AgeAtStart", "BP_Status"}, dist="GAMMA", link="LOG"}, |
| 7 | store={name="model_chol", replace=true}; |
| 8 | RUN; |
Exemples d'utilisation
Scoring basique
Application du modèle aux individus de plus de 50 ans avec récupération des prédictions standards.
| 1 | PROC CAS; regression.genmodScore / TABLE={name="heart", where="AgeAtStart >= 50"}, restore={name="model_chol"}, casOut={name="scored_simple", replace=true}, copyVars={"Status", "AgeAtStart"}; RUN; |
Résultat Attendu :
Scoring complet avec diagnostics d'influence
Calcul de toutes les mesures de résidus et d'influence pour un audit approfondi du modèle.
| 1 | PROC CAS; regression.genmodScore / TABLE={name="heart"}, restore={name="model_chol"}, casOut={name="scored_full", replace=true}, alpha=0.01, pred="Chol_Pred", resDev="Resid_Dev", resChi="Resid_Pearson", h="Levier", cBar="Influence_Globale", lclm="Conf_Inf", uclm="Conf_Sup", copyVars="ALL"; RUN; |