regression

genmodScore

##set_regression

Description

L'action genmodScore est l'outil de précision pour appliquer un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de régression généralisé précédemment ajusté (sauvegardé via un item storeFichier binaire SAS stockant les résultats de procédures (modèles, sélections, scores) pour un usage ultérieur, permettant d'appliquer un modèle entraîné à de nouvelles données via PROC SCORE.) à de nouvelles données. C'est un peu comme si votre modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)., après avoir passé ses examens avec l'action genmod, entrait enfin sur le marché du travail pour juger de nouveaux dossiers. Elle permet de générer non seulement des prédictions, mais aussi toute une panoplie de diagnostics (résidus, leviers, distances d'influence) pour vérifier que vos données ne jouent pas aux rebelles.

Syntaxe Officielle
regression.genmodScore /
alpha=double,
casOut={casouttable},
cBar="string",
copyVars={"variable-name-1" <, "variable-name-2", ...>} | "ALL" | "ALL_NUMERIC",
difChisq="string",
difDev="string",
display={displayTables},
fitData=TRUE | FALSE,
h="string",
into="string",
intoCutpt=double,
ipred="string",
lcl="string",
lclm="string",
level="string",
obscat=TRUE | FALSE,
outputTables={outputTables},
pred="string",
resChi="string",
resDev="string",
resLik="string",
resRaw="string",
restore={castable},
resWork="string",
role="string",
stdResChi="string",
stdResDev="string",
stdXBeta="string",
table={castable},
ucl="string",
uclm="string",
xBeta="string";

Paramètres Clés

Nom du paramètre Description
alpha Spécifie le niveau de signification pour la construction des intervalles de confiance (0.05 par défaut).
casOut Définit les paramètres de la table CAS de sortie qui contiendra les scores.
cBar Nomme la variable contenant le déplacement de l'intervalle de confiance (mesure d'influence globale).
copyVars Liste des variables de la table d'entrée à transférer directement dans la table de sortie.
difChisq Nomme la variable pour le changement de la statistique du Chi-deux de Pearson (diagnostic d'influence).
difDev Nomme la variable pour le changement de la déviance lors de la suppression de l'observation.
display Définit les tables de résultats à afficher dans la sortie ODS.
fitData À mettre sur TRUE si vous scorez les données qui ont servi à l'entraînement (influence les calculs de diagnostics).
h Nomme la variable pour l'effet levier (hat diagonal) de l'observation.
into Pour les modèles de classification, nomme la variable contenant le niveau de réponse prédit.
intoCutpt Seuil de probabilité (entre 0 et 1) pour classer une observation dans l'événement (0.5 par défaut).
ipred Nomme la valeur prédite individuelle pour les fonctions de lien cumulatif.
lcl Borne inférieure de l'intervalle de confiance pour le prédicteur linéaire.
lclm Borne inférieure de l'intervalle de confiance pour la moyenne prédite.
level Nomme la variable contenant le niveau de réponse ordonné.
obscat Calcule les statistiques au niveau de la catégorie réellement observée (pour les modèles multinomiaux).
outputTables Permet de sauvegarder les tables de résultats affichées sous forme de tables CAS physiques.
pred Nomme la variable de la valeur prédite (moyenne de la distribution).
resChi Nomme la variable pour le résidu de Pearson.
resDev Nomme la variable pour le résidu de déviance.
resLik Nomme la variable pour le résidu de vraisemblance.
resRaw Nomme la variable pour le résidu brut (Observé - Prédit).
restore Paramètre CRITIQUE : spécifie la table BLOB contenant le modèle sauvegardé précédemment par l'action genmod.
resWork Nomme la variable pour le résidu de travail.
role Variable identifiant le rôle de l'observation (Train, Val, Test).
stdResChi Nomme la variable pour le résidu de Pearson standardisé.
stdResDev Nomme la variable pour le résidu de déviance standardisé.
stdXBeta Nomme la variable pour l'erreur type du prédicteur linéaire.
table Définit la table CAS d'entrée contenant les données à scorer.
ucl Borne supérieure de l'intervalle de confiance pour le prédicteur linéaire.
uclm Borne supérieure de l'intervalle de confiance pour la moyenne prédite.
xBeta Nomme la variable pour le prédicteur linéaire (η = g(μ)).

Préparation des données

Préparation du modèle et des données

Nous créons un modèle de régression gamma sur les données Heart, le sauvegardons, puis préparons le scoring.

1DATA mycas.heart; SET sashelp.heart; RUN;
2PROC CAS;
3 regression.genmod /
4 TABLE={name="heart", where="AgeAtStart < 50"},
5 class={"Sex", "BP_Status"},
6 model={depVar="Cholesterol", effects={"Sex", "AgeAtStart", "BP_Status"}, dist="GAMMA", link="LOG"},
7 store={name="model_chol", replace=true};
8RUN;

Exemples d'utilisation

Scoring basique

Application du modèle aux individus de plus de 50 ans avec récupération des prédictions standards.

1PROC CAS; regression.genmodScore / TABLE={name="heart", where="AgeAtStart >= 50"}, restore={name="model_chol"}, casOut={name="scored_simple", replace=true}, copyVars={"Status", "AgeAtStart"}; RUN;
Résultat Attendu :
Une nouvelle table 'scored_simple' est créée avec les variables d'origine et la prédiction par défaut (_PRED_).
Scoring complet avec diagnostics d'influence

Calcul de toutes les mesures de résidus et d'influence pour un audit approfondi du modèle.

1PROC CAS; regression.genmodScore / TABLE={name="heart"}, restore={name="model_chol"}, casOut={name="scored_full", replace=true}, alpha=0.01, pred="Chol_Pred", resDev="Resid_Dev", resChi="Resid_Pearson", h="Levier", cBar="Influence_Globale", lclm="Conf_Inf", uclm="Conf_Sup", copyVars="ALL"; RUN;
Résultat Attendu :
Une table exhaustive 'scored_full' avec des intervalles de confiance à 99% et des métriques de diagnostic pour chaque ligne.