Action genmodScore : Scoring Modèles Linéaires (GLM)

Description

L'action genmodScore est l'outil de précision pour appliquer un modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting). de régression généralisé précédemment ajusté (sauvegardé via un item storeFichier binaire SAS stockant les résultats de procédures (modèles, sélections, scores) pour un usage ultérieur, permettant d'appliquer un modèle entraîné à de nouvelles données via PROC SCORE.) à de nouvelles données. C'est un peu comme si votre modèleReprésentation mathématique entraînée sur des données pour capturer des tendances, prédire des résultats ou classifier des observations via des algorithmes (Régression, Forêt aléatoire, Gradient Boosting)., après avoir passé ses examens avec l'action genmod, entrait enfin sur le marché du travail pour juger de nouveaux dossiers. Elle permet de générer non seulement des prédictions, mais aussi toute une panoplie de diagnostics (résidus, leviers, distances d'influence) pour vérifier que vos données ne jouent pas aux rebelles.

Syntaxe Officielle

                                regression.genmodScore / 

  alpha=double, 

  casOut={casouttable}, 

  cBar="string", 

  copyVars={"variable-name-1" <, "variable-name-2", ...>} | "ALL" | "ALL_NUMERIC", 

  difChisq="string", 

  difDev="string", 

  display={displayTables}, 

  fitData=TRUE | FALSE, 

  h="string", 

  into="string", 

  intoCutpt=double, 

  ipred="string", 

  lcl="string", 

  lclm="string", 

  level="string", 

  obscat=TRUE | FALSE, 

  outputTables={outputTables}, 

  pred="string", 

  resChi="string", 

  resDev="string", 

  resLik="string", 

  resRaw="string", 

  restore={castable}, 

  resWork="string", 

  role="string", 

  stdResChi="string", 

  stdResDev="string", 

  stdXBeta="string", 

  table={castable}, 

  ucl="string", 

  uclm="string", 

  xBeta="string";

Paramètres Clés

Nom du paramètre	Description
alpha	Spécifie le niveau de signification pour la construction des intervalles de confiance (0.05 par défaut).
casOut	Définit les paramètres de la table CAS de sortie qui contiendra les scores.
cBar	Nomme la variable contenant le déplacement de l'intervalle de confiance (mesure d'influence globale).
copyVars	Liste des variables de la table d'entrée à transférer directement dans la table de sortie.
difChisq	Nomme la variable pour le changement de la statistique du Chi-deux de Pearson (diagnostic d'influence).
difDev	Nomme la variable pour le changement de la déviance lors de la suppression de l'observation.
display	Définit les tables de résultats à afficher dans la sortie ODS.
fitData	À mettre sur TRUE si vous scorez les données qui ont servi à l'entraînement (influence les calculs de diagnostics).
h	Nomme la variable pour l'effet levier (hat diagonal) de l'observation.
into	Pour les modèles de classification, nomme la variable contenant le niveau de réponse prédit.
intoCutpt	Seuil de probabilité (entre 0 et 1) pour classer une observation dans l'événement (0.5 par défaut).
ipred	Nomme la valeur prédite individuelle pour les fonctions de lien cumulatif.
lcl	Borne inférieure de l'intervalle de confiance pour le prédicteur linéaire.
lclm	Borne inférieure de l'intervalle de confiance pour la moyenne prédite.
level	Nomme la variable contenant le niveau de réponse ordonné.
obscat	Calcule les statistiques au niveau de la catégorie réellement observée (pour les modèles multinomiaux).
outputTables	Permet de sauvegarder les tables de résultats affichées sous forme de tables CAS physiques.
pred	Nomme la variable de la valeur prédite (moyenne de la distribution).
resChi	Nomme la variable pour le résidu de Pearson.
resDev	Nomme la variable pour le résidu de déviance.
resLik	Nomme la variable pour le résidu de vraisemblance.
resRaw	Nomme la variable pour le résidu brut (Observé - Prédit).
restore	Paramètre CRITIQUE : spécifie la table BLOB contenant le modèle sauvegardé précédemment par l'action genmod.
resWork	Nomme la variable pour le résidu de travail.
role	Variable identifiant le rôle de l'observation (Train, Val, Test).
stdResChi	Nomme la variable pour le résidu de Pearson standardisé.
stdResDev	Nomme la variable pour le résidu de déviance standardisé.
stdXBeta	Nomme la variable pour l'erreur type du prédicteur linéaire.
table	Définit la table CAS d'entrée contenant les données à scorer.
ucl	Borne supérieure de l'intervalle de confiance pour le prédicteur linéaire.
uclm	Borne supérieure de l'intervalle de confiance pour la moyenne prédite.
xBeta	Nomme la variable pour le prédicteur linéaire (η = g(μ)).

Préparation des données

Préparation du modèle et des données

Nous créons un modèle de régression gamma sur les données Heart, le sauvegardons, puis préparons le scoring.

1	DATA mycas.heart; SET sashelp.heart; RUN;
2	PROC CAS;
3	regression.genmod /
4	TABLE={name="heart", where="AgeAtStart < 50"},
5	class={"Sex", "BP_Status"},
6	model={depVar="Cholesterol", effects={"Sex", "AgeAtStart", "BP_Status"}, dist="GAMMA", link="LOG"},
7	store={name="model_chol", replace=true};
8	RUN;

Exemples d'utilisation

Scoring basique

Application du modèle aux individus de plus de 50 ans avec récupération des prédictions standards.

1	PROC CAS; regression.genmodScore / TABLE={name="heart", where="AgeAtStart >= 50"}, restore={name="model_chol"}, casOut={name="scored_simple", replace=true}, copyVars={"Status", "AgeAtStart"}; RUN;

Résultat Attendu :

                                                    Une nouvelle table 'scored_simple' est créée avec les variables d'origine et la prédiction par défaut (_PRED_).                                                

Scoring complet avec diagnostics d'influence

Calcul de toutes les mesures de résidus et d'influence pour un audit approfondi du modèle.

1	PROC CAS; regression.genmodScore / TABLE={name="heart"}, restore={name="model_chol"}, casOut={name="scored_full", replace=true}, alpha=0.01, pred="Chol_Pred", resDev="Resid_Dev", resChi="Resid_Pearson", h="Levier", cBar="Influence_Globale", lclm="Conf_Inf", uclm="Conf_Sup", copyVars="ALL"; RUN;

Résultat Attendu :

                                                    Une table exhaustive 'scored_full' avec des intervalles de confiance à 99% et des métriques de diagnostic pour chaque ligne.