SAS Viya : Maîtriser l'action countregFitModel | Guide Technique

Description

L'action countregFitModel est le couteau suisse de SAS EconometricsSolution SAS Viya dédiée à la modélisation de séries temporelles complexes, l'analyse de données de panel et l'économétrie spatiale, optimisée pour le traitement distribué en mémoire (CAS). pour l'analyse des données de comptage. Si vous essayez de prédire combien de fois un événement se produit (comme le nombre de visites chez le médecin ou le nombre de fois que votre chat ignore ses nouveaux jouets), c'est l'outil idéal. Elle supporte une variété impressionnante de distributions : PoissonLoi de probabilité discrète modélisant le nombre d'événements indépendants survenant dans un intervalle fixe (temps/espace), définie par un paramètre de moyenne égal à la variance., Binomiale NégativeLoi discrète modélisant le nombre de succès avant un nombre fixe d'échecs. Elle traite la sur-dispersion en permettant à la variance d'être supérieure à la moyenne, contrairement à la loi de Poisson. (types 1 et 2), et même la distribution Conway-MaxwellLa distribution de Conway-Maxwell-Poisson (CMP) généralise la loi de Poisson en ajoutant un paramètre de dispersion pour modéliser des données avec sous-dispersion ou sur-dispersion statistique.-PoissonLoi de probabilité discrète modélisant le nombre d'événements indépendants survenant dans un intervalle fixe (temps/espace), définie par un paramètre de moyenne égal à la variance. pour les cas où la varianceMesure statistique de la dispersion des données indiquant l'écart carré moyen par rapport à la moyenne. Une variance élevée traduit une grande hétérogénéité des observations autour du centre. fait sa rebelle (sous-dispersion ou sur-dispersion). Elle gère aussi l'inflation de zéros, parce que parfois, 'zéro' est une catégorie à part entière, et la sélection de variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage. pour les indécis.

Syntaxe Officielle

                                proc cas;

	countreg.countregFitModel /

		table={name="nom_table", caslib="nom_caslib"},

		model={depVars={{name="variable_reponse"}}, effects={{vars={"var1", "var2"}}}, modelOptions={modeltype="POISSON"}},

		selection={method="STEPWISE"},

		output={casOut={name="table_scores", replace=true}, pred="predit"};

run;

Paramètres Clés

Nom du paramètre	Description
table	Indique la table de données d'entrée chargée en mémoire CAS .
model	Le cœur du réacteur : définit la variable cible (count), les variables explicatives et le type de modèle (Poisson, Negbin, etc.).
selection	Permet de choisir une méthode de sélection de variables comme 'FORWARD', 'BACKWARD' ou 'LASSO' pour élaguer les variables inutiles.
bayes	Active l'analyse Bayésienne via MCMC (Monte Carlo Markov Chain) pour ceux qui préfèrent les distributions de probabilité aux estimations ponctuelles.
zeromodel	Spécifie les régresseurs pour la partie 'inflation de zéros' du modèle (ZIP, ZINB).
dispmodel	Définit les variables modélisant la dispersion, spécifiquement pour les modèles Conway-Maxwell-Poisson.
output	Paramètres pour la création d'une table CAS de sortie contenant les prédictions et statistiques par observation.

Préparation des données

Génération de données de comptage fictives

Création d'un jeu de données simulant le nombre d'appels reçus par un centre de support.

1	DATA mycas.support_calls;
2	call streaminit(123);
3	DO i = 1 to 1000;
4	experience = rand('Uniform') * 10;
5	training = (rand('Uniform') > 0.5);
6	lambda = exp(1.5 - 0.1experience + 0.5training);
7	n_calls = rand('Poisson', lambda);
8	OUTPUT;
9	END;
10	RUN;

Exemples d'utilisation

Régression de Poisson basique

Une estimation simple pour comprendre l'impact de l'expérience sur le nombre d'appels.

1	PROC CAS;
2	countreg.countregFitModel /
3	TABLE={name="support_calls"},
4	model={depVars={{name="n_calls"}}, effects={{vars={"experience", "training"}}}, modelOptions={modeltype="POISSON"}};
5	RUN;

Résultat Attendu :

                                                    Un tableau récapitulatif des estimations de paramètres (Maximum Likelihood Estimates).                                                

Modèle Binomial Négatif avec Sélection Stepwise

Utilisation de la sélection pas à pas pour trouver le meilleur modèle tout en gérant la sur-dispersion potentielle.

1	PROC CAS;
2	countreg.countregFitModel /
3	TABLE={name="support_calls"},
4	model={depVars={{name="n_calls"}}, effects={{vars={"experience", "training"}}}, modelOptions={modeltype="NEGBIN2", corrb=true}},
5	selection={method="STEPWISE", select="AIC", stop="AIC"},
6	OUTPUT={casOut={name="calls_scored", replace=true}, pred="expected_calls", prob="prob_actual"};
7	RUN;

Résultat Attendu :

                                                    Historique de sélection des variables et table de sortie calls_scored avec prédictions.                                                

Analyse Bayésienne (MCMC)

Parce que parfois, on veut voir la 'vraie' forme de l'incertitude avec 10 000 échantillons.

1	PROC CAS;
2	countreg.countregFitModel /
3	TABLE={name="support_calls"},
4	model={depVars={{name="n_calls"}}, effects={{vars={"experience"}}}},
5	bayes={nsample=10000, nburnin=2000, seed=42, diagnostics={summaries=true, autocorr=true}};
6	RUN;

Résultat Attendu :

                                                    Statistiques postérieures (moyenne, écart-type, intervalles de crédibilité) et diagnostics de convergence.