percentile

boxPlot

##set_percentile

Description

L'action boxPlot du set d'actions Percentile calcule les statistiques nécessaires pour générer des diagrammes en boîteGraphique résumant la distribution d'une variable : médiane (ligne), quartiles (boîte), moustaches (étendue) et valeurs aberrantes. Idéal pour comparer la dispersion et la symétrie des données. (box plotsGraphique résumant la distribution d'une variable : médiane (ligne), quartiles (boîte), moustaches (étendue) et valeurs aberrantes. Idéal pour comparer la dispersion et la symétrie des données.), notamment les quantilesLes quantiles sont des valeurs divisant un jeu de données trié en intervalles égaux. Ils permettent d'analyser la distribution et la dispersion des données (ex: quartiles pour des segments de 25%)., les moustaches hautes et basses, ainsi que les valeurs aberrantesObservations s'écartant significativement du reste des données. Elles peuvent résulter d'erreurs de mesure ou de phénomènes rares et influencent fortement les statistiques (moyenne, variance). (outliersValeur atypique s'écartant significativement des autres observations d'un jeu de données. Elle peut signaler une erreur de saisie ou un phénomène rare nécessitant une analyse statistique dédiée.) . C'est l'outil idéal pour inspecter la distribution de vos données et repérer les valeurs qui essaient de s'échapper du troupeau avec un peu trop d'enthousiasme.

Syntaxe Officielle
percentile.boxPlot /
attributes={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}
binNum=64-bit-integer
casOut={caslib="string", compress=TRUE|FALSE, indexVars={"variable-name"}, label="string", name="table-name", promote=TRUE|FALSE, replace=TRUE|FALSE}
freq="variable-name"
groupByLimit=64-bit-integer
includeMissingGroup=TRUE|FALSE
inputs={{format="string", name="variable-name"}, {...}}
method="EXACT"|"ITERATIVE"
nOutBins=integer
nOutLimit=integer
outliers=TRUE|FALSE
partition=TRUE|FALSE
partKey={"string"}
pctlDef=1|2|3|4|5|6
table={caslib="string", name="table-name", where="where-expression"}
whiskerPercentile=double;

Paramètres Clés

Nom du paramètre Description
table Spécifie la table d'entrée chargée en mémoire CAS .
inputs Liste des variables numériques à analyser pour le calcul des statistiques de boîte à moustaches.
casOut Spécifie les paramètres de la table de sortie pour stocker les résultats calculés.
method Définit l'algorithme : 'EXACT' pour un calcul précis (plus gourmand) ou 'ITERATIVE' (par défaut) pour une estimation rapide sur de gros volumes .
outliers Booléen indiquant s'il faut identifier et retourner les valeurs aberrantes situées au-delà des moustaches.
pctlDef Spécifie l'une des 6 définitions mathématiques pour le calcul des percentiles (similaire à PROC UNIVARIATE).
whiskerPercentile Spécifie le percentile pour définir les moustaches. Par exemple, une valeur de 5 définit les moustaches au 5ème et 95ème percentiles.
nOutLimit Limite le nombre de valeurs aberrantes individuelles retournées avant de passer à un mode de regroupement par bacs (binning).

Préparation des données

Création de données de test pour BoxPlot

Génération d'une table CAS simple contenant des scores de performance pour démontrer l'analyse de distribution.

1PROC CAS; TABLE.loadTable / path="cars.sashdat", caslib="Samples", casOut={name="cars", replace=true}; DATA casuser.scores; DO i=1 to 1000; score=round(rand("Normal", 50, 15)); OUTPUT; END; drop i; RUN; QUIT;

Exemples d'utilisation

Calcul de base des statistiques de boîte

Exécute une analyse boxPlot standard sur la variable 'score' de la table 'scores'.

1PROC CAS; percentile.boxPlot / TABLE={name="scores"}, inputs={{name="score"}}; RUN; QUIT;
Résultat Attendu :
Un tableau affichant le min, le max, la médiane et les quartiles (Q1, Q3) pour la variable score.
Analyse complète avec détection de valeurs aberrantes et export

Cet exemple calcule les percentiles exacts, définit les moustaches au 10ème/90ème percentile et demande l'extraction des 50 pires/meilleures valeurs aberrantes dans une table de sortie.

1PROC CAS; percentile.boxPlot / TABLE={name="scores", where="score > 0"}, inputs={{name="score"}}, method="EXACT", outliers=true, nOutLimit=50, whiskerPercentile=10, casOut={name="stats_boxplot", replace=true}; RUN; QUIT;
Résultat Attendu :
La table 'stats_boxplot' contiendra les statistiques descriptives et les détails des valeurs situées en dehors de l'intervalle [P10, P90].