percentile

percentile

##set_percentile

Description

L'action percentile.percentile permet de calculer des quantilesLes quantiles sont des valeurs divisant un jeu de données trié en intervalles égaux. Ils permettent d'analyser la distribution et la dispersion des données (ex: quartiles pour des segments de 25%). et des sur vos données. C'est l'outil idéal pour comprendre la distribution de vos variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage., trouver la médianeValeur centrale divisant une série de données ordonnées en deux groupes égaux (50 % au-dessus, 50 % en dessous). Contrairement à la moyenne, elle est robuste face aux valeurs aberrantes. (le fameux 50ème percentileValeur séparant une série de données en deux groupes égaux : 50% des observations sont inférieures ou égales à cette valeur, et 50% lui sont supérieures. Elle correspond à la médiane.), ou identifier les valeurs extrêmesDonnée s'écartant significativement des autres observations d'un échantillon. En SAS Viya, elle peut fausser les statistiques et nécessite un traitement (exclusion ou winsorisation) via CAS.. Que vous utilisiez la méthode ou , cette action découpera vos données en tranches parfaites. Pratique pour éviter que vos analyses ne partent en vrille à cause de quelques valeurs aberrantesObservations s'écartant significativement du reste des données. Elles peuvent résulter d'erreurs de mesure ou de phénomènes rares et influencent fortement les statistiques (moyenne, variance). !

Syntaxe Officielle
proc cas;
percentile.percentile /
table={name="nom_table", caslib="caslib_source"}
inputs={"var1", "var2"}
values={25, 50, 75, 90, 95}
casOut={name="table_sortie", caslib="caslib_dest", replace=true};
quit;

Paramètres Clés

Nom du paramètre Description
table Spécifie la table d'entrée contenant les données à analyser.
casOut Spécifie la table de sortie pour stocker les résultats.
inputs Liste des variables pour lesquelles calculer les percentiles.
values Les pourcentages à calculer (ex: 25, 50, 75). Par défaut, calcule le 1er, 2ème (médiane) et 3ème quartile.
method Algorithme utilisé : (par défaut, très rapide pour le Big Data) ou .
pctlDef Définition mathématique du percentile à utiliser (de 1 à 6, défaut: 6, comme dans la procédure ).
groupBy Permet de calculer les percentiles par groupe .
weight Variable de poids pour chaque observation.

Préparation des données

Création des données de test

On génère une table contenant les notes de 100 étudiants pour analyser leur répartition.

1DATA casuser.notes; DO etudiant=1 to 100; note=round(rand('normal', 12, 3), 0.5); IF note>20 THEN note=20; IF note<0 THEN note=0; OUTPUT; END; RUN;

Exemples d'utilisation

Calcul des quartiles standards

Calcul du 25ème, 50ème et 75ème percentile (valeurs par défaut) sur la variable 'note'.

1PROC CAS; percentile.percentile / TABLE={name="notes", caslib="casuser"} inputs={"note"} casOut={name="notes_pctl", caslib="casuser", replace=true}; RUN; QUIT;
Résultat Attendu :
Une table 'notes_pctl' contenant la médiane et les quartiles des notes des étudiants.
Percentiles personnalisés avec méthode exacte

Ici on veut isoler le top 5% et les 10% les plus faibles avec la méthode %%EXACT%%, en utilisant les définitions mathématiques classiques (pctlDef=5).

1PROC CAS; percentile.percentile / TABLE={name="notes", caslib="casuser"} inputs={"note"} values={10, 50, 90, 95} method="EXACT" pctlDef=5 casOut={name="notes_deciles", caslib="casuser", replace=true}; RUN; QUIT;
Résultat Attendu :
Une table 'notes_deciles' contenant les 10ème, 50ème, 90ème et 95ème percentiles, calculés précisément sans approximation.