percentile
Description
L'action percentile.percentile permet de calculer des quantilesLes quantiles sont des valeurs divisant un jeu de données trié en intervalles égaux. Ils permettent d'analyser la distribution et la dispersion des données (ex: quartiles pour des segments de 25%). et des sur vos données. C'est l'outil idéal pour comprendre la distribution de vos variablesColonnes d'une table SAS contenant des données spécifiques (numériques ou caractères). Elles possèdent des attributs comme le nom, le type, la longueur, l'étiquette et le format d'affichage., trouver la médianeValeur centrale divisant une série de données ordonnées en deux groupes égaux (50 % au-dessus, 50 % en dessous). Contrairement à la moyenne, elle est robuste face aux valeurs aberrantes. (le fameux 50ème percentileValeur séparant une série de données en deux groupes égaux : 50% des observations sont inférieures ou égales à cette valeur, et 50% lui sont supérieures. Elle correspond à la médiane.), ou identifier les valeurs extrêmesDonnée s'écartant significativement des autres observations d'un échantillon. En SAS Viya, elle peut fausser les statistiques et nécessite un traitement (exclusion ou winsorisation) via CAS.. Que vous utilisiez la méthode ou , cette action découpera vos données en tranches parfaites. Pratique pour éviter que vos analyses ne partent en vrille à cause de quelques valeurs aberrantesObservations s'écartant significativement du reste des données. Elles peuvent résulter d'erreurs de mesure ou de phénomènes rares et influencent fortement les statistiques (moyenne, variance). !
Paramètres Clés
| Nom du paramètre | Description |
|---|---|
| table | Spécifie la table d'entrée contenant les données à analyser. |
| casOut | Spécifie la table de sortie pour stocker les résultats. |
| inputs | Liste des variables pour lesquelles calculer les percentiles. |
| values | Les pourcentages à calculer (ex: 25, 50, 75). Par défaut, calcule le 1er, 2ème (médiane) et 3ème quartile. |
| method | Algorithme utilisé : (par défaut, très rapide pour le Big Data) ou . |
| pctlDef | Définition mathématique du percentile à utiliser (de 1 à 6, défaut: 6, comme dans la procédure ). |
| groupBy | Permet de calculer les percentiles par groupe . |
| weight | Variable de poids pour chaque observation. |
Préparation des données
Création des données de test
On génère une table contenant les notes de 100 étudiants pour analyser leur répartition.
| 1 | DATA casuser.notes; DO etudiant=1 to 100; note=round(rand('normal', 12, 3), 0.5); IF note>20 THEN note=20; IF note<0 THEN note=0; OUTPUT; END; RUN; |
Exemples d'utilisation
Calcul des quartiles standards
Calcul du 25ème, 50ème et 75ème percentile (valeurs par défaut) sur la variable 'note'.
| 1 | PROC CAS; percentile.percentile / TABLE={name="notes", caslib="casuser"} inputs={"note"} casOut={name="notes_pctl", caslib="casuser", replace=true}; RUN; QUIT; |
Résultat Attendu :
Percentiles personnalisés avec méthode exacte
Ici on veut isoler le top 5% et les 10% les plus faibles avec la méthode %%EXACT%%, en utilisant les définitions mathématiques classiques (pctlDef=5).
| 1 | PROC CAS; percentile.percentile / TABLE={name="notes", caslib="casuser"} inputs={"note"} values={10, 50, 90, 95} method="EXACT" pctlDef=5 casOut={name="notes_deciles", caslib="casuser", replace=true}; RUN; QUIT; |