sparkEmbeddedProcess

executeProgram

##set_sparkembeddedprocess

Description

L'action sparkEmbeddedProcess.executeProgram permet d'injecter et d'exécuter du code ScalaLangage de programmation hautes performances combinant objet et fonctionnel. Utilisé avec Spark, il s'intègre à SAS Viya pour le traitement distribué et massif de données complexes. arbitraire directement au sein du processus SAS Embedded Process pour SparkMoteur de calcul distribué open-source conçu pour le traitement rapide de données massives en mémoire, s'intégrant à SAS Viya pour optimiser les performances sur des clusters Hadoop ou Cloud. C'est l'outil idéal pour les développeurs qui souhaitent bénéficier de la puissance de calcul distribuée de SparkMoteur de calcul distribué open-source conçu pour le traitement rapide de données massives en mémoire, s'intégrant à SAS Viya pour optimiser les performances sur des clusters Hadoop ou Cloud tout en restant dans l'écosystème SAS Viya. C'est un peu comme envoyer un message secret en ScalaLangage de programmation hautes performances combinant objet et fonctionnel. Utilisé avec Spark, il s'intègre à SAS Viya pour le traitement distribué et massif de données complexes. que seul SparkMoteur de calcul distribué open-source conçu pour le traitement rapide de données massives en mémoire, s'intégrant à SAS Viya pour optimiser les performances sur des clusters Hadoop ou Cloud peut comprendre et exécuter dans son propre jardin.

Syntaxe Officielle
proc cas;
sparkEmbeddedProcess.executeProgram /
caslib="nom-de-la-caslib",
program="code-scala-en-texte-brut",
programFile="chemin-vers-fichier-scala"
;
run;

Paramètres Clés

Nom du paramètre Description
caslib Indique le nom de la bibliothèque CAS (caslib) qui contient les options de configuration de la source de données Spark. (Alias : datasourceFromCasLib).
program Contient le code source Scala, sous forme de chaîne de caractères, que vous souhaitez exécuter à l'intérieur de Spark.
programFile Indique le chemin d'accès à un fichier local (accessible par le client CAS) contenant le programme Scala à soumettre.

Préparation des données

Préparation de l'environnement Spark

Avant d'exécuter un programme, il est nécessaire d'avoir une caslib configurée pour Spark (par exemple, pointant vers Hadoop ou Databricks).

1PROC CAS;
2 TABLE.addCaslib / caslib="spark_data", datasource={srctype="hadoop", server="mon_serveur", schema="par defaut"};
3RUN;

Exemples d'utilisation

Exécution d'un script Scala basique

Cet exemple envoie une simple commande d'impression pour vérifier que l'Embedded Process répond bien.

1PROC CAS; sparkEmbeddedProcess.executeProgram / caslib="spark_data", program="println(\"Hello from Spark EP!\")"; RUN;
Résultat Attendu :
Le message est affiché dans les logs du SAS Embedded Process côté Spark.
Utilisation exhaustive des options avec fichier externe

On utilise ici un fichier externe pour exécuter une logique plus complexe, en s'appuyant sur la caslib configurée.

1PROC CAS; sparkEmbeddedProcess.executeProgram / caslib="spark_data", programFile="/chemin/vers/mon_analyse_complexe.scala"; RUN;
Résultat Attendu :
Le contenu du fichier Scala est lu et transmis à Spark pour exécution distribuée.
Passage de code Scala complexe en ligne

Exemple montrant comment passer plusieurs lignes de code via le paramètre program.

1PROC CAS; sparkEmbeddedProcess.executeProgram / caslib="spark_data", program="val data = spark.range(1, 100)
2data.write.mode(\"overwrite\").saveAsTable(\"result_table\")"; RUN;
Résultat Attendu :
Une table est créée directement dans l'environnement Spark via l'API SparkSession native.