Accès à HDFS et aux applications Hadoop à partir de SAS Base

SAS base et HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data.

SAS Base permet l'accès à HDFS et à l'écosysyème grace à l'instruction FILENAME, la proc et la Proc Sqoop. L'instruction FILENAME permet d’accéder aux fichiers d’un système de fichiers distribué (HDFS). La PROC permet de soumettre des commandes HDFS. Vous pouvezles exécuter directement à partir d'une SAS. Vous pouvez également utiliser PROC pour soumettre des programmes MapReduce ou Pig et les exécuter. Il existe également une procédure SAS base appelée PROC SQOOP. Cette commande permet d’appeler l’exécution de commandes SQOOP. Ces commandes sont utiles pour déplacer des données entre une base de données et , qu’il s’agisse de les transférer de vers la base de données ou de la base de données vers . L'avantage est que SQOOP est une application open source disponible au sein de l'écosystème . Il s'agit d'un moyen très efficace de déplacer de grandes volumes de données entre et d'autres sources de données . La PROC SQOOP vous permet d'appeler ce processus à partir d'un programme SAS. Lorsque vous procédez ainsi, vous ne transférez pas les données sur le serveur SAS. Vous utilisez simplement SAS pour exécuter une commande permettant de déplacer les données directement entre et ce système de base de données.

Fichiers de configuration requis par SAS

Lorsque vous utilisez SAS base ou SAS/ACCESS interface to vous avez besoin d'un ensemble de fichiers XML et JAR. Si vous êtes un utilisateur SAS, vous n'avez pas à vous soucier de cette configuration qui doit être réalisé sur le serveur. Pour faire simple, la configuration du serveur se présente sous la forme de fichiers XML qui doivent être copiés sur le serveur SAS dans un répertoire spécifié par la variable d'environnement SAS_HADOOP_CONFIG_PATH. La valeur de cette variable d'environnement indique ce dossier sur la machine du serveur SAS où vous placez ces fichiers XML. De même, l'administrateur SAS doit s'assurer que plusieurs dizaines de fichiers JAR se trouvant sur le système sont copiés sur le serveur SAS, ainsi que dans un autre dossier (spécifié par la variable d'environnement SAS_HADOOP_JAR_PATH)