À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data. Sur cette page, découvrez de nombreux articles sur le fonctionnement d'Hadoop et les intéractions avec SAS.

Snippets_hadoop

Snippets_hadoop

HADOOP – Copier efficacement un fichier vers HDFS depuis SAS HADOOP – Créer une table Hive en précisant le format de fichier HADOOP – Créer une table Hive en SAS Explicit SQL Pass-Through HADOOP...

HADOOP – Lire une table Hive en SQL explicit 0

HADOOP – Lire une table Hive en SQL explicit

Pour créer une table Hive en SQL explicit, vous pouvez consulter le snippet Créer une table Hive en SAS Explicit SQL Pass-Through

HADOOP – Créer une table Hive en SAS  Explicit SQL Pass-Through 0

HADOOP – Créer une table Hive en SAS Explicit SQL Pass-Through

La table est bien créée : Au passage, notez la longueur du champ « nom » ( type string dans hadoop), 32767. Pour comprendre cette longueur et le pourquoi du comment, je vous invite à lire...

logo_grey_extra_large 0

HADOOP – Lire tous les fichiers d’un répertoire HDFS comme s’il s’agissait d’un seul fichier

Un répertoire HDFS contient deux fichiers csv de données :   Il est possible de lire ces deux fichiers comme s’il s’agissait d’un seul fichier, avec l’option concat de l’instruction filename :

 

logo_grey_extra_large 0

HADOOP – Lecture d’un fichier csv avec l’instruction filename

Le code ci-dessous permet de lire un fichier csv sur Hadoop :

Ce qui donne : En exécutant ce code SAS, les données sont lues en parallèle à partir de HDFS, transmises à...