Utiliser Sqoop pour charger des données dans HDFS

C'est pas un scoop, mais sachez tout de même que Sqoop est un projet de la fondation Apache. Je sais c'est une blague facile... sqoop et hdfsPassons et intéressons-nous plutôt à cet outil permettant une cohabitation des bases de données (Oracle, mysql…) avec la plateforme HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. (Le nom Sqoop est un mot valise constitué de sql et de hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data.) Ainsi, Sqoop (interface en ligne de commande) permet d’exporter des données depuis la base de données et de procéder aux traitements en exploitant le clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data.. En gros, Sqoop prend des données à la source et les écrit dans une destination. On ne peux pas faire plus simple ! sqoop comment ça marche   A noter également que Sqoop embarque les connecteurs JDBC pour permettre la connexion à la base distante. Je ne vais pas vous présenter toutes les options ou subtilités  de l'outil, mais simplement vous présenter un cas simple d'utilisation. Si vous souhaitez approfondir l'utilisation de Sqoop , la documentation est bien faite et les exemples nombreux sur internet.

 Un exemple simple

sqoop import --connect jdbc:mysql://<hote_base_mysql>:3306/<nom_de_la_base> --password "xxx" --username "xxx" --table diagnostic --target-dir /user/mapr/test              

Nicolas Housset

Passionné d'informatique, je suis Consultant et expert technique SAS VIYA, également co-fondateur de la société Flexcelite. Spécialisé dans les technologies SAS (Viya, 9.4) et les infrastructures associées (Linux, Hadoop, Azure), ce blog est mon espace pour partager mes mémos techniques et retours d'expérience.