Les commandes Hadoop que chaque Data Engineer doit connaître

Cet article en deux mots :

Devenez un expert de l’administration HDFS en maîtrisant les commandes fondamentales du shell Hadoop. Ce guide pratique vous dévoile comment manipuler vos fichiers avec agilité, configurer vos facteurs de réplication et optimiser la taille de vos blocs pour booster les performances de votre cluster. Ne laissez plus la ligne de commande freiner vos projets Big Data !

Apprendre à naviguer et à exécuter des commandes dans le shell HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. est essentiel pour tout ingénieur de données. Que vous deviez déplacer des données dans HDFS ou modifier le fichier de configuration du clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle., toutes ces tâches peuvent être effectuées à partir du shell HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data.. Préparez-vous à découvrir les commandes que chaque ingénieur de données doit connaître...   Répertorier les données actuelles dans le clusterEnsemble de nœuds (machines) interconnectés, gérés par Kubernetes, qui collaborent pour exécuter les microservices et le moteur CAS de SAS Viya, assurant haute disponibilité et passage à l'échelle. HadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. : Deux cas : Depuis le namenode :

hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs -ls  /

sas-hadoop-fs-ls Depuis une machine cliente : hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs -ls  hdfs://namenodeHadoop:10001/ Créer un répertoire HDFS  hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs -mkdir  /sasdata sas-hadoop-fs-mkdir   Créer un fichier hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data.  fs  -touchz  /sasdata/newdata.txt sas-hadoop-touchz    Supprimer un fichier sur HDFS hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs  -rm  /temp.txt Supprimer un répertoire HDFS hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs  -rmr  /monRep Copier des fichiers ou des dossiers du système local vers HDFS hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs  -copyFromLocal /home/hdfs/sasdata/CASDATA/NFS/big_prdsale.sashdatSASHDAT est le format de fichier propriétaire de SAS Viya optimisé pour Cloud Analytic Services (CAS). Il permet un chargement ultra-rapide des données en mémoire via un accès direct (memory-mapping). /sasdata   sas-hadoop-fs-copyfromlocal   Définition de la réplication et de la taille du bloc lors de l'upload La taille de bloc par défaut dans les datanodes hdfs est de 64 Mo. Mais vous pouvez augmenter à 128 ou 256mb selon vos besoins. Le facteur de réplication est 3 par défaut, mais vous pouvez également l'augmenter. Facteur de réplication : hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs -D dfs.replication=1 -put /home/hdfs/sasdata/CASDATA/customers.sashdatSASHDAT est le format de fichier propriétaire de SAS Viya optimisé pour Cloud Analytic Services (CAS). Il permet un chargement ultra-rapide des données en mémoire via un accès direct (memory-mapping). /tmp hdfs dfs -stat %r /tmp/customers.sashdatSASHDAT est le format de fichier propriétaire de SAS Viya optimisé pour Cloud Analytic Services (CAS). Il permet un chargement ultra-rapide des données en mémoire via un accès direct (memory-mapping). Ce qui donne 1 Block Size  : hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs -D dfs.block.size=2939392 -cp file:/home/hdfs/sasdata/CASDATA/customers.sashdatSASHDAT est le format de fichier propriétaire de SAS Viya optimisé pour Cloud Analytic Services (CAS). Il permet un chargement ultra-rapide des données en mémoire via un accès direct (memory-mapping). /tmp/customers.sashdatSASHDAT est le format de fichier propriétaire de SAS Viya optimisé pour Cloud Analytic Services (CAS). Il permet un chargement ultra-rapide des données en mémoire via un accès direct (memory-mapping). hadoopFramework open-source permettant le stockage distribué (HDFS) et le traitement de données massives sur des clusters de serveurs, souvent utilisé avec SAS Viya pour l'analyse Big Data. fs -stat "%F %u:%g %b %y %n - replication : %r - block size :  %o" /tmp/customers.sashdatSASHDAT est le format de fichier propriétaire de SAS Viya optimisé pour Cloud Analytic Services (CAS). Il permet un chargement ultra-rapide des données en mémoire via un accès direct (memory-mapping). sas-hadoop-fs-stat    

Nicolas Housset

Passionné d'informatique, je suis Consultant et expert technique SAS VIYA, également co-fondateur de la société Flexcelite. Spécialisé dans les technologies SAS (Viya, 9.4) et les infrastructures associées (Linux, Hadoop, Azure), ce blog est mon espace pour partager mes mémos techniques et retours d'expérience.