Installation et Configuration de Hadoop en Mode Pseudo-distribué sous Windows

 Dans ce tutoriel, nous allons explorer les étapes détaillées pour installer et configurer Hadoop en mode pseudo-distribué sur un système Windows. Suivez attentivement les instructions pour installer ce puissant framework Big Data.





Prérequis

Avant de commencer, assurez-vous d'avoir les éléments suivants :

  • Système d'exploitation : Windows 10 ou 11 (64 bits recommandé).
  • Java : Version 11 (recommandé).
  • Hadoop : Version binaire Hadoop 3.3.6.
  • Outils supplémentaires :
    • WinRAR ou 7-Zip : Pour extraire les fichiers.
    • winutils.exe : Permet d'émuler certains comportements Unix sur Windows.

1. Installation et Configuration de Java 11

1.1 Téléchargement et installation de Java 11

  1. Téléchargez Java JDK 11 depuis le site officiel :
    Télécharger JDK 11.
  2. Installez Java dans un chemin court pour éviter les problèmes (ex. : C:\Java\jdk-11.x.x).

1.2 Configuration de la variable JAVA_HOME

  1. Ouvrez le Panneau de configuration et accédez à Système > Paramètres avancés > Variables d’environnement.
  2. Ajoutez une nouvelle variable utilisateur :
    • Nom : JAVA_HOME
    • Valeur : C:\Java\jdk-11.x.x.
  3. Ajoutez %JAVA_HOME%\bin au Path (variable système).

1.3 Vérification de l'installation

Ouvrez une console (cmd) et tapez :

java -version

Vous devriez voir :


java version "11.x.x" Java(TM) SE Runtime Environment (build 11.x.x)

2. Téléchargement et Extraction de Hadoop

2.1 Téléchargement de Hadoop

Téléchargez Hadoop (version 3.3.6) depuis le site officiel :
Apache Hadoop Releases.

2.2 Extraction de Hadoop

Extrayez le fichier téléchargé (hadoop-3.3.6.tar.gz) dans C:\hadoop en utilisant WinRAR ou 7-Zip.

2.3 Téléchargement et configuration de winutils.exe

  1. Téléchargez winutils.exe depuis GitHub.
  2. Copiez le dossier bin correspondant à votre version de Hadoop dans le répertoire C:\hadoop.

3. Configuration de Hadoop

3.1 Variables d’environnement

Ajoutez les variables suivantes :

  • Nom : HADOOP_HOME
    • Valeur : C:\hadoop.
  • Ajoutez %HADOOP_HOME%\bin au Path.
  • Ajouter aussi %HADOOP_HOME%\sbin à la variable Path.

Vérifiez les modifications avec :


hadoop version

3.2 Modification des fichiers XML

core-site.xml

Modifiez C:\hadoop\etc\hadoop\core-site.xml :


<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
hdfs-site.xml

Modifiez C:\hadoop\etc\hadoop\hdfs-site.xml :


<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/C:/hadoop_data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/C:/hadoop_data/datanode</value> </property> </configuration>
hadoop-env.cmd

Ajoutez dans C:\hadoop\etc\hadoop\hadoop-env.cmd :


set JAVA_HOME=C:\Java\jdk-11.x.x

4. Formatage du NameNode

Avant de démarrer Hadoop, formatez le NameNode une seule fois :


hdfs namenode -format

5. Démarrage des Services Hadoop

5.1 Démarrez HDFS

Tapez :


start-dfs.cmd

5.2 Démarrez YARN

Tapez :


start-yarn.cmd

5.3 Interfaces Web


6. Test de Hadoop

6.1 Création d’un répertoire dans HDFS


hdfs dfs -mkdir /test

6.2 Ajout d’un fichier dans HDFS


echo "Hello Hadoop" > testfile.txt hdfs dfs -put testfile.txt /test

6.3 Lecture du fichier depuis HDFS


hdfs dfs -cat /test/testfile.txt

Résultat attendu :


Hello Hadoop

Conclusion

Vous avez maintenant Hadoop installé et configuré en mode pseudo-distribué sur Windows. Ce tutoriel vous prépare à explorer le Big Data avec Hadoop et à effectuer des traitements de données à grande échelle.

Commentaires