CentOS 安装 Hadoop 详细指南
一、环境准备
在开始之前,确保你有一个干净的CentOS 7环境,并且以根用户身份登录,或者具有sudo权限。

1. 安装java
Hadoop是用Java编写的,因此需要安装Java Runtime Environment(JRE)或Java Development Kit(JDK),我们推荐使用OpenJDK,运行以下命令安装OpenJDK:
- sudo yum install java1.8.0openjdkdevel y
安装完成后,验证Java安装情况:
- java version
你应该看到类似如下的输出:
- java version "1.8.0_xxxx"
- Java(TM) SE Runtime Environment (build 1.8.0_xxbxx)
- Java HotSpot(TM) 64Bit Server VM (build XX.XXbXX, mixed mode)
2. 安装SSH
Hadoop节点之间需要通过SSH进行通信,即使是单节点集群,也需要配置SSH。

- sudo yum install opensshserver y
启动并设置SSH服务开机自启:
- sudo systemctl start sshd
- sudo systemctl enable sshd
生成SSH密钥对:
- sshkeygen t rsa P ""
将公钥复制到授权的密钥文件:
- cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
测试SSH无密码登录:
- ssh localhost
二、下载与安装Hadoop
1. 获取Hadoop包
从apache Hadoop官方网站下载最新版本的Hadoop,本文以3.3.1版本为例:

- wget https://downloads.apache.org/hadoop/common/hadoop3.3.1/hadoop3.3.1.tar.gz
2. 解压并移动Hadoop
- tar xzvf hadoop3.3.1.tar.gz
- sudo mv hadoop3.3.1 /opt/hadoop
3. 配置环境变量
编辑/etc/profile
文件,添加以下内容:
- export HADOOP_HOME=/opt/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
- source /etc/profile
三、配置Hadoop
1. 配置coresite.xml
创建并编辑coresite.xml
文件:
- sudo vi $HADOOP_HOME/etc/hadoop/coresite.xml
添加以下内容:
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
2. 配置hdfssite.xml
创建并编辑hdfssite.xml
文件:
- sudo vi $HADOOP_HOME/etc/hadoop/hdfssite.xml
添加以下内容:
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>file:/opt/hadoop/hdfs/namenode</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>file:/opt/hadoop/hdfs/datanode</value>
- </property>
- </configuration>
3. 配置mapredsite.xml
复制模板文件为正式文件:
- cp $HADOOP_HOME/etc/hadoop/mapredsite.xml.template $HADOOP_HOME/etc/hadoop/mapredsite.xml
然后编辑该文件:
- sudo vi $HADOOP_HOME/etc/hadoop/mapredsite.xml
添加以下内容:
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
4. 配置yarnsite.xml
创建并编辑yarnsite.xml
文件:
- sudo vi $HADOOP_HOME/etc/hadoop/yarnsite.xml
添加以下内容:
- <configuration>
- <property>
- <name>yarn.nodemanager.auxservices</name>
- <value>mapreduce_shuffle</value>
- </property>
- <property>
- <name>yarn.nodemanager.auxservices.mapreduce.class</name>
- <value>org.apache.hadoop.mapred.ShuffleHandler</value>
- </property>
- </configuration>
四、格式化HDFS
在启动Hadoop之前,需要格式化HDFS:
- hdfs namenode format
五、启动Hadoop
启动所有Hadoop服务:
- startdfs.sh
- startyarn.sh
你可以使用以下命令检查Hadoop是否成功启动:
- jps
你应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。
六、访问Hadoop Web界面
你可以通过以下地址访问HDFS和YARN的Web界面:
HDFS: http://localhost:9870
YARN: http://localhost:8088
七、FAQ问答
Q1:如何在CentOS上卸载Hadoop?
A1:要卸载Hadoop,可以按照以下步骤操作:
1、停止Hadoop服务:stopdfs.sh
和stopyarn.sh
。
2、删除Hadoop目录:sudo rm rf /opt/hadoop
。
3、删除环境变量配置:编辑/etc/profile
文件,移除与Hadoop相关的配置,然后执行source /etc/profile
使其生效。
4、删除HDFS数据目录:sudo rm rf /opt/hadoop/hdfs
。
5、确保没有其他依赖项或配置文件保留。