CentOS 安装 Hadoop 详细指南
一、环境准备
在开始之前,确保你有一个干净的CentOS 7环境,并且以根用户身份登录,或者具有sudo权限。

1. 安装Java
Hadoop是用Java编写的,因此需要安装Java Runtime Environment(JRE)或Java development Kit(JDK),我们推荐使用OpenJDK,运行以下命令安装OpenJDK:
sudo yum install java1.8.0openjdkdevel y
安装完成后,验证Java安装情况:
java version
你应该看到类似如下的输出:
java version "1.8.0_xxxx" Java(TM) SE Runtime Environment (build 1.8.0_xxbxx) Java HotSpot(TM) 64Bit Server VM (build XX.XXbXX, mixed mode)
2. 安装SSH
Hadoop节点之间需要通过SSH进行通信,即使是单节点集群,也需要配置SSH。

sudo yum install opensshserver y
启动并设置SSH服务开机自启:
sudo systemctl start sshd sudo systemctl enable sshd
生成SSH密钥对:
sshkeygen t rsa P ""
将公钥复制到授权的密钥文件:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
测试SSH无密码登录:
ssh localhost
二、下载与安装Hadoop
1. 获取Hadoop包
从Apache Hadoop官方网站下载最新版本的Hadoop,本文以3.3.1版本为例:

wget https://downloads.apache.org/hadoop/common/hadoop3.3.1/hadoop3.3.1.tar.gz
2. 解压并移动Hadoop
tar xzvf hadoop3.3.1.tar.gz sudo mv hadoop3.3.1 /opt/hadoop
3. 配置环境变量
编辑/etc/profile文件,添加以下内容:
export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source /etc/profile
三、配置Hadoop
1. 配置coresite.xml
创建并编辑coresite.xml文件:
sudo vi $HADOOP_HOME/etc/hadoop/coresite.xml
添加以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>2. 配置hdfssite.xml
创建并编辑hdfssite.xml文件:
sudo vi $HADOOP_HOME/etc/hadoop/hdfssite.xml
添加以下内容:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/hadoop/hdfs/datanode</value>
</property>
</configuration>3. 配置mapredsite.xml
复制模板文件为正式文件:
cp $HADOOP_HOME/etc/hadoop/mapredsite.xml.template $HADOOP_HOME/etc/hadoop/mapredsite.xml
然后编辑该文件:
sudo vi $HADOOP_HOME/etc/hadoop/mapredsite.xml
添加以下内容:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>4. 配置yarnsite.xml
创建并编辑yarnsite.xml文件:
sudo vi $HADOOP_HOME/etc/hadoop/yarnsite.xml
添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.auxservices</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>四、格式化HDFS
在启动Hadoop之前,需要格式化HDFS:
hdfs namenode format
五、启动Hadoop
启动所有Hadoop服务:
startdfs.sh startyarn.sh
你可以使用以下命令检查Hadoop是否成功启动:
jps
你应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。
六、访问Hadoop Web界面
你可以通过以下地址访问HDFS和YARN的Web界面:
HDFS: http://localhost:9870
YARN: http://localhost:8088
七、FAQ问答
Q1:如何在CentOS上卸载Hadoop?
A1:要卸载Hadoop,可以按照以下步骤操作:
1、停止Hadoop服务:stopdfs.sh 和stopyarn.sh。
2、删除Hadoop目录:sudo rm rf /opt/hadoop。
3、删除环境变量配置:编辑/etc/profile文件,移除与Hadoop相关的配置,然后执行source /etc/profile使其生效。
4、删除HDFS数据目录:sudo rm rf /opt/hadoop/hdfs。
5、确保没有其他依赖项或配置文件保留。
