CentOS 安装 Hadoop 详细指南
一、环境准备
在开始之前,确保你有一个干净的CentOS 7环境,并且以根用户身份登录,或者具有sudo权限。
1. 安装Java
Hadoop是用Java编写的,因此需要安装Java Runtime Environment(JRE)或Java Development Kit(JDK),我们推荐使用OpenJDK,运行以下命令安装OpenJDK:
sudo yum install java1.8.0openjdkdevel y
安装完成后,验证Java安装情况:
java version
你应该看到类似如下的输出:
java version "1.8.0_xxxx" Java(TM) SE Runtime Environment (build 1.8.0_xxbxx) Java HotSpot(TM) 64Bit Server VM (build XX.XXbXX, mixed mode)
2. 安装SSH
Hadoop节点之间需要通过SSH进行通信,即使是单节点集群,也需要配置SSH。
sudo yum install opensshserver y
启动并设置SSH服务开机自启:
sudo systemctl start sshd sudo systemctl enable sshd
生成SSH密钥对:
sshkeygen t rsa P ""
将公钥复制到授权的密钥文件:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
测试SSH无密码登录:
ssh localhost
二、下载与安装Hadoop
1. 获取Hadoop包
从Apache Hadoop官方网站下载最新版本的Hadoop,本文以3.3.1版本为例:
wget https://downloads.apache.org/hadoop/common/hadoop3.3.1/hadoop3.3.1.tar.gz
2. 解压并移动Hadoop
tar xzvf hadoop3.3.1.tar.gz sudo mv hadoop3.3.1 /opt/hadoop
3. 配置环境变量
编辑/etc/profile
文件,添加以下内容:
export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source /etc/profile
三、配置Hadoop
1. 配置coresite.xml
创建并编辑coresite.xml
文件:
sudo vi $HADOOP_HOME/etc/hadoop/coresite.xml
添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
2. 配置hdfssite.xml
创建并编辑hdfssite.xml
文件:
sudo vi $HADOOP_HOME/etc/hadoop/hdfssite.xml
添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/opt/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/opt/hadoop/hdfs/datanode</value> </property> </configuration>
3. 配置mapredsite.xml
复制模板文件为正式文件:
cp $HADOOP_HOME/etc/hadoop/mapredsite.xml.template $HADOOP_HOME/etc/hadoop/mapredsite.xml
然后编辑该文件:
sudo vi $HADOOP_HOME/etc/hadoop/mapredsite.xml
添加以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
4. 配置yarnsite.xml
创建并编辑yarnsite.xml
文件:
sudo vi $HADOOP_HOME/etc/hadoop/yarnsite.xml
添加以下内容:
<configuration> <property> <name>yarn.nodemanager.auxservices</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.auxservices.mapreduce.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
四、格式化HDFS
在启动Hadoop之前,需要格式化HDFS:
hdfs namenode format
五、启动Hadoop
启动所有Hadoop服务:
startdfs.sh startyarn.sh
你可以使用以下命令检查Hadoop是否成功启动:
jps
你应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。
六、访问Hadoop Web界面
你可以通过以下地址访问HDFS和YARN的Web界面:
HDFS: http://localhost:9870
YARN: http://localhost:8088
七、FAQ问答
Q1:如何在CentOS上卸载Hadoop?
A1:要卸载Hadoop,可以按照以下步骤操作:
1、停止Hadoop服务:stopdfs.sh
和stopyarn.sh
。
2、删除Hadoop目录:sudo rm rf /opt/hadoop
。
3、删除环境变量配置:编辑/etc/profile
文件,移除与Hadoop相关的配置,然后执行source /etc/profile
使其生效。
4、删除HDFS数据目录:sudo rm rf /opt/hadoop/hdfs
。
5、确保没有其他依赖项或配置文件保留。