Hadoop在CentOS系统上的安装与配置指南
对于需要处理海量数据的企业或个人开发者,Hadoop作为分布式计算框架,能够有效解决数据存储与计算难题,本文将详细介绍在CentOS 7/8系统上安装Hadoop的完整流程,涵盖环境准备、配置优化及集群验证,帮助用户快速搭建稳定的Hadoop环境。

**一、环境准备与依赖安装
在安装Hadoop之前,需确保系统满足以下条件:
1、操作系统:CentOS 7或8(推荐使用最小化安装版本)。
2、Java环境:Hadoop基于Java开发,需提前安装JDK 8或11(建议使用OpenJDK)。
3、SSH服务:Hadoop依赖SSH实现节点间通信,需配置免密登录。
**1.1 安装Java环境
通过以下命令安装OpenJDK 8:
sudo yum install -y java-1.8.0-openjdk-devel
安装完成后,验证Java版本:

java -version
若输出类似“openjdk version 1.8.0_382”,则表示安装成功。
**1.2 配置SSH免密登录
Hadoop集群需要通过SSH协议管理节点,配置本地免密登录:
生成密钥对 ssh-keygen -t rsa 将公钥导入授权文件 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 测试免密登录 ssh localhost
若无需输入密码即可登录,则配置成功。
**二、Hadoop安装与配置
2.1 下载并解压Hadoop
从Apache官网获取稳定版Hadoop(本文以3.3.6版本为例):
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz tar -xzvf hadoop-3.3.6.tar.gz -C /opt/ sudo mv /opt/hadoop-3.3.6 /opt/hadoop
**2.2 配置环境变量
编辑/etc/profile文件,添加Hadoop环境变量:

export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source /etc/profile
2.3 修改Hadoop核心配置文件
进入$HADOOP_HOME/etc/hadoop目录,依次修改以下文件:
(1)hadoop-env.sh
设置Java安装路径:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
(2)core-site.xml
配置HDFS默认地址与临时目录:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/tmp</value>
</property>
</configuration>(3)hdfs-site.xml
定义数据块副本数(单机模式设置为1):
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>(4)mapred-site.xml
指定MapReduce框架为YARN:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>(5)yarn-site.xml
配置YARN资源管理参数:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>三、启动Hadoop集群并验证
**3.1 格式化HDFS
首次启动前需格式化文件系统:
hdfs namenode -format
3.2 启动HDFS与YARN
依次执行以下命令:
start-dfs.sh start-yarn.sh
通过jps命令检查进程是否正常:
jps
若显示NameNode、DataNode、ResourceManager等进程,则表明启动成功。
**3.3 访问Web管理界面
HDFS:浏览器访问http://服务器IP:9870
YARN:访问http://服务器IP:8088
**四、注意事项与优化建议
1、权限问题:若遇到目录权限错误,需为Hadoop用户分配目录所有权:
sudo chown -R 用户名:用户组 /opt/hadoop
2、防火墙配置:确保防火墙放行9870、8088等端口。
3、日志排查:若服务启动失败,可通过$HADOOP_HOME/logs目录下的日志文件定位问题。
Hadoop的安装与配置需要耐心调试,尤其是多节点集群场景,建议初次部署时使用单机模式熟悉流程,再逐步扩展为分布式环境,通过合理配置资源参数,Hadoop能够显著提升数据处理效率,为业务提供可靠支撑。
