Hadoop在CentOS系统上的安装与配置指南
对于需要处理海量数据的企业或个人开发者,Hadoop作为分布式计算框架,能够有效解决数据存储与计算难题,本文将详细介绍在CentOS 7/8系统上安装Hadoop的完整流程,涵盖环境准备、配置优化及集群验证,帮助用户快速搭建稳定的Hadoop环境。

**一、环境准备与依赖安装
在安装Hadoop之前,需确保系统满足以下条件:
1、操作系统:CentOS 7或8(推荐使用最小化安装版本)。
2、Java环境:Hadoop基于Java开发,需提前安装JDK 8或11(建议使用OpenJDK)。
3、SSH服务:Hadoop依赖SSH实现节点间通信,需配置免密登录。
**1.1 安装Java环境
通过以下命令安装OpenJDK 8:
- sudo yum install -y java-1.8.0-openjdk-devel
安装完成后,验证Java版本:

- java -version
若输出类似“openjdk version 1.8.0_382”,则表示安装成功。
**1.2 配置SSH免密登录
Hadoop集群需要通过SSH协议管理节点,配置本地免密登录:
- 生成密钥对
- ssh-keygen -t rsa
- 将公钥导入授权文件
- cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 测试免密登录
- ssh localhost
若无需输入密码即可登录,则配置成功。
**二、Hadoop安装与配置
2.1 下载并解压Hadoop
从apache官网获取稳定版Hadoop(本文以3.3.6版本为例):
- wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
- tar -xzvf hadoop-3.3.6.tar.gz -C /opt/
- sudo mv /opt/hadoop-3.3.6 /opt/hadoop
**2.2 配置环境变量
编辑/etc/profile
文件,添加Hadoop环境变量:

- export HADOOP_HOME=/opt/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
- source /etc/profile
2.3 修改Hadoop核心配置文件
进入$HADOOP_HOME/etc/hadoop
目录,依次修改以下文件:
(1)hadoop-env.sh
设置Java安装路径:
- export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
(2)core-site.xml
配置HDFS默认地址与临时目录:
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://localhost:9000</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/opt/hadoop/tmp</value>
- </property>
- </configuration>
(3)hdfs-site.xml
定义数据块副本数(单机模式设置为1):
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
(4)mapred-site.xml
指定MapReduce框架为YARN:
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
(5)yarn-site.xml
配置YARN资源管理参数:
- <configuration>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- </configuration>
三、启动Hadoop集群并验证
**3.1 格式化HDFS
首次启动前需格式化文件系统:
- hdfs namenode -format
3.2 启动HDFS与YARN
依次执行以下命令:
- start-dfs.sh
- start-yarn.sh
通过jps
命令检查进程是否正常:
- jps
若显示NameNode
、DataNode
、ResourceManager
等进程,则表明启动成功。
**3.3 访问Web管理界面
HDFS:浏览器访问http://服务器IP:9870
YARN:访问http://服务器IP:8088
**四、注意事项与优化建议
1、权限问题:若遇到目录权限错误,需为Hadoop用户分配目录所有权:
- sudo chown -R 用户名:用户组 /opt/hadoop
2、防火墙配置:确保防火墙放行9870、8088等端口。
3、日志排查:若服务启动失败,可通过$HADOOP_HOME/logs
目录下的日志文件定位问题。
Hadoop的安装与配置需要耐心调试,尤其是多节点集群场景,建议初次部署时使用单机模式熟悉流程,再逐步扩展为分布式环境,通过合理配置资源参数,Hadoop能够显著提升数据处理效率,为业务提供可靠支撑。