HCRM博客

如何在CentOS上安装Hadoop?详细步骤教程

CentOS Hadoop安装指南

在大数据技术快速发展的今天,Hadoop作为分布式计算的核心框架,已成为企业处理海量数据的首选工具,本文将详细介绍如何在CentOS系统上完成Hadoop的安装与配置,帮助用户快速搭建本地开发或测试环境。

如何在CentOS上安装Hadoop?详细步骤教程-图1

**一、环境准备

在安装Hadoop前,需确保系统满足以下条件:

1、操作系统:CentOS 7或更高版本(推荐使用Minimal安装模式)。

2、Java环境:Hadoop依赖Java运行,需安装JDK 1.8及以上版本。

3、用户权限:建议创建专用用户(如hadoop)进行操作,避免使用root账户。

步骤1:安装Java

  • 查看系统是否已安装Java
  • java -version
  • 若未安装,使用yum安装OpenJDK
  • sudo yum install -y java-1.8.0-openjdk-devel
  • 配置环境变量
  • echo 'export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk' >> ~/.bashrc
  • source ~/.bashrc

验证安装:执行java -version,确认输出Java版本信息。

如何在CentOS上安装Hadoop?详细步骤教程-图2

步骤2:创建Hadoop用户

  • 添加用户并设置密码
  • sudo useradd hadoop
  • sudo passwd hadoop
  • 赋予sudo权限(可选)
  • sudo usermod -aG wheel hadoop

**二、Hadoop安装与配置

1. 下载与解压Hadoop

访问[Hadoop官网](https://hadoop.apache.org/)下载稳定版本(如3.3.6),通过命令行操作:

  • 切换至hadoop用户
  • su - hadoop
  • 下载并解压
  • wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
  • tar -xzvf hadoop-3.3.6.tar.gz
  • mv hadoop-3.3.6 /home/hadoop/hadoop

2. 配置环境变量

编辑~/.bashrc文件,添加以下内容:

  • export HADOOP_HOME=/home/hadoop/hadoop
  • export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  • export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行source ~/.bashrc使配置生效。

如何在CentOS上安装Hadoop?详细步骤教程-图3

3. 修改Hadoop配置文件

Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop目录,需调整以下文件:

core-site.xml(全局配置)

  • <configuration>
  • <property>
  • <name>fs.defaultFS</name>
  • <value>hdfs://localhost:9000</value>
  • </property>
  • </configuration>

hdfs-site.xml(HDFS配置)

  • <configuration>
  • <property>
  • <name>dfs.replication</name>
  • <value>1</value>
  • </property>
  • <property>
  • <name>dfs.namenode.name.dir</name>
  • <value>/home/hadoop/hadoop_data/hdfs/namenode</value>
  • </property>
  • <property>
  • <name>dfs.datanode.data.dir</name>
  • <value>/home/hadoop/hadoop_data/hdfs/datanode</value>
  • </property>
  • </configuration>

mapred-site.xml(MapReduce配置)

  • <configuration>
  • <property>
  • <name>mapreduce.framework.name</name>
  • <value>yarn</value>
  • </property>
  • </configuration>

yarn-site.xml(资源调度配置)

  • <configuration>
  • <property>
  • <name>yarn.nodemanager.aux-services</name>
  • <value>mapreduce_shuffle</value>
  • </property>
  • </configuration>

4. 配置SSH免密登录

Hadoop集群节点间需通过SSH通信,配置本地免密登录:

  • ssh-keygen -t rsa
  • cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  • chmod 600 ~/.ssh/authorized_keys
  • 测试是否成功
  • ssh localhost

**三、启动与验证

1. 格式化HDFS

首次启动前需格式化文件系统:

  • hdfs namenode -format

2. 启动Hadoop集群

  • 启动HDFS
  • start-dfs.sh
  • 启动YARN
  • start-yarn.sh

通过jps命令查看进程,确认NameNodeDataNodeResourceManager等是否正常运行。

3. 访问Web界面

HDFS管理界面:http://服务器IP:9870

YARN管理界面:http://服务器IP:8088

4. 运行测试任务

执行Hadoop自带的WordCount示例:

  • 创建输入目录
  • hdfs dfs -mkdir /input
  • 上传测试文件
  • hdfs dfs -put $HADOOP_HOME/LICENSE.txt /input
  • 运行任务
  • hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output
  • 查看结果
  • hdfs dfs -cat /output/

**四、常见问题与解决建议

1、Java路径错误:确保JAVA_HOMEhadoop-env.sh中正确配置。

2、端口冲突:检查9870、9000、8088等端口是否被占用。

3、权限不足:Hadoop数据存储目录需赋予hadoop用户所有权。

个人观点

Hadoop的安装过程虽然涉及较多配置,但通过分步操作可显著降低复杂度,对于生产环境,建议根据实际数据量和硬件资源调整参数,例如增加副本数(dfs.replication)或优化YARN资源分配,Hadoop生态的组件(如Hive、Spark)可进一步扩展其功能,为数据分析提供更强大的支持。

本站部分图片及内容来源网络,版权归原作者所有,转载目的为传递知识,不代表本站立场。若侵权或违规联系Email:zjx77377423@163.com 核实后第一时间删除。 转载请注明出处:https://blog.huochengrm.cn/pc/29843.html

分享:
扫描分享到社交APP
上一篇
下一篇