HCRM博客

如何在CentOS7上部署Hadoop 3.3.4?

Hadoop 在 CentOS 7 上的安装与配置指南

Hadoop 是一个开源的分布式计算框架,常用于大数据处理,本文将详细介绍如何在 CentOS 7 系统上安装与配置 Hadoop,包括环境准备、安装步骤和常见问题解答。

如何在CentOS7上部署Hadoop 3.3.4?-图1
(图片来源网络,侵权删除)

准备工作

1、更新系统

确保你的系统是最新的,执行以下命令来更新系统的包:

   sudo yum update y

2、安装 Java

Hadoop 依赖于 Java,因此需要先安装 Java,执行以下命令来安装 Java 开发工具包:

   sudo yum install java1.8.0openjdkdevel y

验证 Java 是否安装成功:

   java version

3、关闭 SELinux 和防火墙

如何在CentOS7上部署Hadoop 3.3.4?-图2
(图片来源网络,侵权删除)

为了避免网络超时问题,建议关闭 SELinux 和防火墙。

   sudo setenforce 0
   sudo systemctl stop firewalld
   sudo systemctl disable firewalld

4、配置主机名和 Hosts 文件

设置主机名为hadoop 并配置/etc/hosts 文件以解析主机名:

   sudo hostnamectl sethostname hadoop
   sudo vi /etc/hosts

添加以下内容:

   127.0.0.1   localhost
   ::1         localhost
   <你的服务器IP>     hadoop

安装 Hadoop

1、下载 Hadoop

访问 [Hadoop官网](http://hadoop.apache.org/releases.html) 下载最新版本,或者使用 wget 命令下载:

如何在CentOS7上部署Hadoop 3.3.4?-图3
(图片来源网络,侵权删除)
   wget http://apache.mirrors.tds.net/hadoop/common/hadoopx.x.x/hadoopx.x.x.tar.gz

2、解压 Hadoop

   tar zxvf hadoopx.x.x.tar.gz
   mv hadoopx.x.x /usr/local/hadoop

3、配置环境变量

编辑~/.bashrc 文件,添加以下内容:

   export HADOOP_HOME=/usr/local/hadoop
   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:

   source ~/.bashrc

配置 Hadoop

1、配置 Hadoop 环境变量

编辑hadoopenv.sh 文件,设置 Java 的安装路径:

   export JAVA_HOME=/usr/lib/jvm/java1.8.0openjdk

2、配置 coresite.xml

编辑$HADOOP_HOME/etc/hadoop/coresite.XML 文件:

   <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://localhost:9000</value>
       </property>
   </configuration>

3、配置 hdfssite.xml

编辑$HADOOP_HOME/etc/hadoop/hdfssite.xml 文件:

   <configuration>
       <property>
           <name>dfs.replication</name>
           <value>1</value>
       </property>
       <property>
           <name>dfs.namenode.name.dir</name>
           <value>file:///usr/local/hadoop/dfs/name</value>
       </property>
       <property>
           <name>dfs.datanode.data.dir</name>
           <value>file:///usr/local/hadoop/dfs/data</value>
       </property>
   </configuration>

4、配置 mapredsite.xml 和 yarnsite.xml

从模板复制并编辑mapredsite.xml.templateYARNsite.xml.template 文件:

   cp $HADOOP_HOME/etc/hadoop/mapredsite.xml.template $HADOOP_HOME/etc/hadoop/mapredsite.xml
   cp $HADOOP_HOME/etc/hadoop/yarnsite.xml.template $HADOOP_HOME/etc/hadoop/yarnsite.xml

编辑mapredsite.xml 文件:

   <configuration>
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
   </configuration>

编辑yarnsite.xml 文件:

   <configuration>
       <property>
           <name>yarn.nodemanager.auxservices</name>
           <value>mapreduce_shuffle</value>
       </property>
   </configuration>

启动 Hadoop

1、格式化 HDFS

   $HADOOP_HOME/bin/hdfs namenode format

2、启动 HDFS

   $HADOOP_HOME/sbin/startdfs.sh

3、启动 YARN

   $HADOOP_HOME/sbin/startyarn.sh

4、验证安装

打开浏览器,访问 Hadoop 的 Web 界面:http://localhost:9870(HDFS)和 http://localhost:8088(YARN),可以使用jps 命令检查 Hadoop 进程是否在运行:

   jps

常见问题解答(FAQs)

Q1: 如何更改 Hadoop 的默认端口号?

A1: 你可以通过修改相关配置文件中的端口号来更改 Hadoop 的默认端口号,在coresite.xml 中更改fs.defaultFS 属性的值,在hdfssite.xml 中更改dfs.namenode.httpaddressdfs.datanode.http.address 属性的值。

Q2: Hadoop 启动失败,该如何排查问题?

A2: Hadoop 启动失败,可以查看日志文件来获取更多信息,Hadoop 的日志文件通常位于$HADOOP_HOME/logs 目录下,你可以查看hadoophadoopnamenodehadoop.loghadoophadoopdatanodehadoop.logyarnyarnresourcemanagerhadoop.logyarnyarnnodemanagerhadoop.log 等日志文件,查找错误信息并进行相应的调整。

Q3: 如何配置多个 DataNode?

A3: 配置多个 DataNode 需要在每台机器上安装 Hadoop,并配置hdfssite.xml 文件,使其指向相同的 NameNode,确保所有 DataNode 的配置文件一致,并且能够相互通信,在 NameNode 上格式化 HDFS,并启动 Hadoop。

分享:
扫描分享到社交APP
上一篇
下一篇