HCRM博客

如何在CentOS上安装Hadoop?

Hadoop在CentOS上的安装与配置详解

Hadoop是一个开源的分布式计算框架,广泛应用于大数据处理,本文将详细介绍如何在CentOS操作系统上安装和配置Hadoop,包括环境准备、软件下载与安装、配置文件编写以及启动Hadoop等步骤。

如何在CentOS上安装Hadoop?-图1
(图片来源网络,侵权删除)

二、环境准备

1、系统要求:确保你的CentOS版本为7或更高版本。

2、依赖安装

Java环境:Hadoop需要Java运行环境,可以通过以下命令安装OpenJDK:

     sudo yum install java1.8.0openjdkdevel y

验证Java是否安装成功:

     java version

SSH服务:Hadoop需要SSH支持,可以通过以下命令安装并启动SSH服务:

     sudo yum install opensshserver y
     sudo systemctl start sshd
     sudo systemctl enable sshd

三、下载与安装Hadoop

1、下载Hadoop:从Apache Hadoop官下载所需版本的Hadoop(以3.3.1为例):

如何在CentOS上安装Hadoop?-图2
(图片来源网络,侵权删除)
   wget https://downloads.apache.org/hadoop/common/hadoop3.3.1/hadoop3.3.1.tar.gz

2、解压并移动文件

   tar xzvf hadoop3.3.1.tar.gz
   sudo mv hadoop3.3.1 /usr/local/hadoop

3、配置环境变量:编辑~/.bashrc文件,添加以下内容:

   export HADOOP_HOME=/usr/local/hadoop
   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:

   source ~/.bashrc

四、配置Hadoop

1、核心文件配置coresite.xml):

   <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://localhost:9000</value>
       </property>
   </configuration>

2、HDFS配置文件hdfssite.xml):

   <configuration>
       <property>
           <name>dfs.replication</name>
           <value>1</value>
       </property>
   </configuration>

3、MapReduce配置文件mapredsite.xml):

如何在CentOS上安装Hadoop?-图3
(图片来源网络,侵权删除)
   <configuration>
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
   </configuration>

4、YARN配置文件yarnsite.xml):

   <configuration>
       <property>
           <name>yarn.nodemanager.auxservices</name>
           <value>mapreduce_shuffle</value>
       </property>
       <property>
           <name>yarn.nodemanager.auxservices.mapreduce.class</name>
           <value>org.apache.hadoop.mapred.ShuffleHandler</value>
       </property>
   </configuration>

5、配置hadoopenv.sh:编辑$HADOOP_HOME/etc/hadoop/hadoopenv.sh文件,设置Java Home:

   export JAVA_HOME=/usr/lib/jvm/java1.8.0openjdk

6、格式化HDFS

   hadoop namenode format

7、启动Hadoop

   startdfs.sh
   startyarn.sh

8、验证Hadoop是否启动成功:通过访问[http://localhost:9870](http://localhost:9870)(HDFS)和[http://localhost:8088](http://localhost:8088)(YARN)查看Web界面。

五、流程示意图

以下是Hadoop启动的流程示意图:

sequenceDiagram

participant User as 用户

participant HadoopCluster as Hadoop集群

User>>+HadoopCluster: 启动HDFS

HadoopCluster>>+HadoopCluster: 格式化NameNode

HadoopCluster>>+HadoopCluster: 启动DataNode

User>>+HadoopCluster: 启动YARN

HadoopCluster>>+HadoopCluster: 启动ResourceManager

HadoopCluster>>+HadoopCluster: 启动NodeManager

User>>+HadoopCluster: 提交作业

HadoopCluster>>User: 执行作业并返回结果

六、FAQs

Q1: Hadoop启动时出现Java路径错误怎么办?

A1: 确保在hadoopenv.sh文件中正确设置了JAVA_HOME路径,并且该路径存在且有效,如果问题依旧,请检查环境变量配置是否正确。

Q2: 如何更改Hadoop的默认端口号?

A2: 可以在相应的配置文件中修改默认端口号,例如在coresite.xml中更改fs.defaultFS的端口号,然后重新启动Hadoop。

Q3: Hadoop节点之间无法通信怎么办?

A3: 首先检查各节点之间的网络连接是否正常,然后确认SSH服务已正确配置且免密登录可用,如果问题依旧,请检查防火墙设置和Hadoop日志以获取更多信息。

分享:
扫描分享到社交APP
上一篇
下一篇