HCRM博客

如何在CentOS上安装Hadoop?

CentOS 安装 Hadoop 详细指南

一、环境准备

在开始之前,确保你有一个干净的CentOS 7环境,并且以根用户身份登录,或者具有sudo权限。

如何在CentOS上安装Hadoop?-图1
(图片来源网络,侵权删除)

1. 安装Java

Hadoop是用Java编写的,因此需要安装Java Runtime Environment(JRE)或Java Development Kit(JDK),我们推荐使用OpenJDK,运行以下命令安装OpenJDK:

sudo yum install java1.8.0openjdkdevel y

安装完成后,验证Java安装情况:

java version

你应该看到类似如下的输出:

java version "1.8.0_xxxx"
Java(TM) SE Runtime Environment (build 1.8.0_xxbxx)
Java HotSpot(TM) 64Bit Server VM (build XX.XXbXX, mixed mode)

2. 安装SSH

Hadoop节点之间需要通过SSH进行通信,即使是单节点集群,也需要配置SSH。

如何在CentOS上安装Hadoop?-图2
(图片来源网络,侵权删除)
sudo yum install opensshserver y

启动并设置SSH服务开机自启:

sudo systemctl start sshd
sudo systemctl enable sshd

生成SSH密钥对:

sshkeygen t rsa P ""

将公钥复制到授权的密钥文件:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

测试SSH无密码登录:

ssh localhost

二、下载与安装Hadoop

1. 获取Hadoop包

从Apache Hadoop官方站下载最新版本的Hadoop,本文以3.3.1版本为例:

如何在CentOS上安装Hadoop?-图3
(图片来源网络,侵权删除)
wget https://downloads.apache.org/hadoop/common/hadoop3.3.1/hadoop3.3.1.tar.gz

2. 解压并移动Hadoop

tar xzvf hadoop3.3.1.tar.gz
sudo mv hadoop3.3.1 /opt/hadoop

3. 配置环境变量

编辑/etc/profile文件,添加以下内容:

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效:

source /etc/profile

三、配置Hadoop

1. 配置coresite.xml

创建并编辑coresite.xml文件:

sudo vi $HADOOP_HOME/etc/hadoop/coresite.xml

添加以下内容:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

2. 配置hdfssite.xml

创建并编辑hdfssite.xml文件:

sudo vi $HADOOP_HOME/etc/hadoop/hdfssite.xml

添加以下内容:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/hadoop/hdfs/datanode</value>
    </property>
</configuration>

3. 配置mapredsite.xml

复制模板文件为正式文件:

cp $HADOOP_HOME/etc/hadoop/mapredsite.xml.template $HADOOP_HOME/etc/hadoop/mapredsite.xml

然后编辑该文件:

sudo vi $HADOOP_HOME/etc/hadoop/mapredsite.xml

添加以下内容:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4. 配置yarnsite.xml

创建并编辑yarnsite.xml文件:

sudo vi $HADOOP_HOME/etc/hadoop/yarnsite.xml

添加以下内容:

<configuration>
    <property>
        <name>yarn.nodemanager.auxservices</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.auxservices.mapreduce.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

四、格式化HDFS

在启动Hadoop之前,需要格式化HDFS:

hdfs namenode format

五、启动Hadoop

启动所有Hadoop服务:

startdfs.sh
startyarn.sh

你可以使用以下命令检查Hadoop是否成功启动:

jps

你应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。

六、访问Hadoop Web界面

你可以通过以下地址访问HDFS和YARN的Web界面

HDFS: http://localhost:9870

YARN: http://localhost:8088

七、FAQ问答

Q1:如何在CentOS上卸载Hadoop?

A1:要卸载Hadoop,可以按照以下步骤操作:

1、停止Hadoop服务:stopdfs.shstopyarn.sh

2、删除Hadoop目录:sudo rm rf /opt/hadoop

3、删除环境变量配置:编辑/etc/profile文件,移除与Hadoop相关的配置,然后执行source /etc/profile使其生效。

4、删除HDFS数据目录:sudo rm rf /opt/hadoop/hdfs

5、确保没有其他依赖项或配置文件保留。

分享:
扫描分享到社交APP
上一篇
下一篇