Hadoop 在 CentOS 7 上的安装与配置指南
Hadoop 是一个开源的分布式计算框架,常用于大数据处理,本文将详细介绍如何在 CentOS 7 系统上安装与配置 Hadoop,包括环境准备、安装步骤和常见问题解答。
准备工作
1、更新系统
确保你的系统是最新的,执行以下命令来更新系统的包:
sudo yum update y
2、安装 Java
Hadoop 依赖于 Java,因此需要先安装 Java,执行以下命令来安装 Java 开发工具包:
sudo yum install java1.8.0openjdkdevel y
验证 Java 是否安装成功:
java version
3、关闭 SELinux 和防火墙
为了避免网络超时问题,建议关闭 SELinux 和防火墙。
sudo setenforce 0 sudo systemctl stop firewalld sudo systemctl disable firewalld
4、配置主机名和 Hosts 文件
设置主机名为hadoop
并配置/etc/hosts
文件以解析主机名:
sudo hostnamectl sethostname hadoop sudo vi /etc/hosts
添加以下内容:
127.0.0.1 localhost ::1 localhost <你的服务器IP> hadoop
安装 Hadoop
1、下载 Hadoop
访问 [Hadoop官网](http://hadoop.apache.org/releases.html) 下载最新版本,或者使用 wget 命令下载:
wget http://apache.mirrors.tds.net/hadoop/common/hadoopx.x.x/hadoopx.x.x.tar.gz
2、解压 Hadoop
tar zxvf hadoopx.x.x.tar.gz mv hadoopx.x.x /usr/local/hadoop
3、配置环境变量
编辑~/.bashrc
文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
配置 Hadoop
1、配置 Hadoop 环境变量
编辑hadoopenv.sh
文件,设置 Java 的安装路径:
export JAVA_HOME=/usr/lib/jvm/java1.8.0openjdk
2、配置 coresite.xml
编辑$HADOOP_HOME/etc/hadoop/coresite.XML
文件:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
3、配置 hdfssite.xml
编辑$HADOOP_HOME/etc/hadoop/hdfssite.xml
文件:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop/dfs/data</value> </property> </configuration>
4、配置 mapredsite.xml 和 yarnsite.xml
从模板复制并编辑mapredsite.xml.template
和YARNsite.xml.template
文件:
cp $HADOOP_HOME/etc/hadoop/mapredsite.xml.template $HADOOP_HOME/etc/hadoop/mapredsite.xml cp $HADOOP_HOME/etc/hadoop/yarnsite.xml.template $HADOOP_HOME/etc/hadoop/yarnsite.xml
编辑mapredsite.xml
文件:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
编辑yarnsite.xml
文件:
<configuration> <property> <name>yarn.nodemanager.auxservices</name> <value>mapreduce_shuffle</value> </property> </configuration>
启动 Hadoop
1、格式化 HDFS
$HADOOP_HOME/bin/hdfs namenode format
2、启动 HDFS
$HADOOP_HOME/sbin/startdfs.sh
3、启动 YARN
$HADOOP_HOME/sbin/startyarn.sh
4、验证安装
打开浏览器,访问 Hadoop 的 Web 界面:http://localhost:9870(HDFS)和 http://localhost:8088(YARN),可以使用jps
命令检查 Hadoop 进程是否在运行:
jps
常见问题解答(FAQs)
Q1: 如何更改 Hadoop 的默认端口号?
A1: 你可以通过修改相关配置文件中的端口号来更改 Hadoop 的默认端口号,在coresite.xml
中更改fs.defaultFS
属性的值,在hdfssite.xml
中更改dfs.namenode.httpaddress
和dfs.datanode.http.address
属性的值。
Q2: Hadoop 启动失败,该如何排查问题?
A2: Hadoop 启动失败,可以查看日志文件来获取更多信息,Hadoop 的日志文件通常位于$HADOOP_HOME/logs
目录下,你可以查看hadoophadoopnamenodehadoop.log
、hadoophadoopdatanodehadoop.log
、yarnyarnresourcemanagerhadoop.log
和yarnyarnnodemanagerhadoop.log
等日志文件,查找错误信息并进行相应的调整。
Q3: 如何配置多个 DataNode?
A3: 配置多个 DataNode 需要在每台机器上安装 Hadoop,并配置hdfssite.xml
文件,使其指向相同的 NameNode,确保所有 DataNode 的配置文件一致,并且能够相互通信,在 NameNode 上格式化 HDFS,并启动 Hadoop。