CentOS CDH 安装与配置指南
Cloudera 的 Distribution Including Apache Hadoop(CDH)是一个流行的 Hadoop 发行版,广泛用于大数据处理,本文将详细介绍在 CentOS 7.2 系统上安装和配置 CDH 5.10.0 的步骤,本文假设读者已经具备基本的 Linux 操作和管理技能。
一、前期准备
1. 下载必要的软件包
首先需要下载以下文件:
Cloudera Manager(CM):[clouderamanagerserver5.10.0.tar.gz](https://downloads.cloudera.com/cm5/parcels/5.10.0/clouderamanagerserver5.10.0.tar.gz)
Cloudera Manager Agent(CMA):[clouderamanageragent5.10.0.tar.gz](https://downloads.cloudera.com/cm5/parcels/5.10.0/clouderamanageragent5.10.0.tar.gz)
CDH Parcel:[CDH5.10.0.tar.gz](https://archive.cloudera.com/cdh5/parcels/5.10.0/CDH5.10.0.tar.gz)
将这些文件上传到所有将在集群中使用的节点。
2. 创建必要的用户和组
sudo groupadd hadoop sudo useradd r g hadoop hadoop
二、配置主机名和主机文件
编辑/etc/hosts
文件,使各个节点之间能通过主机名互相解析:
示例条目 172、31.2.159 master 172、31.2.160 slave1 172、31.2.161 slave2
三、禁用 SELinux 和防火墙
1. 禁用 SELinux
在所有节点上执行:
sudo setenforce 0 sudo vi /etc/selinux/config 修改 SELINUX=disabled
2. 禁用防火墙
在所有节点上执行:
sudo systemctl stop firewalld sudo systemctl disable firewalld
四、配置 SSH 免密登录
在所有节点上生成 SSH 密钥对,并将公钥追加到授权文件中:
sshkeygen t rsa P '' sshcopyid i ~/.ssh/id_rsa.pub hadoop@master sshcopyid i ~/.ssh/id_rsa.pub hadoop@slave1 sshcopyid i ~/.ssh/id_rsa.pub hadoop@slave2
五、配置时间同步
安装并启动 NTP 服务:
sudo yum install y ntp sudo systemctl start ntpd sudo systemctl enable ntpd
六、安装和配置 Cloudera Manager Server
1. 解压并安装 Cloudera Manager Server
在主节点(Master)上执行:
tar zxvf clouderamanagerserver5.10.0.tar.gz sudo mv clouderamanager /opt/ sudo chown R hadoop:hadoop /opt/clouderamanager
2. 配置 Cloudera Manager Server
编辑server.xml
文件:
<property> <name>hostname</name> <value>master</value> </property>
初始化数据库:
/opt/clouderamanager/bin/clouderamanagerserver start
访问 [http://master:7180](http://master:7180) 完成 Web UI 的配置。
七、安装和配置 Cloudera Manager Agent
1. 解压并安装 Cloudera Manager Agent
在所有节点上执行:
tar zxvf clouderamanageragent5.10.0.tar.gz sudo mv clouderamanageragent /opt/ sudo chown R hadoop:hadoop /opt/clouderamanageragent
2. 注册 Agent 到 Cloudera Manager Server
在每个节点(包括主节点)上执行:
/opt/clouderamanageragent/bin/clouderamanageragent start &
在 Cloudera Manager Web UI 中添加主机并进行配置。
八、安装 CDH Parcel
1. 解压并安装 CDH Parcel
在所有节点上执行:
tar zxvf CDH5.10.0.tar.gz C /opt/ sudo chown R hadoop:hadoop /opt/CDH5.10.0
2. 配置 CDH Parcel
在所有节点上执行:
/opt/CDH5.10.0/bin/cdhfull start
在 Cloudera Manager Web UI 中添加 CDH Parcel 并进行相关配置。
九、集群完整性检查
在 Cloudera Manager Web UI 中进行集群完整性检查,确保所有组件正常运行,可以通过运行以下命令手动检查:
/opt/CDH5.10.0/bin/hdfs dfsadmin report /opt/CDH5.10.0/bin/mapred status historyserver
十、常见问题解答(FAQs)
Q1:为什么需要禁用 SELinux 和防火墙?
A1:SELinux 可能会限制 Hadoop 所需的一些操作,防火墙会阻止节点之间的通信,为了保证集群的正常运作,这两个功能需要被禁用。
Q2:如何更换损坏的节点?
A2:可以通过以下步骤更换损坏的节点:
1、从集群中移除损坏的节点。
2、备份损坏节点的数据。
3、在新节点上安装相同的软件和配置文件。
4、将备份的数据恢复到新节点。
5、将新节点加入集群,并进行必要的配置调整。
Q3:如何升级 CDH 版本?
A3:升级 CDH 版本的步骤如下:
1、备份现有的数据和配置。
2、停止所有正在运行的服务。
3、卸载当前的 CDH 版本。
4、安装新版本的 CDH。
5、恢复备份的数据和配置。
6、启动所有服务并进行测试。