在当今信息技术飞速发展的时代,大数据处理已成为企业不可或缺的一部分,Hadoop作为开源分布式计算框架,自诞生以来就备受关注,CentOS操作系统以其稳定性、安全性和免费开源的特点,成为服务器环境的热门选择,将Hadoop 2.6.0版本部署在CentOS系统上,能够为中小型企业或学习环境提供一个经济高效的解决方案,作为一名拥有多年系统管理经验的专业人士,我经常协助团队搭建Hadoop集群,今天我将分享如何在CentOS上安装和配置Hadoop 2.6.0,希望能为读者提供实用指导。

在开始安装之前,我们需要确保CentOS系统准备就绪,Hadoop 2.6.0依赖于Java环境,因此第一步是安装合适的JDK版本,建议使用Oracle JDK 7或OpenJDK 7,因为这些版本与Hadoop 2.6.0兼容性较好,您可以通过CentOS的yum包管理器快速安装,打开终端,输入命令yum install java-1.7.0-openjdk,系统会自动处理依赖关系,安装完成后,使用java -version验证安装是否成功,创建专用的Hadoop用户账户,以提高安全性,通过useradd hadoop命令添加用户,并设置密码,配置SSH免密登录,这是Hadoop集群节点间通信的基础,使用ssh-keygen生成密钥对,并将公钥复制到authorized_keys文件中,确保本地SSH连接无障碍。

完成基础准备后,我们进入Hadoop 2.6.0的下载和安装环节,访问Apache Hadoop官方网站或镜像站点,获取Hadoop 2.6.0的压缩包,您可以使用wget命令直接下载,例如wget http://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz,下载完成后,解压文件到合适目录,如/usr/local/,通过tar -xzf hadoop-2.6.0.tar.gz -C /usr/local/命令实现解压,然后重命名目录为hadoop以便于管理,设置环境变量,编辑~/.bashrc文件,添加Hadoop路径,加入export HADOOP_HOME=/usr/local/hadoop和export PATH=$PATH:$HADOOP_HOME/bin,执行source ~/.bashrc使配置生效,输入hadoop version应能显示版本信息,表明安装初步成功。
Hadoop的核心在于其配置文件,正确设置是保证集群运行的关键,进入Hadoop的配置目录,通常位于$HADOOP_HOME/etc/hadoop/,首先修改core-site.xml文件,定义HDFS的默认文件系统,添加如下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration> 这里指定了NameNode的地址,如果您部署多节点集群,需替换localhost为实际IP,配置hdfs-site.xml,设置HDFS参数,定义副本数量:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration> 对于单节点测试,副本数设为1即可,处理mapred-site.xml,默认没有此文件,需从模板复制,执行cp mapred-site.xml.template mapred-site.xml,并添加MapReduce框架配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration> 配置yarn-site.xml以启用资源管理:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration> 这些步骤确保了Hadoop各组件的协调工作,在修改配置文件时,务必检查语法错误,避免因配置不当导致启动失败。

配置完成后,我们需要格式化HDFS并启动Hadoop服务,格式化NameNode,这是初始化HDFS的必要步骤,运行命令hdfs namenode -format,系统会提示格式化成功,注意,格式化会清除现有数据,因此仅在新安装时执行,启动HDFS服务,使用start-dfs.sh脚本,它会启动NameNode、DataNode和SecondaryNameNode,启动YARN资源管理器,运行start-yarn.sh,您可以通过jps命令查看Java进程,确认所有服务正常启动,应看到NameNode、DataNode、ResourceManager等进程,为了验证集群状态,访问Hadoop的Web界面,例如在浏览器中输入http://localhost:50070查看HDFS信息,http://localhost:8088查看YARN界面,这些界面提供了集群监控功能,便于日常管理。
在集群运行后,进行基本测试是必不可少的,在HDFS上创建目录并上传文件,使用命令hdfs dfs -mkdir /input创建输入目录,然后上传本地文件,如hdfs dfs -put /home/user/data.txt /input/,运行一个简单的MapReduce作业,比如WordCount示例,Hadoop自带示例程序,可通过hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /input /output执行,作业完成后,检查输出目录/output中的结果,这个过程不仅验证了安装正确性,还帮助用户熟悉Hadoop操作流程,如果在测试中遇到问题,常见原因包括权限错误或配置遗漏,确保Hadoop用户对相关目录有读写权限,并检查防火墙设置,避免端口阻塞。
Hadoop 2.6.0虽然是一个老版本,但它的稳定性和轻量级特性使其适合教学或资源有限的环境,从专业角度看,我建议用户在部署前评估需求,如果追求新功能,可以考虑更高版本,但2.6.0在兼容性方面表现良好,在实际应用中,定期备份配置文件和监控集群健康是维护的关键,通过本次实践,我希望读者能掌握CentOS上Hadoop的基本部署方法,并根据自身场景灵活调整,大数据技术日新月异,但基础扎实才能走得更远。
