centos hadoop 伪分布-HCRM博客

CentOS 下 Hadoop 伪分布，轻松上手大数据

在数据如潮水般汹涌的当下，大数据技术可是热门中的热门，Hadoop，作为处理海量数据的利器，被众多企业和开发者所青睐，对于新手小白来说，在 CentOS 系统上搭建 Hadoop 伪分布模式，是开启大数据探索之旅的第一步，那啥是伪分布模式呢？就是在一个节点上模拟 Hadoop 集群的行为，既方便学习测试，又不用折腾多台机器，简直是入门必备神器！

（图片来源网络，侵权删除）

一、环境准备，万事俱备

咱先得有个 CentOS 系统，这就好比盖房子得有块地，CentOS 稳定可靠，是服务器领域的常青树，安装过程就不啰嗦了，网上教程一大把，照着做准没错，装好后，记得更新系统到最新版本，就像给房子打个坚实的地基，别到时候因为基础问题出岔子。

得给 Hadoop 腾个地儿，在 CentOS 里创建个专门的用户，比如叫“hadoop_user”，这名字随便起，好记就行，为啥要专门建个用户呢？这是为了安全和管理方便，万一以后出问题，不至于把整个系统搞乱套，然后给这个用户设置好权限，就像给房间配好钥匙，该进的进，不该进的别想进。

二、Hadoop 安装，动手动脚

从官网（https://hadoop.apache.org/）下载对应 CentOS 版本的 Hadoop 安装包，这就像去商店买工具，得挑对型号，下载完后，解压到合适的位置，/usr/local/hadoop”，路径随你便，只要自己记得住。

配置环境变量可是个关键活儿，就好比给工具箱贴标签，得让系统知道 Hadoop 在哪儿放着，打开“hadoop_user”用户的配置文件，像“~/.bashrc”或者“~/.bash_profile”（不同 Linux 发行版可能不一样），在文件末尾加上如下内容：

（图片来源网络，侵权删除）

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin




加完后，保存退出，然后让配置生效，输入“source ~/.bashrc”，这就告诉系统：“嘿，我这儿新加了东西，赶紧认认！”

三、核心配置，精细雕琢

Hadoop 的配置文件都在“conf”目录下，这里面有几个关键文件得好好琢磨琢磨。

1、hadoopenv.sh：这个文件是设置 Java 环境的，Hadoop 运行离不开 Java 啊，就像汽车得有发动机，找到“export JAVA_HOME”那一行，把 Java 安装路径填进去，要是不确定 Java 装哪儿了，输入“which java”查一查，别填错了，不然 Hadoop 可跑不起来。

2、coresite.xml：这是 Hadoop 的核心配置文件，好比大脑指挥中心，主要配置 HDFS（Hadoop 分布式文件系统）的地址和端口，伪分布模式下，地址就写“localhost”，端口默认就行。

<configuration>
 <property>
   <name>fs.defaultFS</name>
   <value>hdfs://localhost:9000</value>
 </property>
</configuration>




就这么几行代码，告诉 Hadoop：“咱这就是大本营，文件都往这儿放。”

（图片来源网络，侵权删除）

3、hdfssite.xml：这个文件管 HDFS 的具体参数，伪分布模式下，有些参数得调一调，像“dfs.replication”参数，默认是 3，意思是文件存 3 份副本，咱单机伪分布，改成 1 就成，别浪费资源，还有“dfs.namenode.name.dir”，指定 NameNode 存储元数据的地方，在“hadoop_user”家目录（“~”）下建个“hadoop_data/hdfs/namenode”文件夹，把路径写上。

4、mapredsite.xml：负责 MapReduce 任务的配置，伪分布模式下，主要改“mapreduce.framework.name”参数为“yarn”，启用 YARN 框架管理资源。

5、yarnsite.xml：配置 YARN 的相关参数，yarn.nodemanager.auxservices”参数，加上“mapreduce_shuffle”，不然 MapReduce 任务的 Shuffle 阶段会出问题。

每个配置文件都像拼图的一部分，得严丝合缝地拼好，Hadoop 才能顺顺当当跑起来。

四、启动验证，见证奇迹

一切搞定后，激动人心的时刻到了——启动 Hadoop！切换到“hadoop_user”用户，输入“startdfs.sh”和“startyarn.sh”，这两个命令就像按开关，启动 HDFS 和 YARN 服务，如果看到一堆启动成功的信息，别激动过头，接着输入“jps”，看看有没有 NameNode、DataNode、ResourceManager、NodeManager 这些进程在跑，要是都有，恭喜你，Hadoop 伪分布在 CentOS 上成功搭建啦！

这时候，你可以试着用 Hadoop 命令操作 HDFS，hdfs dfs mkdir /user/hadoop_user”，创建一个目录，再“hdfs dfs ls /”看看根目录有啥，感受一下大数据的魅力。

五、常见问题，见招拆招

1、Java 环境问题：要是启动 Hadoop 时报找不到 Java 之类的错，八成是 Java 环境没配好，重新检查“hadoopenv.sh”里的“JAVA_HOME”路径对不对，或者看看 Java 安装是不是完整，有时候差个文件都不行。

2、端口冲突：Hadoop 默认用的端口可能被别的程序占了，启动时就会报错，可以用“netstat tln | grep [端口号]”命令查看端口占用情况，要是冲突了，改 Hadoop 配置文件里的端口号，不过得记住别改乱了，不然各服务之间没法通信。

3、权限问题：如果操作 HDFS 时报权限不够，可能是文件或目录权限没设对，用“chmod”和“chown”命令调整下权限，让“hadoop_user”有读写执行的权限就行。

六、个人观点与归纳

在 CentOS 上搭建 Hadoop 伪分布，虽然刚开始看着步骤挺多，但只要一步一个脚印，稳扎稳打，也不难搞定，这对于想入门大数据的新手来说，是个超棒的实践机会，能亲手摆弄 Hadoop，了解大数据存储和处理的原理，为以后深入学习打下基础，而且在这个过程中，还能学到不少 Linux 系统管理和 Java 环境配置的知识，都是以后工作中用得上的宝贝。

大数据世界很精彩，Hadoop 伪分布只是个开头，等玩熟了，就可以尝试搭建真正的分布式集群，冲击更复杂的大数据项目啦！别犹豫，赶紧动手试试，开启你的大数据之旅吧！

centos hadoop 伪分布

小蜜

如何高效剪辑50个旅游视频？步骤与技巧分享！

关羽帅气视频如何剪辑？特效与技巧全解析

PLC DeviceNet 报错03 73，如何快速诊断与解决通信故障？

如何解决apply函数报错问题？

怎么将合拍视频剪辑成与原视频同步？

centos hadoop 伪分布

相关推荐