HCRM博客

centos hadoop 伪分布

CentOS 下 Hadoop 伪分布,轻松上手大数据

在数据如潮水般汹涌的当下,大数据技术可是热门中的热门,Hadoop,作为处理海量数据的利器,被众多企业和开发者所青睐,对于新手小白来说,在 CentOS 系统上搭建 Hadoop 伪分布模式,是开启大数据探索之旅的第一步,那啥是伪分布模式呢?就是在一个节点上模拟 Hadoop 集群的行为,既方便学习测试,又不用折腾多台机器,简直是入门必备神器!

centos hadoop 伪分布-图1
(图片来源网络,侵权删除)

一、环境准备,万事俱备

咱先得有个 CentOS 系统,这就好比盖房子得有块地,CentOS 稳定可靠,是服务器领域的常青树,安装过程就不啰嗦了,网上教程一大把,照着做准没错,装好后,记得更新系统到最新版本,就像给房子打个坚实的地基,别到时候因为基础问题出岔子。

得给 Hadoop 腾个地儿,在 CentOS 里创建个专门的用户,比如叫“hadoop_user”,这名字随便起,好记就行,为啥要专门建个用户呢?这是为了安全和管理方便,万一以后出问题,不至于把整个系统搞乱套,然后给这个用户设置好权限,就像给房间配好钥匙,该进的进,不该进的别想进。

二、Hadoop 安装,动手动脚

从官网(https://hadoop.apache.org/)下载对应 CentOS 版本的 Hadoop 安装包,这就像去商店买工具,得挑对型号,下载完后,解压到合适的位置,/usr/local/hadoop”,路径随你便,只要自己记得住。

配置环境变量可是个关键活儿,就好比给工具箱贴标签,得让系统知道 Hadoop 在哪儿放着,打开“hadoop_user”用户的配置文件,像“~/.bashrc”或者“~/.bash_profile”(不同 Linux 发行版可能不一样),在文件末尾加上如下内容:

centos hadoop 伪分布-图2
(图片来源网络,侵权删除)
  • export HADOOP_HOME=/usr/local/hadoop
  • export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

加完后,保存退出,然后让配置生效,输入“source ~/.bashrc”,这就告诉系统:“嘿,我这儿新加了东西,赶紧认认!”

三、核心配置,精细雕琢

Hadoop 的配置文件都在“conf”目录下,这里面有几个关键文件得好好琢磨琢磨。

1、hadoopenv.sh:这个文件是设置 Java 环境的,Hadoop 运行离不开 Java 啊,就像汽车得有发动机,找到“export JAVA_HOME”那一行,把 Java 安装路径填进去,要是不确定 Java 装哪儿了,输入“which java”查一查,别填错了,不然 Hadoop 可跑不起来。

2、coresite.xml:这是 Hadoop 的核心配置文件,好比大脑指挥中心,主要配置 HDFS(Hadoop 分布式文件系统)的地址和端口,伪分布模式下,地址就写“localhost”,端口默认就行。

  • <configuration>
  • <property>
  • <name>fs.defaultFS</name>
  • <value>hdfs://localhost:9000</value>
  • </property>
  • </configuration>

就这么几行代码,告诉 Hadoop:“咱这就是大本营,文件都往这儿放。”

centos hadoop 伪分布-图3
(图片来源网络,侵权删除)

3hdfssite.xml:这个文件管 HDFS 的具体参数,伪分布模式下,有些参数得调一调,像“dfs.replication”参数,默认是 3,意思是文件存 3 份副本,咱单机伪分布,改成 1 就成,别浪费资源,还有“dfs.namenode.name.dir”,指定 NameNode 存储元数据的地方,在“hadoop_user”家目录(“~”)下建个“hadoop_data/hdfs/namenode”文件夹,把路径写上。

4、mapredsite.xml:负责 MapReduce 任务的配置,伪分布模式下,主要改“mapreduce.framework.name”参数为“yarn”,启用 YARN 框架管理资源。

5yarnsite.xml:配置 YARN 的相关参数,yarn.nodemanager.auxservices”参数,加上“mapreduce_shuffle”,不然 MapReduce 任务的 Shuffle 阶段会出问题。

每个配置文件都像拼图的一部分,得严丝合缝地拼好,Hadoop 才能顺顺当当跑起来。

四、启动验证,见证奇迹

一切搞定后,激动人心的时刻到了——启动 Hadoop!切换到“hadoop_user”用户,输入“startdfs.sh”和“startyarn.sh”,这两个命令就像按开关,启动 HDFS 和 YARN 服务,如果看到一堆启动成功的信息,别激动过头,接着输入“jps”,看看有没有 NameNode、DataNode、ResourceManager、NodeManager 这些进程在跑,要是都有,恭喜你,Hadoop 伪分布在 CentOS 上成功搭建啦!

这时候,你可以试着用 Hadoop 命令操作 HDFS,hdfs dfs mkdir /user/hadoop_user”,创建一个目录,再“hdfs dfs ls /”看看根目录有啥,感受一下大数据的魅力。

五、常见问题,见招拆招

1、Java 环境问题:要是启动 Hadoop 时报找不到 Java 之类的错,八成是 Java 环境没配好,重新检查“hadoopenv.sh”里的“JAVA_HOME”路径对不对,或者看看 Java 安装是不是完整,有时候差个文件都不行。

2、端口冲突:Hadoop 默认用的端口可能被别的程序占了,启动时就会报错,可以用“netstat tln | grep [端口号]”命令查看端口占用情况,要是冲突了,改 Hadoop 配置文件里的端口号,不过得记住别改乱了,不然各服务之间没法通信。

3、权限问题:如果操作 HDFS 时报权限不够,可能是文件或目录权限没设对,用“chmod”和“chown”命令调整下权限,让“hadoop_user”有读写执行的权限就行。

六、个人观点与归纳

在 CentOS 上搭建 Hadoop 伪分布,虽然刚开始看着步骤挺多,但只要一步一个脚印,稳扎稳打,也不难搞定,这对于想入门大数据的新手来说,是个超棒的实践机会,能亲手摆弄 Hadoop,了解大数据存储和处理的原理,为以后深入学习打下基础,而且在这个过程中,还能学到不少 Linux 系统管理和 Java 环境配置的知识,都是以后工作中用得上的宝贝。

大数据世界很精彩,Hadoop 伪分布只是个开头,等玩熟了,就可以尝试搭建真正的分布式集群,冲击更复杂的大数据项目啦!别犹豫,赶紧动手试试,开启你的大数据之旅吧!

本站部分图片及内容来源网络,版权归原作者所有,转载目的为传递知识,不代表本站立场。若侵权或违规联系Email:zjx77377423@163.com 核实后第一时间删除。 转载请注明出处:https://blog.huochengrm.cn/pc/27823.html

分享:
扫描分享到社交APP
上一篇
下一篇