当前位置:首页 > CN2资讯 > 正文内容

hadoop增加服务器 部署hadoop的服务器

2天前CN2资讯


一、Hadoop介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
二、Hadoop集群简介
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群负责海量数据的存储,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:ResourceManager、NodeManager
那mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。
三、环境准备

主机组件

node1(192.168.1.4)

node2(192.168.1.5)

node3(192.168.1.6)

NameNode




Secondary Namenode




DataNode




ResourceManager




NodeManager




四、Hadoop安装配置
官网下载地址:https://hadoop.apache.org/releases.html
1、将下载好的hadoop-3.3.4.tar.gz包解压到/usr/local下

bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。 etc:Hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。 include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。 lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。 libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。 sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。 share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例。

2、Hadoop配置文件修改(注意:以下所有操作都在node1主机进行)
Hadoop安装主要就是配置文件的修改,一般在主节点进行修改,完毕后scp下发给其他各个从节点机器
2.1、
该文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的,即使我们当前的系统中设置了JAVA_HOME,它也是不认识的,因为Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim # 在该配置文件中添加以下内容 export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.2、core-site.xml
hadoop的核心配置文件,有默认的配置项core-default.xml。core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim core-site.xml # 在该配置文件中添加以下内容 <!-- 用于设置Hadoop的文件系统,由URI指定 --> <property> <name>fs.defaultFS</name> <value>hdfs://192.168.1.4:8020</value> </property> <!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${} --> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.3.4/hadoopDatas/tempDatas</value> </property> <!-- 缓冲区大小,实际工作中根据服务器性能动态调整 --> <property> <name>io.file.buffer.size</name> <value>4096</value> </property> <!-- 开启hdfs的垃圾桶机制,删除掉的数据可以从垃圾桶中回收,单位分钟 --> <property> <name>fs.trash.interval</name> <value>10080</value> </property>

2.3、hdfs-site.xml
HDFS的核心配置文件,主要配置HDFS相关参数,有默认的配置项hdfs-default.xml。hdfs-default.xml与hdfs-site.xml的功能是一样的,如果在hdfs-site.xml里没有配置的属性,则会自动会获取hdfs-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim hdfs-site.xml # 在该配置文件中添加以下内容 <!-- 指定SecondaryNameNode的主机和端口 --> <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.1.5:50090</value> </property> <!-- 指定namenode的页面访问地址和端口 --> <property> <name>dfs.namenode.http-address</name> <value>192.168.1.4:50070</value> </property> <!-- 指定namenode元数据的存放位置 --> <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas</value> </property> <!-- 定义datanode数据存储的节点位置 --> <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas</value> </property> <!-- 定义namenode的edits文件存放路径 --> <property> <name>dfs.namenode.edits.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/nn/edits</value> </property> <!-- 配置检查点目录 --> <property> <name>dfs.namenode.checkpoint.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/snn/name</value> </property> <property> <name>dfs.namenode.checkpoint.edits.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits</value> </property> <!-- 文件切片的副本个数--> <property> <name>dfs.replication</name> <value>3</value> </property> <!-- 设置HDFS的文件权限--> <property> <name>dfs.permissions</name> <value>false</value> </property> <!-- 设置一个文件切片的大小:128M--> <property> <name>dfs.blocksize</name> <value>134217728</value> </property> <!-- 指定DataNode的节点配置文件 --> <property> <name> dfs.hosts </name> <value>/usr/local/hadoop-3.3.4/etc/hadoop/slaves </value> </property>

2.4、mapred-site.xml
MapReduce的核心配置文件,Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# cp mapred-site.xml.template mapred-site.xml [root@192 ~]# vim mapred-site.xml # 在该配置文件中添加以下内容 <!-- 指定分布式计算使用的框架是yarn --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!-- 开启MapReduce小任务模式 --> <property> <name>mapreduce.job.ubertask.enable</name> <value>true</value> </property> <!-- 设置历史任务的主机和端口 --> <property> <name>mapreduce.jobhistory.address</name> <value>192.168.1.4:10020</value> </property> <!-- 设置网页访问历史任务的主机和端口 --> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>192.168.1.4:19888</value> </property>

2.5、
在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉,然后按照以下方式修改:

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim # 在该配置文件中添加以下内容 export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.6、yarn-site.xml
YARN的核心配置文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim yarn-site.xml # 在该配置文件中添加以下内容 <!-- 配置yarn主节点的位置 --> <property> <name>yarn.resourcemanager.hostname</name> <value>192.168.1.4</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 开启日志聚合功能 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 设置聚合日志在hdfs上的保存时间 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> <!-- 设置yarn集群的内存分配方案 --> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>2048</value> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>2.1</value> </property>

2.7、slaves
slaves文件里面记录的是集群主机名。一般有以下两种作用:
一是:配合一键启动脚本如、用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。
二是:可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。
dfs.hosts指定一个文件,其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在slaves中的主机才可以加入的集群中。如果值为空,则允许所有主机。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim slaves # 删除slaves中的localhost,然后添加以下内容 192.168.1.4 192.168.1.5 192.168.1.6

2.8、数据目录创建,创建hadoop所需目录

[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/tempDatas [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/nn/edits [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/snn/name [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits

2.9、文件分发
将配置好的hadoop目录分发到node2和node3主机

[root@192 ~]# scp -r /usr/local/hadoop-3.3.4/ node2:/usr/local/ [root@192 ~]# scp -r /usr/local/hadoop-3.3.4/ node3:/usr/local/

3、在node1、node2、node3上分别配置Hadoop环境变量

[root@192 ~]# vim /etc/profile # 添加以下内容 export HADOOP_HOME=/usr/local/hadoop-3.3.4 export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH # 配置完成后使配置文件生效 [root@192 ~]# source /etc/profile

五、启动集群
要启动Hadoop集群,需要启动HDFS和YARN两个集群。
注意:首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。
1、在node1上执行格式化命令
[root@192 ~]# hadoop namenode -format
2、单个节点逐步启动
在node1上启动HDFS NameNode
[root@192 ~]# start namenode
在node1、node2、node3三台主机上,分别使用以下命令启动HDFS DataNode
[root@192 ~]# start datanode
在node1主机上使用以下命令启动YARN ResourceManager
[root@192 ~]# start resourcemanager
在node1、node2、node3三台主机上使用以下命令启动YARN nodemanager
[root@192 ~]# start nodemanager
以上脚本位于/usr/local/hadoop-3.3.4/sbin目录下。如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可。


    你可能想看:

    扫描二维码推送至手机访问。

    版权声明:本文由皇冠云发布,如需转载请注明出处。

    本文链接:https://www.idchg.com/info/23784.html

    分享给朋友:

    “hadoop增加服务器 部署hadoop的服务器” 的相关文章

    NameSilo优惠码:轻松节省域名注册与续费费用

    NameSilo优惠码有哪些? NameSilo提供了多种优惠码,帮助用户在注册或续费域名时节省费用。比如,新用户可以使用“NEWUSER10”享受10%的折扣,而“SAVE20”则对所有用户开放,提供20%的折扣。如果你在注册或续费.com域名,可以尝试使用“FREEDOM”优惠码,只需支付99美...

    香港虚拟机:提升业务效率与稳定性的最佳选择

    香港虚拟机:提升业务效率与稳定性的最佳选择

    香港虚拟机的定义与应用场景 香港虚拟机是一种基于云计算技术的虚拟服务器服务,它允许用户在香港的数据中心中运行应用程序和存储数据。这种服务特别适合需要低延迟、高带宽和稳定网络连接的场景,比如在线游戏、电子商务平台、金融服务和跨国企业的远程办公系统。香港作为国际金融中心,其数据中心的基础设施和网络连接质...

    DMIT VPS评测:高性能与稳定性的完美结合

    在了解DMIT VPS之前,我想先分享一下我对这家公司的最初印象。记得第一次听到DMIT时,它的名字总是在VPS领域中流传。人们提到它时,无一不带着敬仰,增加了我对它的好奇心。自从它在2017年成立以来,DMIT便以其优秀的服务和产品迅速吸引了不少用户。我也开始关注起它背后的故事。 DMIT的崛起显...

    Debian 修改DNS 设置的详细指南及常见问题解决方法

    了解DNS及其重要性 在日常使用网络的过程中,我们常会遇到“DNS”这个术语。简单来说,DNS(Domain Name System)是互联网的“电话簿”。它将我们输入的域名转换为计算机理解的IP地址,确保我们能够顺利访问网站。如果没有DNS,我们将不得不记住每一个网站的IP地址,那可真是太麻烦了!...

    主机类型与高性能配置详解,选择最适合你的主机方案

    主机的定义与分类 什么是主机? 当我们谈论“主机”这个词时,通常指的是计算机系统,特别是在网络环境中提供服务或资源的设备。我个人觉得主机不仅仅是实体的机器,而是指在网络中扮演着重要角色的一种技术资源。它可以执行各种任务,从存储数据到托管网站,再到运行应用程序,主机的功能几乎无所不包。可以想象,主机就...

    搬瓦工VPS与IPv6: 优化你的网络体验

    搬瓦工(BandwagonHost)作为一家由加拿大IT7 Networks公司推出的品牌,专注于提供性价比较高的VPS主机服务。我一直对VPS的体验充满好奇,尤其是搬瓦工的背景与发展历程。最初,搬瓦工主要销售超低价的OpenVZ方案,吸引了不少预算有限的用户。随着技术的发展和市场需求的变化,搬瓦工...