当前位置：首页 > CN2资讯 > 正文内容

hadoop增加服务器部署hadoop的服务器

2天前CN2资讯

一、Hadoop介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
二、Hadoop集群简介
HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。
HDFS集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNode
YARN集群负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeManager
那mapreduce是什么呢？它其实是一个分布式运算编程框架，是应用程序开发包，由用户按照编程规范进行程序开发，后打包运行在HDFS集群上，并且受到YARN集群的资源调度管理。
三、环境准备

主机组件

node1（192.168.1.4）

node2（192.168.1.5）

node3（192.168.1.6）

NameNode

是

否

Secondary Namenode

否

是

否

DataNode

是

ResourceManager

是

否

NodeManager

是

四、Hadoop安装配置
官网下载地址：https://hadoop.apache.org/releases.html
1、将下载好的hadoop-3.3.4.tar.gz包解压到/usr/local下

bin：Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。 etc：Hadoop配置文件所在的目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。 include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。 lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。 libexec：各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。 sbin：Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。 share：Hadoop各个模块编译后的jar包所在的目录，官方自带示例。

2、Hadoop配置文件修改（注意：以下所有操作都在node1主机进行）
Hadoop安装主要就是配置文件的修改，一般在主节点进行修改，完毕后scp下发给其他各个从节点机器
2.1、
该文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的，即使我们当前的系统中设置了JAVA_HOME，它也是不认识的，因为Hadoop即使是在本机上执行，它也是把当前的执行环境当成远程服务器。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim # 在该配置文件中添加以下内容 export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.2、core-site.xml
hadoop的核心配置文件，有默认的配置项core-default.xml。core-default.xml与core-site.xml的功能是一样的，如果在core-site.xml里没有配置的属性，则会自动会获取core-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim core-site.xml # 在该配置文件中添加以下内容  <property> <name>fs.defaultFS</name> <value>hdfs://192.168.1.4:8020</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.3.4/hadoopDatas/tempDatas</value> </property>  <property> <name>io.file.buffer.size</name> <value>4096</value> </property>  <property> <name>fs.trash.interval</name> <value>10080</value> </property>

2.3、hdfs-site.xml
HDFS的核心配置文件，主要配置HDFS相关参数，有默认的配置项hdfs-default.xml。hdfs-default.xml与hdfs-site.xml的功能是一样的，如果在hdfs-site.xml里没有配置的属性，则会自动会获取hdfs-default.xml里的相同属性的值。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim hdfs-site.xml # 在该配置文件中添加以下内容  <property> <name>dfs.namenode.secondary.http-address</name> <value>192.168.1.5:50090</value> </property>  <property> <name>dfs.namenode.http-address</name> <value>192.168.1.4:50070</value> </property>  <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas</value> </property>  <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas</value> </property>  <property> <name>dfs.namenode.edits.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/nn/edits</value> </property>  <property> <name>dfs.namenode.checkpoint.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/snn/name</value> </property> <property> <name>dfs.namenode.checkpoint.edits.dir</name> <value>file:///usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits</value> </property>  <property> <name>dfs.replication</name> <value>3</value> </property>  <property> <name>dfs.permissions</name> <value>false</value> </property>  <property> <name>dfs.blocksize</name> <value>134217728</value> </property>  <property> <name> dfs.hosts </name> <value>/usr/local/hadoop-3.3.4/etc/hadoop/slaves </value> </property>

2.4、mapred-site.xml
MapReduce的核心配置文件，Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# cp mapred-site.xml.template mapred-site.xml [root@192 ~]# vim mapred-site.xml # 在该配置文件中添加以下内容  <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>  <property> <name>mapreduce.job.ubertask.enable</name> <value>true</value> </property>  <property> <name>mapreduce.jobhistory.address</name> <value>192.168.1.4:10020</value> </property>  <property> <name>mapreduce.jobhistory.webapp.address</name> <value>192.168.1.4:19888</value> </property>

2.5、
在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉，然后按照以下方式修改:

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim # 在该配置文件中添加以下内容 export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.9.11-4.ky10.x86_64/bin

2.6、yarn-site.xml
YARN的核心配置文件

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim yarn-site.xml # 在该配置文件中添加以下内容  <property> <name>yarn.resourcemanager.hostname</name> <value>192.168.1.4</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>  <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>  <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>  <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>2048</value> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>2.1</value> </property>

2.7、slaves
slaves文件里面记录的是集群主机名。一般有以下两种作用：
一是：配合一键启动脚本如、用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。
二是：可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。
dfs.hosts指定一个文件，其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在slaves中的主机才可以加入的集群中。如果值为空，则允许所有主机。

[root@192 ~]# cd /usr/local/hadoop-3.3.4/etc/hadoop [root@192 ~]# vim slaves # 删除slaves中的localhost，然后添加以下内容 192.168.1.4 192.168.1.5 192.168.1.6

2.8、数据目录创建，创建hadoop所需目录

[root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/tempDatas [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/namenodeDatas [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/datanodeDatas [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/nn/edits [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/snn/name [root@192 ~]# mkdir -p /usr/local/hadoop-3.3.4/hadoopDatas/dfs/snn/edits

2.9、文件分发
将配置好的hadoop目录分发到node2和node3主机

[root@192 ~]# scp -r /usr/local/hadoop-3.3.4/ node2:/usr/local/ [root@192 ~]# scp -r /usr/local/hadoop-3.3.4/ node3:/usr/local/

3、在node1、node2、node3上分别配置Hadoop环境变量

[root@192 ~]# vim /etc/profile # 添加以下内容 export HADOOP_HOME=/usr/local/hadoop-3.3.4 export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH # 配置完成后使配置文件生效 [root@192 ~]# source /etc/profile

五、启动集群
要启动Hadoop集群，需要启动HDFS和YARN两个集群。
注意：首次启动HDFS时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的HDFS在物理上还是不存在的。
1、在node1上执行格式化命令
[root@192 ~]# hadoop namenode -format
2、单个节点逐步启动
在node1上启动HDFS NameNode
[root@192 ~]# start namenode
在node1、node2、node3三台主机上，分别使用以下命令启动HDFS DataNode
[root@192 ~]# start datanode
在node1主机上使用以下命令启动YARN ResourceManager
[root@192 ~]# start resourcemanager
在node1、node2、node3三台主机上使用以下命令启动YARN nodemanager
[root@192 ~]# start nodemanager
以上脚本位于/usr/local/hadoop-3.3.4/sbin目录下。如果想要停止某个节点上某个角色，只需要把命令中的start改为stop即可。