以下为《hadoop原理介绍ppt》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
Hadoop2.0架构设计与原理数据中心-Alan主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的计算框架6YARN 发展趋势主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop概述 Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架
主要组成:分布式文件系统HDFS和MapReduce算法执行
语言:Java,支持多种编程语言,如:Python、C++
Hadoop的起源Hadoop是Google的集群系统的开源实现
Google集群系统:GFS(Google File System)、MapReduce、BigTable
Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce
Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要
Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。
名称起源: Doug Cutting儿子的黄色大象玩具的名字
目前最新稳定版本2.6.0
什么是大数据数据集主要特点
Volume: 数量量从TB到PB级别
Variety: 数据类型复杂,超过80%的数据是非结构化的
Velocity:数据量在持续增加(两位数的年增长率)
Value:巨大的数据价值
其他特征
数据来自大量源,需要做相关性分析
需要实时或者准实时的流式采集,有些应用90%写vs.10%读
数据需要长时间存储,非热点数据也会被随机访问什么是大数据某比萨店的电话铃响了,客服人员拿起电话。
客服:XXX比萨店。您好,请问有什么需要我为您服务 ?
顾客:你好,我想要一份……
客服:先生,烦请先把您的会员卡号告诉我。
顾客:******。
客服:陈某某,您好!您是住在泉州路一号12楼120x室,请问您想要点什么?
顾客:我想要一个海鲜比萨……
客服:陈某某,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,你的血压和胆固醇都偏高。顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种的?
客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。
顾客:那可以刷卡吗?
客服:陈某某,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款。
客服:陈某某,根据您的记录,您已经超过今日提款限额。
顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。
顾客当即晕倒……大数据VS传统数据大数据处理流程******0111
******0111
*********
*********
******0111
非结构化数据结构化数据实时流数据其它数据 APITextBig Data Store and AnalyticsETL*********
*********
******0111
*********
*********
******0111
Hadoop生态圈主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势HDFS-分布式文件系统设计目标
错误检测和快速自动恢复
硬件故障是常态而非异常
为流式数据访问优化
针对支持大数据集
单个文件大小有数GB或者TB
可提供高聚合带宽访问
可能够扩展至数千个节点
简化“一致性”模型
一次写入、多次读,写入过程可能并发
移动“计算”比移动“数据”更便宜
主要特点
使用低成本存储和服务器构建
存放PB级别的海量数据
高可扩展性,实际生产环境扩展至4000个节点
高可靠性和容错性,数据自动复制,可自我修复
高某某,高并发访问,对于延迟不敏感数据分布与复制数据块:文件被划分为固定大小的数据块进行存储
数据块缺省为64M,远大于一般文件系统数据块大小
减少元数据的量
有利于顺序读写(在磁盘上顺序存放)
可靠性:数据通过副本的方式保存在多个数据节点上
默认3个副本
副本选择会考虑机架信息以防止整个机架同时掉电
系统设计优化:用单个管理节点来保存文件系统元数据和管理/协调
数据缓存:DataNode没有数据缓存
由于文件的访问是扫描式的,不具有局部性
访问方式
读、写、文件改名、删除等
文件内容不允许覆盖更新
提供一个特殊的访问接口:追加append
HDFS基本设计HDFS体系结构中心目录服务器 (NameNode) 管理大量数据服务器(DataNode)
NameNode 管理元数据 (文件目录树, 文件->块映射,块->数据服务器映射表, etc.)
DataNode 负责存储数据、以及响应数据读写请求
客户端与NameNode交互进行文件创建/删除/寻址等操作, 之后直接与DataNodes交互进行文件I/OHDFS写文件流程HDFS读文件流程什么是MapReduce编程模型?Map(映射):对一些独立元素组成的
列表的每一个元素进行指定的操作,可
以高度并行。
Reduce(化简):对一个列表的元素进行合并。
一个简单的MapReduce程序只需要指定map()、reduce()、输入和输出,剩下的事由框架帮你搞定。MapReduce计算框架为离线数据分析而设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架
分析问题能够被并行化,且输入数据集可以被切分
一个Map函数,在第一阶段计算对
一个Reduce函数,在第二阶段用于汇总Map函数的结果MapReduce运行机制MapReduce原理MapReduce实例分析主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop YARN产生背景? 直接源于MRv1在几个方面的缺陷
? 扩展性受限
? 单点故障
? 难以支持MR之外的计算
? 多计算框架各自为战,数据共享困难
? MR:离线计算框架
? Storm:实时计算框架
? Spark:内存计算框架Hadoop 1.0和2.0Hadoop 2.0由HDFS、MapReduce和YARN三个分支构成;
HDFS:NN Federation、HA;
MapReduce:运行在YARN上的MR;
? YARN:资源管理系统主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势Hadoop YARN基本架构Hadoop YARN各模块组成ResourceManager
? 处理客户端请求
启动/监控ApplicationMaster
监控NodeManager
? 资源分配与调度
NodeManager
? 单个节点上的资源管理
处理来自ResourceManager的命令
处理来自ApplicationMaster的命令
ApplicationMaster
? 数据切分
? 为应用程序申请资源,并分配给内部任务
? 任务监控与容错Hadoop YARN运行流程分析Node ManagerNode ManagerNode
ManagerResource
ManagerApplication MasterClientClientClient①②③④⑤⑤⑤⑥⑥TaskContainerContainerTaskTaskContainerHadoop YARN容错ResourceManager
基于ZooKeeper实现HA。
NodeManager
? 失败后,RM将失败任务告诉对应的AM;
? AM决定如何处理失败的任务。
ApplicationMaster
? 失败后,由RM负责重启;
? AM需处理内部任务的容错问题;
? RMAppMaster会保存已经运行完成的Task,重启后无需重新运
行。Hadoop YARN调度框架? 双层调度框架
? RM将资源分配给AM
? AM将资源进一步分配给各个Task
? 基于资源预留的调度策略
? 资源不够时,会为Task预留,直到资源充足
与“all or nothing”策略不同(Apache Mesos)Hadoop YARN资源调度器? 多类型资源调度
采用DRF算法(论文:“Dominant Resource Fairness: Fair
Allocation of Multiple Resource Types”)
? 目前支持CPU和内存两种资源
? 提供多种资源调度器
FIFO
Fair Scheduler
Capacity Scheduler
? 多租户资源调度器
? 支持资源按比例分配
? 支持层级队列划分方式
? 支持资源抢占Hadoop YARN资源隔离方案? 支持内存和CPU两种资源隔离
? 内存是一种“决定生死”的资源
? CPU是一种“影响快慢”的资源
? 内存隔离
? 基于线程监控的方案
基于Cgroups的方案
CPU隔离
? 默认不对CPU资源进行隔离
基于Cgroups的方案Hadoop YARN资源调度语义? 支持的语义
? 请求某个特定节点/机架上的特定资源量
? 将某些节点加入(或移除)黑名单,不再为自己分配这些节点上
的资源
? 请求归还某些资源
? 不支持的语义
? 请求任意节点/机架上的特定资源量
? 请求一组或几组符合某种特质的资源
? 超细粒度资源
动态调整Container资源主要内容Hadoop介绍1Hadoop原理2Hadoop YARN产生的背景 34Hadoop YARN基本架构5运行在YARN上的基本框架6YARN 发展趋势应用程序的运行模型MapinputoutputMapinputReduceoutputStage
1inputoutputStage
2Stage
3Stage
4Stage 1inputoutputStage
2Stage
3Stage
NYARN应用程序类型? 长应用程序和短应用程序
? 长应用程序
?Service、HTTP Server等
? 短应用程序
?MR job、Spark Job等以YARN为核心的生态系统运行在YARN上的计 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 >MapReduceTezHBaseStormGiraphSparkOpenMPIHDFS2(分布式存储系统)……QA[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《hadoop原理介绍ppt》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。