大数据常用的lamda和kappa架构

本文由用户“njzzhiuting061”分享发布 更新时间:2023-04-15 11:00:26 举报文档

以下为《大数据常用的lamda和kappa架构》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

大数据常用的架构

随着多年的大数据的技术发展和积累,越来越多的人发现***所使用的大数据技术大致可以分为两大类,分别是离线处理技术和实时处理技术,要么***只有离线处理技术,要么***只有实时处理技术,但是绝大***基本上都是两种技术架构都带着一起在做,以为我们的业务

1、lambda架构基本介绍

1、业务系统基本流程介绍

/

2、lambda架构基本介绍

lambda架构最早是由storm的创始人,Nathan Marz进行提出并描述了我们目前所了解的lambda架构,其实lamda架构先入为主,已经适用在了绝大部***里面了,绝大***从刚开始发展大数据技术为主,到现在都是采用的lamda架构,lamda架构说白了***的离线和实时处理技术走两条线,离线的专门做离线数据处理(例如使用hive,impala,presto,sparkSQL等各种olap的技术框架),实时的就专门使用实时处理技术(例如storm,sparkStreaming,flink流处理程序等)

3、lamda架构处理数据流程图

/

数据从底层的数据源开始,经过各种各样的格式进入大数据平台,在大数据平台中经过Kafka、Flume等数据组件进行收集,然后分成两条线进行计算。一条线是进入流式计算平台(例如 Storm、Flink或者Spark Streaming),去计算实时 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 In的Jay Kreps结合实际经验和个人体会提出了Kappa架构。Kappa架构的核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用同一套代码。此外Kappa架构认为只有在有必要的时候才会对历史数据进行重复计算,而如果需要重复计算时,Kappa架构下可以启动很多个实例进行重复计算。

/

Kappa架构的核心思想,包括以下三点:

1.用Kafka或者类似MQ队列系统收集各种各样的数据,你需要几天的数据量就保存几天。

2.当需要全量重新计算时,重新起一个流计算实例,从头开始读取数据进行处理,并输出到一个新的结果存储中。

3.当新的实例做完后,停止老的流计算实例,并把老的一些结果删除。

Kappa架构的优点在于将实时和离线代码统一起来,方便维护而且统一了数据口径的问题。而Kappa的缺点也很明显:

● 流式处理对于历史数据的高吞吐量力不从心:所有的数据都通过流式计算,即便通过加大并发实例数亦很难适应IOT时代对数据查询响应的即时性要求。

● 开发周期长:此外Kappa架构下由于采集的数据格式的不统一,每次都需要开发不同的Streaming程序,导致开发周期长。

● 服务器成本浪费:Kappa架构的核心原理依赖于外部高性能存储redis,hbase服务。但是这2种系统组件,又并非设计来满足全量数据存储设计,对服务器成本严重浪费。

[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《大数据常用的lamda和kappa架构》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览