大数据常用的lamda和kappa架构

本文由用户“njzzhiuting061”分享发布更新时间：2023-04-15 11:00:26 举报文档

以下为《大数据常用的lamda和kappa架构》的无排版文字预览，完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的，下载的文档就是什么样的。

大数据常用的架构

随着多年的大数据的技术发展和积累，越来越多的人发现***所使用的大数据技术大致可以分为两大类，分别是离线处理技术和实时处理技术，要么***只有离线处理技术，要么***只有实时处理技术，但是绝大***基本上都是两种技术架构都带着一起在做，以为我们的业务

1、lambda架构基本介绍

1、业务系统基本流程介绍

2、lambda架构基本介绍

lambda架构最早是由storm的创始人，Nathan Marz进行提出并描述了我们目前所了解的lambda架构，其实lamda架构先入为主，已经适用在了绝大部***里面了，绝大***从刚开始发展大数据技术为主，到现在都是采用的lamda架构，lamda架构说白了***的离线和实时处理技术走两条线，离线的专门做离线数据处理（例如使用hive，impala，presto，sparkSQL等各种olap的技术框架），实时的就专门使用实时处理技术（例如storm，sparkStreaming，flink流处理程序等）

3、lamda架构处理数据流程图

数据从底层的数据源开始，经过各种各样的格式进入大数据平台，在大数据平台中经过Kafka、Flume等数据组件进行收集，然后分成两条线进行计算。一条线是进入流式计算平台（例如 Storm、Flink或者Spark Streaming），去计算实时内容过长，仅展示头部和尾部部分文字预览，全文请查看图片预览。 In的Jay Kreps结合实际经验和个人体会提出了Kappa架构。Kappa架构的核心思想是通过改进流计算系统来解决数据全量处理的问题，使得实时计算和批处理过程使用同一套代码。此外Kappa架构认为只有在有必要的时候才会对历史数据进行重复计算，而如果需要重复计算时，Kappa架构下可以启动很多个实例进行重复计算。

Kappa架构的核心思想，包括以下三点：

1.用Kafka或者类似MQ队列系统收集各种各样的数据，你需要几天的数据量就保存几天。

2.当需要全量重新计算时，重新起一个流计算实例，从头开始读取数据进行处理，并输出到一个新的结果存储中。

3.当新的实例做完后，停止老的流计算实例，并把老的一些结果删除。

Kappa架构的优点在于将实时和离线代码统一起来，方便维护而且统一了数据口径的问题。而Kappa的缺点也很明显：

● 流式处理对于历史数据的高吞吐量力不从心：所有的数据都通过流式计算，即便通过加大并发实例数亦很难适应IOT时代对数据查询响应的即时性要求。

● 开发周期长：此外Kappa架构下由于采集的数据格式的不统一，每次都需要开发不同的Streaming程序，导致开发周期长。

● 服务器成本浪费：Kappa架构的核心原理依赖于外部高性能存储redis,hbase服务。但是这2种系统组件，又并非设计来满足全量数据存储设计，对服务器成本严重浪费。

[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《大数据常用的lamda和kappa架构》的无排版文字预览，完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的，下载的文档就是什么样的。

大数据常用的lamda和kappa架构

图片预览

热门关注

相关下载