常用的几种大数据架构剖析 -欧洲杯足彩官网

4顶
0踩

常用的几种大数据架构剖析

2018-04-12 10:37 by 副主编 jihong10102006 评论(0) 有74216人浏览

大数据架构

数据分析工作虽然隐藏在业务系统背后，但是具有非常重要的作用，数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以bi系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统，对于bi系统来说，大概的架构图如下：

可以看到在bi系统里面，核心的模块是cube，cube是一个更高层的业务模型抽象，在cube之上可以进行多种操作，例如上钻、下钻、切片等操作。大部分bi系统都基于关系型数据库，关系型数据库使用sql语句进行操作，但是sql在多维操作和分析的表示能力上相对较弱，所以cube有自己独有的查询语言mdx，mdx表达式具有更强的多维表现能力，所以以cube为核心的分析系统基本占据着数据统计分析的半壁江山，大多数的数据库服务厂商直接提供了bi套装软件服务，轻易便可搭建出一套olap分析系统。不过bi的问题也随着时间的推移逐渐显露出来：

bi系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主，对于非结构化和半结构化数据的处理非常乏力，例如图片，文本，音频的存储，分析。
由于数据仓库为结构化存储，在数据从其他系统进入数据仓库这个东西，我们通常叫做etl过程，etl动作和业务进行了强绑定，通常需要一个专门的etl团队去和业务做衔接，决定如何进行数据的清洗和转换。
随着异构数据源的增加，例如如果存在视频，文本，图片等数据源，要解析数据内容进入数据仓库，则需要非常复杂等etl程序，从而导致etl变得过于庞大和臃肿。
当数据量过大的时候，性能会成为瓶颈，在tb/pb级别的数据量上表现出明显的吃力。
数据库的范式等约束规则，着力于解决数据冗余的问题，是为了保障数据的一致性，但是对于数据仓库来说，我们并不需要对数据做修改和一致性的保障，原则上来说数据仓库的原始数据都是只读的，所以这些约束反而会成为影响性能的因素。
etl动作对数据的预先假设和处理，导致机器学习部分获取到的数据为假设后的数据，因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘，则在数据入库经过etl的时候就需要明确定义需要提取的特征数据，否则无法结构化入库，然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下，以hadoop体系为首的大数据分析平台逐渐表现出优异性，围绕hadoop体系的生态圈也不断的变大，对于hadoop系统来说，从根本上解决了传统数据仓库的瓶颈的问题，但是也带来一系列的问题：

从数据仓库升级到大数据架构，是不具备平滑演进的，基本等于推翻重做。
大数据下的分布式存储强调数据的只读性质，所以类似于hive，hdfs这些存储方式都不支持update，hdfs的write操作也不支持并行，这些特性导致其具有一定的局限性。

基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈：

分布式计算：分布式计算的思路是让多个节点并行计算，并且强调数据本地性，尽可能的减少数据的传输，例如spark通过rdd的形式来表现数据的计算逻辑，可以在rdd上做一系列的优化，来减少数据的传输。
分布式存储：所谓的分布式存储，指的是将一个大文件拆成n份，每一份独立的放到一台机器上，这里就涉及到文件的副本，分片，以及管理等操作，分布式存储主要优化的动作都在这一块。
检索和存储的结合：在早期的大数据组件中，存储和计算相对比较单一，但是目前更多的方向是在存储上做更多的手脚，让查询和计算更加高效，对于计算来说高效不外乎就是查找数据快，读取数据快，所以目前的存储不单单的存储数据内容，同时会添加很多元信息，例如索引信息。像类似于parquet和carbondata都是这样的思想。

总的来说，目前围绕hadoop体系的大数据架构大概有以下几种：

传统大数据架构

之所以叫传统大数据架构，是因为其定位是为了解决传统bi的问题，简单来说，数据分析的业务没有发生任何变化，但是因为数据量、性能等问题导致系统无法正常使用，需要进行升级改造，那么此类架构便是为了解决这个问题。可以看到，其依然保留了etl的动作，将数据经过etl动作进入数据存储。

优点：简单，易懂，对于bi系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉bi的组件。

缺点：对于大数据来说，没有bi下如此完备的cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有bi下的cube的灵活度和稳定度，因此对业务支撑的灵活度不够，所以对于存在大量报表，或者复杂的钻取的场景，需要太多的手工定制化，同时该架构依旧以批处理为主，缺乏实时的支撑。

适用场景：数据分析需求依旧以bi场景为主，但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上，流式架构非常激进，直接拔掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了etl，转而替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。虽然有一个存储部分，但是该存储更多的以窗口的形式进行存储，所以该存储并非发生在数据湖，而是在外围系统。

优点：没有臃肿的etl过程，数据的实效性非常高。

缺点：对于流式架构来说，不存在批处理，因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景：预警，监控，对数据有有效期要求的情况。

lambda架构

lambda架构算是大数据系统里面举足轻重的架构，大多数架构基本都是lambda架构或者基于其变种的架构。lambda的数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性，而离线则以批处理方式为主，保障了最终一致性。什么意思呢？流式通道处理为保障实效性更多的以增量计算为主辅助参考，而批处理层则对数据进行全量运算，保障其最终的一致性，因此lambda最外层有一个实时层和离线层合并的动作，此动作是lambda里非常重要的一个动作，大概的合并思路如下：

优点：既有实时又有离线，对于数据分析场景涵盖的非常到位。

缺点：离线层和实时流虽然面临的场景不相同，但是其内部处理的逻辑却是相同，因此有大量荣誉和重复的模块存在。

适用场景：同时存在实时和离线需求的情况。

kappa架构

kappa架构在lambda 的基础上进行了优化，将实时和流部分进行了合并，将数据通道以消息队列进行替代。因此对于kappa架构来说，依旧以流处理为主，但是数据却在数据湖层面进行了存储，当需要进行离线分析或者再次计算的时候，则将数据湖的数据再次经过消息队列重播一次则可。

优点：kappa架构解决了lambda架构里面的冗余部分，以数据可重播的超凡脱俗的思想进行了设计，整个架构非常简洁。

缺点：虽然kappa架构看起来简洁，但是施难度相对较高，尤其是对于数据重播部分。

适用场景：和lambda类似，改架构是针对lambda的优化。

unifield架构

以上的种种架构都围绕海量数据处理为主，unifield架构则更激进，将机器学习和数据处理揉为一体，从核心上来说，unifield依旧以lambda为主，不过对其进行了改造，在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后，新增了模型训练部分，并且将其在流式层进行使用。同时流式层不单使用模型，也包含着对模型的持续训练。

优点：unifield架构提供了一套数据分析和机器学习结合的架构方案，非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点：unifield架构实施复杂度更高，对于机器学习架构来说，从软件包到硬件部署都和数据分析平台有着非常大的差别，因此在实施过程中的难度系数更高。

适用场景：有着大量数据需要分析，同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构，当然还有非常多其他架构，不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展，以上几种思想或许终究也会变得过时。

来自:

分享到：

4
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

常用的几种大数据架构剖析随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以bi系统为主的...

虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件：处理框架。处理...

解读主流大数据架构前几天读到白发川的一篇文章《对比解读五种主流...参考：常用的几种大数据架构剖析引用了作者文中的一些图片，欧洲杯足彩官网的版权归作者所有。从互联网上下载引用的图片，也归原作者所有。 1. ...

大数据常用的架构随着多年的大数据的技术发展和积累，越来越多的人发现各个公司所使用的大数据技术大致可以分为两大类，分别是离线处理技术和实时处理技术，要么个别公司只有离线处理技术，要么个别公司只有实时...

通过合理设计和搭建大数据架构，可以提高数据处理的效率和质量，使得企业和组织能够更好地利用大数据来支持决策和创新。数据源可以是结构化数据，如关系数据库中的表格数据，也可以是非结构化数据，如日志文件、...

kappa 架构是由 linkedin 的前首席工程师杰伊·克雷普斯（jay kreps）提出的一种架构思想。克雷普斯是几个著名开源项目（包括 apache kafka 和 apache samza 这样的流处理系统）的作者之一。 kreps 提出了一个改进 ...

下图是阿里巴巴大数据系统架构图：一、数据采集层数据采集主要分成以下三块数据： 1，web 端日志 2，app 端日志 3，第三方数据（比如 mysql 增量数据同步） web 端和 app 端的日志数据都需要制定各个场景下的...

前几天读到白发川的一篇文章《对比解读五种主流大数据架构的数据分析能力》，文中详细总结了各类数据架构的应用以及原理。作为一名在数据仓库耕耘多年的技术人员，对于其中的一些技术细节还是破解兴趣的，所以随着...

计算机毕业设计，含源码

数据来源：中经数据库主要指标110多个（全部都是纯粹的市辖区指标），大致是： gdp gdp增速第一产业增加值占gdp比重第二产业增加值占gdp比重第三产业增加值占gdp比重人均gdp 社会消费品零售总额固定资产投资(不含农户) 新设外商投资企业数_外商直接投资实际利用外资金额(美元) 一般公共预算收入一般公共预算支出一般公共预算支出_教育一般公共预算支出_科学技术金融机构人民币各项存款余额_个人储蓄存款金融机构人民币各项存款余额金融机构人民币各项贷款余额规模以上工业企业单位数规模以上工业企业单位数_内资企业规模以上工业企业单位数_港澳台商投资企业规模以上工业企业单位数_外商投资企业规模以上工业总产值规模以上工业总产值_内资企业规模以上工业总产值_港澳台商投资企业规模以上工业总产值_外商投资企业规模以上工业企业流动资产合计规模以上工业企业固定资产合计规模以上工业企业利润总额规模以上工业企业应交增值税规模以上工业企业主营业务税金及附加户籍人口数年均户籍人口数户籍人口自然增长率第一产业就业人员占全部城镇单位就业人员比重第二产业就业人员占全部城镇单位就业人员比重第三产业就业人员占全部城镇单位就业人员比重城镇非私营单位就业人员数城镇非私营单位就业人员数_第一产业城镇非私营单位就业人员数_第二产业城镇非私营单位就业人员数_第三产业城镇非私营单位就业人员数_农、林、牧、渔业城镇非私营单位就业人员数_采矿业城镇非私营单位就业人员数_制造业城镇非私营单位就业人员数_电力、热力、燃气及水生产和供应业城镇非私营单位就业人员数_建筑业城镇非私营单位就业人员数_批发和零售业城镇非私营单位就业人员数_交通运输、仓储和邮政业城镇非私营单位就业人员数_住宿和餐饮业城镇非私营单位就业人员数_信息传输、软件和信息技术服务业城镇非私营单位就业人员数_金融业城镇非私营单位就业人员数_房地产业城镇非私营单位就业人员数_租赁和商务服务业城镇非私营单位就业人员数_科学研究和技术服务业城镇非私营单位就业人员数_水利、环境和公共设施管理业城镇非私营单位就业人员数_居民服务、修理和其他服务业城镇非私营单位就业人员数_教育城镇非私营单位就业人员数_卫生和社会工作城镇非私营单位就业人员数_文化、体育和娱乐业城镇非私营单位就业人员数_公共管理、社会保障和社会组织城镇非私营单位在岗职工平均人数城镇就业人员数_私营企业和个体城镇非私营单位在岗职工工资总额城镇非私营单位在岗职工平均工资城镇登记失业人员数建成区面积建设用地面积建设用地面积_居住用地液化石油气供气总量液化石油气供气总量_居民家庭人工煤气、天然气供气总量人工煤气、天然气供气总量_居民家庭液化石油气用气人口人工煤气、天然气用气人口城市公共汽电车运营车辆数城市出租汽车运营车辆数城市公共汽电车客运总量道路面积排水管道长度建成区绿化覆盖面积建成区绿化覆盖率绿地面积公园绿地面积维护建设资金支出土地面积生活用水供水量供水总量全社会用电量城乡居民生活用电量工业生产用电量房地产开发投资房地产开发投资_住宅限额以上批发和零售业法人单位数限额以上批发和零售业商品销售总额普通中学学校数中等职业教育学校数普通小学学校数普通高等学校专任教师数普通中学专任教师数中等职业教育专任教师数普通小学专任教师数普通高等学校在校生数普通中学在校生数中等职业教育在校生数普通小学在校生数电视节目综合人口覆盖率公共图书馆总藏量_图书医疗卫生机构数_医院和卫生院卫生人员数_执业(助理)医师医疗卫生机构床位数_医院和卫生院城镇职工基本养老保险参保人数职工基本医疗保险参保人数失业保险参保人数

c常用算法程序集数值计算非线性方程与方程组的求解提取方式是百度网盘分享地址

5g非正交多载波机制ufmc收发机matlab代码实现，非常新，给5g通信专业研发人员提供帮助.rar

基于matlab的马尔科夫决策过程程序具有很高的价值

2024年全球1,2-环氧丁烷行业总体规模、主要企业国内外市场占有率及排名

快递智能交叉带分拣机sw2020可编辑设计图纸.7z

可升降双动力泵系统cero3.0设计图纸.7z

六路继电器控制板原理图教程.7z

机器学习是一种人工智能（ai）的子领域，致力于研究如何利用数据和算法让计算机系统具备学习能力，从而能够自动地完成特定任务或者改进自身性能。机器学习的核心思想是让计算机系统通过学习数据中的模式和规律来实现目标，而不需要显式地编程。机器学习应用非常广泛，包括但不限于以下领域：图像识别和计算机视觉：机器学习在图像识别、目标检测、人脸识别、图像分割等方面有着广泛的应用。例如，通过深度学习技术，可以训练神经网络来识别图像中的对象、人脸或者场景，用于智能监控、自动驾驶、医学影像分析等领域。自然语言处理：机器学习在自然语言处理领域有着重要的应用，包括文本分类、情感分析、机器翻译、语音识别等。例如，通过深度学习模型，可以训练神经网络来理解和生成自然语言，用于智能客服、智能助手、机器翻译等场景。推荐系统：推荐系统利用机器学习算法分析用户的行为和偏好，为用户推荐个性化的产品或服务。例如，电商网站可以利用机器学习算法分析用户的购买历史和浏览行为，向用户推荐感兴趣的商品。预测和预测分析：机器学习可以用于预测未来事件的发生概率或者趋势。例如，金融领域可以利用机器学习算法进行股票价格预测、信用评分、欺诈检测等。医疗诊断和生物信息学：机器学习在医疗诊断、药物研发、基因组学等领域有着重要的应用。例如，可以利用机器学习算法分析医学影像数据进行疾病诊断，或者利用机器学习算法分析基因数据进行疾病风险预测。智能交通和物联网：机器学习可以应用于智能交通系统、智能城市管理和物联网等领域。例如，可以利用机器学习算法分析交通数据优化交通流量，或者利用机器学习算法分析传感器数据监测设备状态。以上仅是机器学习应用的一部分，随着机器学习技术的不断发展和应用场景的不断拓展，机器学习在各个领域都有着重要的应用价值，并且正在改变我们的生活和工作方式。

fortran是一种编译型语言，这意味着你需要先使用编译器将源代码编译成可执行文件，然后才能运行它。在这个示例中，我们使用了fortran 90/95/2003/2008/2018的语法，因为它是最广泛使用的现代fortran版本之一。fortran的不同版本在语法和特性上可能会有所不同，但这个示例应该在大多数现代fortran编译器中工作。 implicit none语句用于确保所有变量在使用前都必须显式声明，这是一种良好的编程实践，可以避免潜在的错误。 print *和read *分别用于输出和输入操作。星号*表示输出/输入应该使用默认的格式。

常用的几种大数据架构剖析 -欧洲杯足彩官网

4顶0踩