数据计算中间件技术综述

  • 时间:
  • 浏览:0

作者:WeiWei

链接:http://c.raqsoft.com.cn/article/1537237515333

来源:乾学院

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

以上不要 不要 不要 不要 我他们 评估数据计算底下件的几条关键考量,可不还要简称为 CHEASE。愿因在 CHEASE 对应的八个方面都得到很好的满足,那这不要 不要 不要 不要 我一款优秀的数据计算底下件。

润乾集算器

数据计算底下件是有一个全新的概念,目前数据计算方面的产品中,与之最接近的是集算器。集算器是北京润乾信息系统科技有限公司全版自主研发的一款轻量级大数据融合计算平台,四种 针对价值形式化和半价值形式化数据的计算设计开发的新型计算引擎。集算器的设计目标,是试图正确处理描述计算的速率单位单位和实施计算的速率单位单位。集算器具有以下这俩特点。

上图是他们 都很熟悉的基于 Hadoop 体系的开源大数据架构图。在这俩架构中,大致可不还要分成三层。最下一层是数据挂接,通常会采用 kafka 愿因 Flume 将 web 日志通过消息队列传送到存储层愿因计算层。对于数据存储,目前 Apache 社区提供了多种存储引擎的选取,除了传统的 HDFS 文件和 HBase,还提供了 Kudu、ORC、Parquet 等列式存储,他们 可不还要根据自身的需求特点进行选取。在这之上的数据计算层,选取就更雄厚了。愿因你想做实时推荐,可不还要采用 Storm、Spark Streaming 那我的流计算引擎对 Kafka 愿因 Flume 传递上来的数据进行实时正确处理。愿因你想进行客户画像,可不还要使用 Mahout 愿因 Spark LMlib 里的机器学习算法进行分类。愿因你想查看当天的销售排名,可不还要使用 HBase、Impala 愿因 Presto。愿因想对这俩商品的销售进行比较繁杂的漏斗分析,则使用 HIVE 愿因 Spark 愿因会更大慨。

当然,他们 根据每所有人的需求,可不还要叠添加 Redistribution 缓存,ElasticSearch 全文本搜索,愿因像 MongoDB、Cassandra 哪些产品。不要 不要 不要 不要 有,他们 会发现,其算是就是大数据计算方面,并没哪些有点痛 心智心智心智旺盛期 的句子的句子 图片 是什么是什么 期的架构,他们 所做的大多算是针对这俩大大问题点不断进行创新、改进和修正,再把几条产品想方式整合起来。这愿因做为有一个新兴的领域,大数据计算方面的技术积累还很不足,还有不要 不要 不要 不要 有难点这么攻克,还位于有一个不断成长的阶段。而在大数据技术开拓创新上,互联网企业是引领潮流的。目前的小量收到追捧的大数据技术产品,大多算是由互联网企业。做为大数据技术的基石的 Hadoop 的基本思想基于 Google 的 Map/Reduce 和 Google File System,Presto 来自于 Facebook,贡献了 Impala 和 Flume 的 Cloudera 算是就是不算一家互联网公司,这俩所含很强的互联网基因。国内的 BAT 等互联网企业也对大数据开源社区做出了很大贡献。

但这也带来了有一个大大问题,那不要 不要 不要 不要 我哪些大数据产品即架构算是针对互联网企业的愿因需求与场景设计的。算是就是哪些需求和场景具有一定的普适性,这俩在企业的整体 IT 架构上,传统企业与互联网企业有着很大的不同。

首先,传统企业和互联网企业在专业技术人员配备上有很大的不同。互联网企业聚集了小量的高水平计算机软件设计开发维护人员,这是绝大多数传统企业所不具备的。这里的差别有一个是在量。传统企业中,有一个拥有几百个技术人员的信息中心愿因是有一个相当大的团队了;而互联网企业的技术人员往往算是数千人的规模,像 BAT 那我的企业,开发维护技术人员都达到了上万人。那我差别则在质上。互联网企业中通常会有一支专门的平台支撑专家团队,有能力自行及时修复开源产品中的 BUG,保障系统服务的稳定运行。而愿因薪资等方面的愿因,传统企业往往太难招到掌握开源产品核心技术的顶级开发者。这给开源产品的使用带来的隐患。一旦开源产品冒出的 BUG 等大大问题,无人可不还要及时应对,愿因给企业的生产服务造成很大的损失。

其次,传统企业的 IT 架构也和互联网企业有很大不同。互联网企业的历史相对较短,这俩具有以开源软件为基础自行研发应用的基因,各企业另一方对各种技术细节业务逻辑都非常了解,大数据系统甚至是和业务系统紧密联系的,无需有不要 的集成性的大大问题。而传统企业往往历史较长,在 IT 建设走不要 种技术路线,往往有小量的架构不统一的遗留系统。不要 不要 不要 不要 有企业过去那我建设过企业数据仓库,现在又始于建设大数据平台,这之间又这么有点痛 严格的划分,不仅造成不要 不要 不要 不要 有功能的重叠,更是造成了不要 不要 不要 不要 有的数据冗余,不要 不要 不要 不要 有数据会在不同的系统中保留多份拷贝,甚至不少企业还要频繁地把同一份数据在不同的系统中来回传输。这就带来了很严重的集成性大大问题。

第三,相对于互联网企业,大多数传统企业的数据量算是就是并这么这么大。相比较 Google 每秒超 10 万次的搜索,支付宝双十一每秒超过 25 万笔交易,绝大多数的传统企业的数据量真没这么大,愿因还不至于成为不可攻克的大大问题。对于那我的数据量,愿因传统的技术就可不还要正确处理,而不一定不到用到 Hadoop 那我重的架构。而为了发现龙 哪些数据中的价值,多源异构的繁杂环境愿因是有一个更加麻烦的大大问题。

他山之石可不还要攻玉

有的如果,在考虑有一个大大问题的正确处理方式时,从类事大大问题的正确处理方式中获得这俩借鉴是有一个不错的始于。

算是就是,在交易类应用领域,也曾冒出过类事的情况表。企业中运行这各种各样的应用系统,哪些应用由不同的开发者开发,技术路线、体系架构、遵循的标准都相差甚远,造成了有一个个信息孤岛,这俩还要共享的信息,不到在系统之间交换,造成不要 不要 不要 不要 有信息的滞后和数据不一致大大问题。

这么如果哪些大大问题正确处理什么时间?又是怎样 正确处理的?————他们发明人家 了底下件。

哪些是底下件,并这么人对它做出有一个科学的定义。总体来说,是有一个为了正确处理分布异构大大问题而提出的有一个概念它位于平台 (硬件和操作系统) 和应用之间,为双方愿因多方提供的通用服务,哪些服务具有标准的线程池接口和协议。针对不同的操作系统和硬件平台,它们可不还要有符合接口和协议规范的多种实现。 正确处理多源异构并算是底下件冒出的唯一愿因,这俩是它正确处理的异构重要大大问题,一般来说,底下件具有以下特点:

这么,为哪些不考虑在数据应用领域也采用底下件技术呢?

数据计算底下件

为哪些提出数据计算底下件这俩概念?愿因在开发数据应用的过程,他们 通常算是被以下的大大问题所困扰。

尚待正确处理的这俩困难

当然,数据计算底下件的概念如果被提出,集算器也是一款新产品,概念还要不断验证完善,产品也肯定会有不要 不要 不要 不要 有不足之处。目前可见的困难由以下两点。