搜索

Apache Kylin 和 Apache Doris有什么不同？

hadoop

网友回复

先看二者的介绍

Apache Kylin：

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin™ 令使用者仅需三步，即可实现超大数据集上的亚秒级查询。

1定义数据集上的一个星形或雪花形模型

2在定义的数据表上构建cube

3使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询，仅需亚秒级响应时间即可获得查询结果

Kylin 提供与多种数据可视化工具的整合能力，如 Tableau，PowerBI 等，令用户可以使用 BI 工具对 Hadoop 数据进行分析。

Kylin的核心思想是预计算，利用空间换时间来加速查询模式固定的OLAP查询。 Kylin的理论基础是Cube理论，每一种维度组合称之为Cuboid，所有Cuboid的集合是Cube。其中由所有维度组成的Cuboid称为Base Cuboid，所有的Cuboid都可以基于Base Cuboid计算出来。在查询时，Kylin会自动选择满足条件的最“小”Cuboid，比如下面的SQL就会对应Cuboid（A,B）:

select xx from table where A=xx group by B

上图是Kylin数据流转的示意图，Kylin自身的组件只有两个：JobServer和QueryServer。Kylin的JobServer主要负责将数据源（Hive,Kafka）的数据通过计算引擎（MapReduce，Spark）生成Cube存储到存储引擎（HBase）中；QueryServer主要负责SQL的解析，逻辑计划的生成和优化，向HBase的多个Region发起请求，并对多个Region的结果进行汇总，生成最终的结果集。

在架构设计上，Kylin的数据源，构建Cube的计算引擎，存储引擎都是可插拔的。Kylin的核心就是这套可插拔架构，Cube数据模型和Cuboid的算法。

Apache Doris

Doris是支持对海量大数据进行快速分析的MPP数据库。主要整合了Google Mesa（数据模型），Apache Impala（MPP Query Engine)和Apache ORCFile (存储格式，编码和压缩) 的技术。

Doris的系统架构如下，Doris主要分为FE和BE两个组件，FE主要负责查询的编译，分发和元数据管理（基于内存，类似HDFS NN）；BE主要负责查询的执行和存储系统。

那么我们看看他们之间几点不同

元数据存储不同

Kylin的元数据： Kylin的元数据是利用HBase存储的，可以很好地横向扩展。Kylin每个具体的元数据都是一个Json文件，HBase的Rowkey是文件名，Value是Json文件的内容。Kylin的元数据表设置了IN_MEMORY => 'true' 属性, 元数据表会常驻HBase RegionServer的内存，所以元数据的查询性能很好，一般在几ms到几十ms。 Kylin元数据利用HBase存储的一个问题是，在Kylin可插拔架构下，即使我们实现了另一种存储引擎，我们也必须部署HBase来存储元数据，所以Kylin要真正做到存储引擎的可插拔，就必须实现一个独立的元数据存储。 Doris的元数据： Doris的元数据是基于内存的，这样做的好处是性能很好且不需要额外的系统依赖。缺点是单机的内存是有限的，扩展能力受限，但是根据Doris开发者的反馈，由于Doris本身的元数据不多，所以元数据本身占用的内存不是很多，目前用大内存的物理机，应该可以支撑数百台机器的OLAP集群。此外，OLAP系统和HDFS这种分布式存储系统不一样，我们部署多个集群的运维成本和1个集群区别不大。

部署方式不同

Kylin部署：如果完全从零开始，你就需要部署1个Hadoop集群和HBase集群。即使公司已经有了比较完整的Hadoop生态，在部署Kylin前，你也必须先部署Hadoop客户端，HBase客户端，Hive客户端，Spark客户端。

Doris部署：直接部署FE和BE组件即可。 运维不同

Kylin运维：运维Kylin对Admin有较高的要求，首先必须了解HBase，Hive，MapReduce，Spark，HDFS，Yarn的原理；其次对MapReduce Job和Spark Job的问题排查和调优经验要丰富；然后必须掌握对Cube复杂调优的方法；最后出现问题时排查的链路较长，复杂度较高。 Doris运维： Doris只需要理解和掌握系统本身即可。 查询接入不同

Kylin查询接入：Kylin支持Htpp,JDBC,ODBC 3种查询方式。

Doris查询接入： Doris支持Mysql协议，现有的大量Mysql工具都可以直接使用，用户的学习和迁移成本较低。

by thinkfuture

我知道答案，我要回答

我有问题

私活外包

Apache Kylin 和 Apache Doris有什么不同？

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

盲盒游戏开发

帮我们优化架构应对秒杀

找一个兼职产品经理与客户沟通绘制原型

如何用php调用腾讯混元api？

andriod手机如何实现抖音自动发布短视频等内容？

ai如何自动创作文章或视频帮你发布各大自媒体平台并运营账号赚钱？

有没有类似字节coze和百度agentbuilder支持插件的开源项目？

如何为百度智能体agentbuilder与appbuilder开发自己的插件？

如何使用Dockerfile打包镜像？

如何通过api实时生成数字人说话视频？

如何将python程序源码和依赖及环境直接打包成exe在其他电脑打开就能运行？

LDAP和Active Directory有啥区别？

Vue3异步组件代码怎么写？