You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@doris.apache.org by 41108453 <41...@qq.com.INVALID> on 2024/01/10 08:38:20 UTC

回复:Doris 倒排索引性能和技术选型问题

加我微信细聊:35926237



41108453
41108453@qq.com







                       
原始邮件
                       
                     

发件人:"Jia ZuoTi"< changchengxing@gmail.com &gt;;

发件时间:2024/1/10 15:58

收件人:"dev"< dev@doris.apache.org &gt;;

主题:Doris 倒排索引性能和技术选型问题


尊敬的各位 Doris 开发者们:

您们好!

感谢您们为Doris开发倒排索引功能!

我是一位开源项目爱好者,我注意到在 Doris 项目中,倒排索引依赖的是 Clucene 。

据我所知,Clucene 是依照Lucene 2.3版本用C++重写的,里面关于索引的设计都比较古老,Clucene
的代码脱离主流C++很多。而Doris是在 Clucene 基础上做了二次开发,添加了 B-K-D 树等 Feature,这是一项非常有挑战性的工作。

对此,我有很多疑问。我想请教下您为什么选择 Clucene 这个库?技术选型的时候是否有其他可选择的库?相比于其他倒排引擎库 Clucene
有哪些优势呢?

我注意到 Doris 团队曾经发文称,在日志检索场景下,Doris 是比 ES 快不少的。但在单个文档100KB的大数据场景下,Doris 性能和
ES 相比如何呢?测试倒排索引性能是否有相关工具呢?

诸多疑问困惑我,还望指点迷津。

此致,
敬礼!

ZuoTiJia

联系方式:
changchengxing@gmail.com