You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@doris.apache.org by Jia ZuoTi <ch...@gmail.com> on 2024/01/10 07:58:34 UTC

Doris 倒排索引性能和技术选型问题

尊敬的各位 Doris 开发者们:

您们好!

感谢您们为Doris开发倒排索引功能!

我是一位开源项目爱好者,我注意到在 Doris 项目中,倒排索引依赖的是 Clucene 。

据我所知,Clucene 是依照Lucene 2.3版本用C++重写的,里面关于索引的设计都比较古老,Clucene
的代码脱离主流C++很多。而Doris是在 Clucene 基础上做了二次开发,添加了 B-K-D 树等 Feature,这是一项非常有挑战性的工作。

对此,我有很多疑问。我想请教下您为什么选择 Clucene 这个库?技术选型的时候是否有其他可选择的库?相比于其他倒排引擎库 Clucene
有哪些优势呢?

我注意到 Doris 团队曾经发文称,在日志检索场景下,Doris 是比 ES 快不少的。但在单个文档100KB的大数据场景下,Doris 性能和
ES 相比如何呢?测试倒排索引性能是否有相关工具呢?

诸多疑问困惑我,还望指点迷津。

此致,
敬礼!

ZuoTiJia

联系方式:
changchengxing@gmail.com