You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by Bowen Li <bo...@gmail.com> on 2019/03/20 00:09:35 UTC
[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Flink中文频道的童鞋们,大家好,
*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
上我们做了 “Integrating Flink with Hive”
的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
元数据的兼容,和常见的通过Flink 读写
Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
快速回顾下我们内部已经完成的工作:
- Flink/Hive 元数据兼容
- 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions,
partitions, table/partition stats 等元数据
- 三种catalog实现:一种默认的内存catalog;HiveCatalog
用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 Flink
流和批的元数据
- 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
- 统一的function catalog,并支持Hive 简单的 UDF
- Flink/Hive 数据兼容
- Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
- 集成了了上述功能的SQL 客户端
*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
- *各位在使用哪个版本的Hive?有计划升级Hive吗?*
- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
- *有多少Hive UDF?都是什么类型?*
- *对项目有什么问题或者建议?*
大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
Bowen
Re:Re: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by Michael Ran <gr...@163.com>.
- *各位在使用哪个版本的Hive?有计划升级Hive吗?*<br/> 我们是cdh5.8.3 hive 1.1吧。目前稳定考虑升级到CDH6 hive2.1 但是估计时间会比较久<br/><br/>- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*<br/> 目前大部分是hive,因为稳定,一部分是spark 。 希望flink 首先SQL 支持最好兼容hive语法,稳定、稳定很重要。最好能有接口获取血缘 执行计划分析之类的,方便做工具<br/><br/>- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*<br/> 想实时 离线引擎尽量一套搞定吧,维护方便些,当然也考虑性能各方面,以及实时过程中对hive 的一些加载等<br/><br/>- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*<br/> 目前还是脚本任务,数据量一天估计2-4T吧, 批量导入,小时级别导入,然后分析 导出,读写都有<br/><br/> - *有多少Hive UDF?都是什么类型?*<br/> udf 不多,就一些UUID 单字段分割多列 ,雪花算法 等等 <br/><br/> - *对项目有什么问题或者建议?*<br/> API 尽量简单些。有接口处理血缘这块,包括优化分析的,能图形化 最好 哈哈<br/> 其次都有一些用例 demo之类的,尽量完整吧<br/> 有空可以周末约一下呗,杭州地区的
在 2019-03-20 15:21:48,"qianjin Xu" <fo...@gmail.com> 写道:
>非常感谢博闻发起的关于hive的讨论,hive在离线数据仓库处理这块占了我们80%的离线处理使用。
>
>*各位在使用哪个版本的Hive?有计划升级Hive吗?我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
>*各位计划切换Hive引擎吗?有时间点吗?主要是追求稳定输出,版本升级需要对应一系列测试,我们暂时还不打算升级。
>*各位使用Flink-Hive的动机是什么?想只是用一套Flink技术栈,批流合一,方便维护和学习。
>*各位如何使用Hive?数据量有多大?读写都有,一天2T左右。
>*有多少Hive UDF?都是什么类型? 主要GPS行程数据相关的与geo相关的比较多。
>*对项目有什么问题或者建议?flink on hive优先稳定和兼容性。
>
>前进
>
>董鹏 <do...@imdada.cn> 于2019年3月20日周三 上午9:29写道:
>
>> 1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
>> hive太重要了,稳定,夜间跑任务,可以满足。
>> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
>> -
>> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink
>> on hive
>> -
>> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
>> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
>> - *有多少Hive UDF?都是什么类型?*//挺多
>> - *对项目有什么问题或者建议?*//1)flink on hive
>> 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
>>
>>
>> ------------------ Original ------------------
>> From: "Bowen Li"<bo...@gmail.com>;
>> Date: Wed, Mar 20, 2019 08:09 AM
>> To: "user-zh"<us...@flink.apache.org>;
>>
>> Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>>
>>
>> Flink中文频道的童鞋们,大家好,
>>
>> *我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>>
>> 背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
>> 上我们做了 “Integrating Flink with Hive”
>> 的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
>> 元数据的兼容,和常见的通过Flink 读写
>>
>> Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
>>
>> *当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
>>
>> 我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
>>
>> 快速回顾下我们内部已经完成的工作:
>>
>> - Flink/Hive 元数据兼容
>> - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions,
>> partitions, table/partition stats 等元数据
>> - 三种catalog实现:一种默认的内存catalog;HiveCatalog
>> 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
>> Flink
>> 流和批的元数据
>> - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
>> - 统一的function catalog,并支持Hive 简单的 UDF
>> - Flink/Hive 数据兼容
>> - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
>> - 集成了了上述功能的SQL 客户端
>>
>> *我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
>>
>> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
>> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
>> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
>> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
>> - *有多少Hive UDF?都是什么类型?*
>> - *对项目有什么问题或者建议?*
>>
>> 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
>>
>> Bowen
Re: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by qianjin Xu <fo...@gmail.com>.
非常感谢博闻发起的关于hive的讨论,hive在离线数据仓库处理这块占了我们80%的离线处理使用。
*各位在使用哪个版本的Hive?有计划升级Hive吗?我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
*各位计划切换Hive引擎吗?有时间点吗?主要是追求稳定输出,版本升级需要对应一系列测试,我们暂时还不打算升级。
*各位使用Flink-Hive的动机是什么?想只是用一套Flink技术栈,批流合一,方便维护和学习。
*各位如何使用Hive?数据量有多大?读写都有,一天2T左右。
*有多少Hive UDF?都是什么类型? 主要GPS行程数据相关的与geo相关的比较多。
*对项目有什么问题或者建议?flink on hive优先稳定和兼容性。
前进
董鹏 <do...@imdada.cn> 于2019年3月20日周三 上午9:29写道:
> 1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
> hive太重要了,稳定,夜间跑任务,可以满足。
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
> -
> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink
> on hive
> -
> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
> - *有多少Hive UDF?都是什么类型?*//挺多
> - *对项目有什么问题或者建议?*//1)flink on hive
> 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
>
>
> ------------------ Original ------------------
> From: "Bowen Li"<bo...@gmail.com>;
> Date: Wed, Mar 20, 2019 08:09 AM
> To: "user-zh"<us...@flink.apache.org>;
>
> Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>
>
> Flink中文频道的童鞋们,大家好,
>
> *我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>
> 背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
> 上我们做了 “Integrating Flink with Hive”
> 的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
> 元数据的兼容,和常见的通过Flink 读写
>
> Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
>
> *当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
>
> 我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
>
> 快速回顾下我们内部已经完成的工作:
>
> - Flink/Hive 元数据兼容
> - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions,
> partitions, table/partition stats 等元数据
> - 三种catalog实现:一种默认的内存catalog;HiveCatalog
> 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
> Flink
> 流和批的元数据
> - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
> - 统一的function catalog,并支持Hive 简单的 UDF
> - Flink/Hive 数据兼容
> - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
> - 集成了了上述功能的SQL 客户端
>
> *我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
>
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> - *有多少Hive UDF?都是什么类型?*
> - *对项目有什么问题或者建议?*
>
> 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
>
> Bowen
Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by qianjin Xu <fo...@gmail.com>.
感谢 博闻的回复,由于邮件中不能添加图片。这个钉钉图片显示出来是broken的。我将钉钉二维码图片转换成百度图库的链接地址了,链接如下:
https://graph.baidu.com/resource/1021841c75097798b444301553925752.jpg
欢迎各位加入 Flink-Hive 官方用户钉钉群讨论和反馈问题
前进
Bowen Li <bo...@gmail.com> 于2019年3月30日周六 下午1:14写道:
> 感谢大家的回复!下一步我会整理好各位的反馈并转达给我们的团队。
>
> 同时欢迎加入 Flink-Hive 官方用户钉钉群讨论和反馈问题
> [image: image.png]
>
> On Wed, Mar 20, 2019 at 8:39 AM ChangTong He <jf...@gmail.com> wrote:
>
>> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
>>
>> 目前我维护的两套批处理系统分别是CDH5.10.0
>>
>> 和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1;
>>
>> > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
>>
>>
>> 没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑
>>
>> > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
>>
>>
>> 当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼
>>
>> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
>>
>> 大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有
>>
>> > - *有多少Hive UDF?都是什么类型?*
>>
>> 有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断
>>
>> > - *对项目有什么问题或者建议?*
>>
>> 主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql
>> cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎)
>> >
>>
>> 王志明 <wa...@163.com>于2019年3月20日周三 下午8:47写道:
>>
>> > Hi,
>> > “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua
>> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
>> > 目前用的是Apache Hive1.2,暂无升级Hive的计划
>> >
>> > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
>> > 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。
>> >
>> > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
>> > 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。
>> >
>> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
>> > 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> > 在 2019-03-20 09:28:55,"董鹏" <do...@imdada.cn> 写道:
>> > >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
>> > >hive太重要了,稳定,夜间跑任务,可以满足。
>> > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
>> > > -
>> >
>> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink
>> > on hive
>> > > -
>> >
>> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
>> > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
>> > > - *有多少Hive UDF?都是什么类型?*//挺多
>> > > - *对项目有什么问题或者建议?*//1)flink on hive
>> > 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
>> > >
>> > >
>> > >------------------ Original ------------------
>> > >From: "Bowen Li"<bo...@gmail.com>;
>> > >Date: Wed, Mar 20, 2019 08:09 AM
>> > >To: "user-zh"<us...@flink.apache.org>;
>> > >
>> > >Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>> > >
>> > >
>> > >Flink中文频道的童鞋们,大家好,
>> > >
>> > >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>> > >
>> > >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink
>> Meetup
>> > >上我们做了 “Integrating Flink with Hive”
>> > >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
>> > >元数据的兼容,和常见的通过Flink 读写
>> >
>> >
>> >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
>> > >
>> > >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
>> >
>> >
>> >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
>> > >
>> > >快速回顾下我们内部已经完成的工作:
>> > >
>> > > - Flink/Hive 元数据兼容
>> > > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views,
>> functions,
>> > > partitions, table/partition stats 等元数据
>> > > - 三种catalog实现:一种默认的内存catalog;HiveCatalog
>> > > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
>> > Flink
>> > > 流和批的元数据
>> > > - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
>> > > - 统一的function catalog,并支持Hive 简单的 UDF
>> > > - Flink/Hive 数据兼容
>> > > - Hive connector 支持:读取分区和非分去表,partition
>> pruning,Hive简单和复杂数据类型,简单的写
>> > > - 集成了了上述功能的SQL 客户端
>> > >
>> > >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
>> > >
>> > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
>> > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
>> > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
>> > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
>> > > - *有多少Hive UDF?都是什么类型?*
>> > > - *对项目有什么问题或者建议?*
>> > >
>> > >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
>> > >
>> > >Bowen
>> >
>>
>
Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by Bowen Li <bo...@gmail.com>.
感谢大家的回复!下一步我会整理好各位的反馈并转达给我们的团队。
同时欢迎加入 Flink-Hive 官方用户钉钉群讨论和反馈问题
[image: image.png]
On Wed, Mar 20, 2019 at 8:39 AM ChangTong He <jf...@gmail.com> wrote:
> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
>
> 目前我维护的两套批处理系统分别是CDH5.10.0
>
> 和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1;
>
> > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
>
>
> 没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑
>
> > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
>
>
> 当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼
>
> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
>
> 大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有
>
> > - *有多少Hive UDF?都是什么类型?*
>
> 有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断
>
> > - *对项目有什么问题或者建议?*
>
> 主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql
> cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎)
> >
>
> 王志明 <wa...@163.com>于2019年3月20日周三 下午8:47写道:
>
> > Hi,
> > “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua
> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> > 目前用的是Apache Hive1.2,暂无升级Hive的计划
> >
> > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> > 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。
> >
> > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> > 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。
> >
> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> > 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有
> >
> >
> >
> >
> >
> >
> >
> >
> > 在 2019-03-20 09:28:55,"董鹏" <do...@imdada.cn> 写道:
> > >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
> > >hive太重要了,稳定,夜间跑任务,可以满足。
> > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
> > > -
> >
> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink
> > on hive
> > > -
> >
> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
> > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
> > > - *有多少Hive UDF?都是什么类型?*//挺多
> > > - *对项目有什么问题或者建议?*//1)flink on hive
> > 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
> > >
> > >
> > >------------------ Original ------------------
> > >From: "Bowen Li"<bo...@gmail.com>;
> > >Date: Wed, Mar 20, 2019 08:09 AM
> > >To: "user-zh"<us...@flink.apache.org>;
> > >
> > >Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
> > >
> > >
> > >Flink中文频道的童鞋们,大家好,
> > >
> > >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
> > >
> > >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
> > >上我们做了 “Integrating Flink with Hive”
> > >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
> > >元数据的兼容,和常见的通过Flink 读写
> >
> >
> >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
> > >
> > >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
> >
> >
> >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
> > >
> > >快速回顾下我们内部已经完成的工作:
> > >
> > > - Flink/Hive 元数据兼容
> > > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views,
> functions,
> > > partitions, table/partition stats 等元数据
> > > - 三种catalog实现:一种默认的内存catalog;HiveCatalog
> > > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
> > Flink
> > > 流和批的元数据
> > > - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
> > > - 统一的function catalog,并支持Hive 简单的 UDF
> > > - Flink/Hive 数据兼容
> > > - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
> > > - 集成了了上述功能的SQL 客户端
> > >
> > >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
> > >
> > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> > > - *有多少Hive UDF?都是什么类型?*
> > > - *对项目有什么问题或者建议?*
> > >
> > >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
> > >
> > >Bowen
> >
>
Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by ChangTong He <jf...@gmail.com>.
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
目前我维护的两套批处理系统分别是CDH5.10.0
和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1;
> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑
> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有
> - *有多少Hive UDF?都是什么类型?*
有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断
> - *对项目有什么问题或者建议?*
主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql
cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎)
>
王志明 <wa...@163.com>于2019年3月20日周三 下午8:47写道:
> Hi,
> “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> 目前用的是Apache Hive1.2,暂无升级Hive的计划
>
> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。
>
> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。
>
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有
>
>
>
>
>
>
>
>
> 在 2019-03-20 09:28:55,"董鹏" <do...@imdada.cn> 写道:
> >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
> >hive太重要了,稳定,夜间跑任务,可以满足。
> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
> > -
> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink
> on hive
> > -
> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
> > - *有多少Hive UDF?都是什么类型?*//挺多
> > - *对项目有什么问题或者建议?*//1)flink on hive
> 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
> >
> >
> >------------------ Original ------------------
> >From: "Bowen Li"<bo...@gmail.com>;
> >Date: Wed, Mar 20, 2019 08:09 AM
> >To: "user-zh"<us...@flink.apache.org>;
> >
> >Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
> >
> >
> >Flink中文频道的童鞋们,大家好,
> >
> >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
> >
> >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
> >上我们做了 “Integrating Flink with Hive”
> >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
> >元数据的兼容,和常见的通过Flink 读写
>
> >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
> >
> >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
>
> >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
> >
> >快速回顾下我们内部已经完成的工作:
> >
> > - Flink/Hive 元数据兼容
> > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions,
> > partitions, table/partition stats 等元数据
> > - 三种catalog实现:一种默认的内存catalog;HiveCatalog
> > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
> Flink
> > 流和批的元数据
> > - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
> > - 统一的function catalog,并支持Hive 简单的 UDF
> > - Flink/Hive 数据兼容
> > - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
> > - 集成了了上述功能的SQL 客户端
> >
> >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
> >
> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> > - *有多少Hive UDF?都是什么类型?*
> > - *对项目有什么问题或者建议?*
> >
> >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
> >
> >Bowen
>
Re:Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by 王志明 <wa...@163.com>.
Hi,
“Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua
- *各位在使用哪个版本的Hive?有计划升级Hive吗?*
目前用的是Apache Hive1.2,暂无升级Hive的计划
- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。
- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。
- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
希望是用 Flink on Hive 的方式,数据量有TB级,读写都有
在 2019-03-20 09:28:55,"董鹏" <do...@imdada.cn> 写道:
>1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
>hive太重要了,稳定,夜间跑任务,可以满足。
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink on hive
> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
> - *有多少Hive UDF?都是什么类型?*//挺多
> - *对项目有什么问题或者建议?*//1)flink on hive 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
>
>
>------------------ Original ------------------
>From: "Bowen Li"<bo...@gmail.com>;
>Date: Wed, Mar 20, 2019 08:09 AM
>To: "user-zh"<us...@flink.apache.org>;
>
>Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>
>
>Flink中文频道的童鞋们,大家好,
>
>*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>
>背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
>上我们做了 “Integrating Flink with Hive”
>的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
>元数据的兼容,和常见的通过Flink 读写
>Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
>
>*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
>我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
>
>快速回顾下我们内部已经完成的工作:
>
> - Flink/Hive 元数据兼容
> - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions,
> partitions, table/partition stats 等元数据
> - 三种catalog实现:一种默认的内存catalog;HiveCatalog
> 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 Flink
> 流和批的元数据
> - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
> - 统一的function catalog,并支持Hive 简单的 UDF
> - Flink/Hive 数据兼容
> - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
> - 集成了了上述功能的SQL 客户端
>
>*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
>
> - *各位在使用哪个版本的Hive?有计划升级Hive吗?*
> - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
> - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
> - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
> - *有多少Hive UDF?都是什么类型?*
> - *对项目有什么问题或者建议?*
>
>大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
>
>Bowen
Re: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by qianjin Xu <fo...@gmail.com>.
非常感谢博闻发起的关于hive的讨论,hive在离线数据仓库处理这块占了我们80%的离线处理使用。
*各位在使用哪个版本的Hive?有计划升级Hive吗?我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
*各位计划切换Hive引擎吗?有时间点吗?主要是追求稳定输出,版本升级需要对应一系列测试,我们暂时还不打算升级。
*各位使用Flink-Hive的动机是什么?想只是用一套Flink技术栈,批流合一,方便维护和学习。
*各位如何使用Hive?数据量有多大?读写都有,一天2T左右。
*有多少Hive UDF?都是什么类型? 主要GPS行程数据相关的与geo相关的比较多。
*对项目有什么问题或者建议?flink on hive优先稳定和兼容性。
前进
Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Posted by 董鹏 <do...@imdada.cn>.
1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉:
hive太重要了,稳定,夜间跑任务,可以满足。
- *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级
- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink on hive
- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。
- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读
- *有多少Hive UDF?都是什么类型?*//挺多
- *对项目有什么问题或者建议?*//1)flink on hive 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段
------------------ Original ------------------
From: "Bowen Li"<bo...@gmail.com>;
Date: Wed, Mar 20, 2019 08:09 AM
To: "user-zh"<us...@flink.apache.org>;
Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
Flink中文频道的童鞋们,大家好,
*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup
上我们做了 “Integrating Flink with Hive”
的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive
元数据的兼容,和常见的通过Flink 读写
Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。
*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。*
我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。
快速回顾下我们内部已经完成的工作:
- Flink/Hive 元数据兼容
- 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions,
partitions, table/partition stats 等元数据
- 三种catalog实现:一种默认的内存catalog;HiveCatalog
用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 Flink
流和批的元数据
- 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
- 统一的function catalog,并支持Hive 简单的 UDF
- Flink/Hive 数据兼容
- Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写
- 集成了了上述功能的SQL 客户端
*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,*
- *各位在使用哪个版本的Hive?有计划升级Hive吗?*
- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*
- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*
- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*
- *有多少Hive UDF?都是什么类型?*
- *对项目有什么问题或者建议?*
大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。
Bowen