You are viewing a plain text version of this content. The canonical link for it is here.
Posted to dev@dolphinscheduler.apache.org by 满天花落 <86...@qq.com> on 2021/05/25 06:41:49 UTC

关于ds增加kafka数据至hudi数据湖功能的开发讨论

DS社区您好:&nbsp;
&nbsp; &nbsp; 作为一个dolphinscheduler长期使用者,首先感谢ds各位开发者的ds的支持与贡献,解决我们公司关于数据治理。
&nbsp; &nbsp; 本人所在公司也在ds基础上开发一些新的功能,增加了kafka数据同步至hudi数据湖的Task类型,有意向开源,就如何与ds集成,就有关问题与社区谈论。
&nbsp; &nbsp; 1.kafka数据至hudi,需要用到数据的元数据,就元数据如何存储问题,我们的做法是在利用datax任务把不同数据源的任务抽取到kafka的同时,判断目标源为kafka时,在数据库维护了一张kafka元数据信息表。
&nbsp; &nbsp; &nbsp;switch (dbType) {
    case HIVE:
        dataxSubTask = new HiveSubTask(taskExecutionContext, logger);
        break;
    case KAFKA:
        dataxSubTask = new KafkaSubTask(taskExecutionContext, logger);
        break;
    default:
        dataxSubTask = new CommonSubTask(taskExecutionContext, logger);
        break;
}

&nbsp; &nbsp; 2.kafka数据至hudi,本质上的其实是跑的spark类型的任务,我们的做法是继承了是sparkTask在此基础上做了扩展,并在前段页面增加了hudi任务节点。
&nbsp; &nbsp; 以上两点想与社区讨论一下,对元数据这块存储社区有什么好的建议?社区是否考虑增加hudi任务节点?集成进强大的ds中去。
&nbsp; &nbsp; &nbsp;&nbsp;

回复:关于ds增加kafka数据至hudi数据湖功能的开发讨论

Posted by CalvinKirs <ac...@163.com>.
hi, for better communication, please use English. Thx


Best Wishes!
CalvinKirs


在2021年05月25日 14:41,满天花落<86...@qq.com> 写道:
DS社区您好:&nbsp;
&nbsp; &nbsp; 作为一个dolphinscheduler长期使用者,首先感谢ds各位开发者的ds的支持与贡献,解决我们公司关于数据治理。
&nbsp; &nbsp; 本人所在公司也在ds基础上开发一些新的功能,增加了kafka数据同步至hudi数据湖的Task类型,有意向开源,就如何与ds集成,就有关问题与社区谈论。
&nbsp; &nbsp; 1.kafka数据至hudi,需要用到数据的元数据,就元数据如何存储问题,我们的做法是在利用datax任务把不同数据源的任务抽取到kafka的同时,判断目标源为kafka时,在数据库维护了一张kafka元数据信息表。
&nbsp; &nbsp; &nbsp;switch (dbType) {
case HIVE:
dataxSubTask = new HiveSubTask(taskExecutionContext, logger);
break;
case KAFKA:
dataxSubTask = new KafkaSubTask(taskExecutionContext, logger);
break;
default:
dataxSubTask = new CommonSubTask(taskExecutionContext, logger);
break;
}

&nbsp; &nbsp; 2.kafka数据至hudi,本质上的其实是跑的spark类型的任务,我们的做法是继承了是sparkTask在此基础上做了扩展,并在前段页面增加了hudi任务节点。
&nbsp; &nbsp; 以上两点想与社区讨论一下,对元数据这块存储社区有什么好的建议?社区是否考虑增加hudi任务节点?集成进强大的ds中去。
&nbsp; &nbsp; &nbsp;&nbsp;

Re: 关于ds增加kafka数据至hudi数据湖功能的开发讨论

Posted by Lidong Dai <da...@gmail.com>.
hi,
   thanks you for your kind words.
good idea, I think we could talk about more detail things in Slack, welcome
to join us through invitation URL :
https://s.apache.org/dolphinscheduler-slack

two things need to do:
1、Please subscribe the dev mailing list :
https://dolphinscheduler.apache.org/en-us/community/development/subscribe.html
2、Please describe this issue in English( English first, then Chinese also
will be OK)




Best Regards
---------------
DolphinScheduler PMC
Lidong Dai
lidongdai@apache.org
---------------


On Tue, May 25, 2021 at 10:59 PM 满天花落 <86...@qq.com> wrote:

> DS社区您好:&nbsp;
> &nbsp; &nbsp; 作为一个dolphinscheduler长期使用者,首先感谢ds各位开发者的ds的支持与贡献,解决我们公司关于数据治理。
> &nbsp; &nbsp;
> 本人所在公司也在ds基础上开发一些新的功能,增加了kafka数据同步至hudi数据湖的Task类型,有意向开源,就如何与ds集成,就有关问题与社区谈论。
> &nbsp; &nbsp;
> 1.kafka数据至hudi,需要用到数据的元数据,就元数据如何存储问题,我们的做法是在利用datax任务把不同数据源的任务抽取到kafka的同时,判断目标源为kafka时,在数据库维护了一张kafka元数据信息表。
> &nbsp; &nbsp; &nbsp;switch (dbType) {
>     case HIVE:
>         dataxSubTask = new HiveSubTask(taskExecutionContext, logger);
>         break;
>     case KAFKA:
>         dataxSubTask = new KafkaSubTask(taskExecutionContext, logger);
>         break;
>     default:
>         dataxSubTask = new CommonSubTask(taskExecutionContext, logger);
>         break;
> }
>
> &nbsp; &nbsp;
> 2.kafka数据至hudi,本质上的其实是跑的spark类型的任务,我们的做法是继承了是sparkTask在此基础上做了扩展,并在前段页面增加了hudi任务节点。
> &nbsp; &nbsp; 以上两点想与社区讨论一下,对元数据这块存储社区有什么好的建议?社区是否考虑增加hudi任务节点?集成进强大的ds中去。
> &nbsp; &nbsp; &nbsp;&nbsp;