You are viewing a plain text version of this content. The canonical link for it is here.
Posted to commits@dolphinscheduler.apache.org by GitBox <gi...@apache.org> on 2020/12/24 10:38:43 UTC

[GitHub] [incubator-dolphinscheduler] felix-thinkingdata removed a comment on issue #4288: [Feature][Datax] Datax configures the building module

felix-thinkingdata removed a comment on issue #4288:
URL: https://github.com/apache/incubator-dolphinscheduler/issues/4288#issuecomment-750841086


   > #3885
   > 
   > # 摘要
   > DataX 是阿里巴巴发布的开源项目,是一个高效的离线数据同步工具,常用于异构数据源之间的数据同步
   > DataX 采用的是 Framework + plugin 架构,数据源读取和写入分别对应 Reader 与 Writer 插件,每一种数据源会有对应的 Reader 或者 Writer,DataX 默认地提供了丰富的 Reader 与 Writer 支持,用于适配多种主流数据源。Framework 用于连接 Reader 和 Writer,并负责同步任务中的数据处理、扭转等核心过程。
   > 
   > ## 需求
   > 目前dophinscheduler 已经支持该类型任务的运行和简单配置。在实际运行datax过程中,datax json格式的编写成为了使用datax的痛点。
   > 于是产生了,简化datax配置,与dolphinscheduler资源中心,数据源中心联合,在依托于dolphinscheduler强大的调度能力下。让datax 任务更易用,更好用的需求。
   > 
   > ## 模块设计
   > ##### 1. 与资源中心和数据源中心联合应用。
   > datax 不再简单作为流程中一个task的单独配置。而是把某一种reader到writer的数据流向作为一个数据通路模板。配置后保存在资源中心中的datax 模板模块中。
   > 在dag页面配置datax 任务时,直接选取datax模板即可。也优化了目前datax配置页面无法承载过于复杂的datax配置显示问题。
   > 
   > ##### 2. 独立的datax配置生成页面
   > 如上文中所提到的目前的datax配置页面不太方便完成复杂的datax配置工作。所以在datax配置生成页面,需独立成为一个菜单。把datax的配置分步进行。例如分为:
   > 
   > 1. datax 基础参数 、
   > 2. datax reader 类型和元数据相关信息
   > 3. datax writer 类型和元数据相关信息
   > 4. Reader和writer映射关系
   > 5. 构建datax 配置文件并保存为模板。
   > 
   > ![image](https://user-images.githubusercontent.com/59079269/102868763-8f3e0180-4475-11eb-8216-0caa1186b024.png)
   > ![image](https://user-images.githubusercontent.com/59079269/102868782-97963c80-4475-11eb-9543-819476f8b7c8.png)
   > ![image](https://user-images.githubusercontent.com/59079269/102868798-9e24b400-4475-11eb-9aa3-6eaeb36a0c87.png)
   > ![image](https://user-images.githubusercontent.com/59079269/102868823-a846b280-4475-11eb-92ea-9a947d3f36ce.png)
   
   


----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

For queries about this service, please contact Infrastructure at:
users@infra.apache.org