You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by 小学生 <20...@qq.com> on 2020/07/14 09:56:39 UTC

flink 1.11 upsert结果出错

各位大佬好,请教一个问题flink从Kafka读数,写入mysql,对mysql结果根据主键进行数据更新,看官网是支持“on DUPLICATE”的,但是在执行中报错是这个导致的语法问题。完整代码如下,是在linux下,直接python *.py执行的。请问下这个是不支持吗,还是怎么写呢!


from pyflink.datastream import StreamExecutionEnvironment, TimeCharacteristic, CheckpointingMode
from pyflink.table import StreamTableEnvironment, EnvironmentSettings
source="""
CREATE TABLE kafka_source_tab (&nbsp;&nbsp;&nbsp; &nbsp;
&nbsp;trck_id VARCHAR,
&nbsp;score&nbsp; INT


) WITH (
&nbsp;'connector' = 'kafka',
&nbsp;'topic' = 'alarm_test_g',&nbsp; &nbsp;
&nbsp;'scan.startup.mode' = 'earliest-offset', 
&nbsp;'properties.bootstrap.servers' = '10.2.2.73:2181',
&nbsp;'properties.bootstrap.servers' = '10.2.2.73:9092',
&nbsp;'format' = 'json'&nbsp; 
)
"""

sink="""
CREATE TABLE g_source_tab (
&nbsp;trck_id VARCHAR,
&nbsp;score&nbsp; INT,

PRIMARY KEY (trck_id) NOT ENFORCED
) WITH (
&nbsp;'connector' = 'jdbc',
&nbsp;'url' = 'jdbc:mysql://10.2.2.77:3306/bdt?useSSL=false',&nbsp; 
&nbsp;'table-name' = 'g',&nbsp; &nbsp;
&nbsp;'username' = 'root',
&nbsp;'password' = '123456t',
&nbsp;'sink.buffer-flush.interval' = '1s'
)
"""
env = StreamExecutionEnvironment.get_execution_environment()
env.set_stream_time_characteristic(TimeCharacteristic.EventTime)
env.set_parallelism(1)
env_settings = EnvironmentSettings.new_instance().use_blink_planner().in_streaming_mode().build()
t_env = StreamTableEnvironment.create(env, environment_settings=env_settings)



t_env.execute_sql(source)
t_env.execute_sql(sink)


table_result1=t_env.execute_sql('''Insert into g_source_tab (`trck_id`,`score`) VALUES (select
&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;trck_id,score from kafka_source_tab ) ON DUPLICATE KEY UPDATE score=score+1''')

table_result1.get_job_client().get_job_execution_result().result()

Re: flink 1.11 upsert结果出错

Posted by Leonard Xu <xb...@gmail.com>.

> 在 2020年7月16日,11:44,小学生 <20...@qq.com> 写道:
> 
> t_env.execute_sql('''delete from source_tab where trck_id='aew'&nbsp; ''')

你这张表定义的是 Flink 中的表,这张表对应的是你外部系统(MySQL数据库)中的表,Flink 不支持 表上 的DELETE [1], Flink 是一个计算引擎,
主要场景是读取、写入外部系统,修改外部系统的数据目前只发生在写入(insert)的时候,并且主要是为了保证数据一致性语义,需要往下游系统发Delete消息,
这个delete的消息的处理都是各个connector自己处理的,用户不用显示地调用delete, 你可以参考[2]了解更多。

祝好
[1]https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/sql/ <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/sql/>
[2]https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/streaming/dynamic_tables.html <https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/table/streaming/dynamic_tables.html> 

Re: flink 1.11 upsert结果出错

Posted by 小学生 <20...@qq.com>.
您好,比如说我这个例子,我使用delete就出错了,我想知道是啥原因呢,
from pyflink.datastream import StreamExecutionEnvironment, TimeCharacteristic, CheckpointingMode
from pyflink.table import StreamTableEnvironment, EnvironmentSettings
source="""
CREATE TABLE source_tab (
&nbsp;trck_id VARCHAR,
&nbsp;score&nbsp; INT,
PRIMARY KEY (trck_id) NOT ENFORCED
) WITH (
&nbsp;'connector' = 'jdbc',
&nbsp;'url' = 'jdbc:mysql://10.2.2.77:3306/bdt?useSSL=false',&nbsp;
&nbsp;'table-name' = 'g',&nbsp; &nbsp;
&nbsp;'username' = 'root',
&nbsp;'password' = '123456t',
&nbsp;'sink.buffer-flush.interval' = '1s'
)
"""
sink="""
CREATE TABLE sink_tab (
&nbsp;trck_id VARCHAR,
&nbsp;score&nbsp; INT,
PRIMARY KEY (trck_id) NOT ENFORCED
) WITH (
&nbsp;'connector' = 'jdbc',
&nbsp;'url' = 'jdbc:mysql://10.2.2.77:3306/bdt?useSSL=false',&nbsp;
&nbsp;'table-name' = 'g_copy',&nbsp; &nbsp;
&nbsp;'username' = 'root',
&nbsp;'password' = '123456t',
&nbsp;'sink.buffer-flush.interval' = '1s'
)
"""
env = StreamExecutionEnvironment.get_execution_environment()
env.set_stream_time_characteristic(TimeCharacteristic.EventTime)
env.set_parallelism(1)
env_settings = EnvironmentSettings.new_instance().use_blink_planner().in_streaming_mode().build()
t_env = StreamTableEnvironment.create(env, environment_settings=env_settings)


t_env.execute_sql(source)
t_env.execute_sql(sink)


t_env.execute_sql('''delete from source_tab where trck_id='aew'&nbsp; ''')
table_result1=t_env.execute_sql('''insert into&nbsp; sink_tab select * from source_tab ''')
table_result1.get_job_client().get_job_execution_result().result()

Re: flink 1.11 upsert结果出错

Posted by Xingbo Huang <hx...@gmail.com>.
Hi,
你需要什么样的例子,如果你用的table/sql的话,在官方文档对应的地方都有java/scala/python的对应写法。如果是python
udf相关的东西,你可以参考[1]

[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/python/

Best,
Xingbo

小学生 <20...@qq.com> 于2020年7月16日周四 上午11:14写道:

> 谢谢两位大佬的解答,但是理解有点抽象,不太清楚,有没有pyflink下一个简单例子呢。

Re: flink 1.11 upsert结果出错

Posted by 小学生 <20...@qq.com>.
谢谢两位大佬的解答,但是理解有点抽象,不太清楚,有没有pyflink下一个简单例子呢。

Re: flink 1.11 upsert结果出错

Posted by Xingbo Huang <hx...@gmail.com>.
Hi,
Leonard 说的是对的,除了udf的部分,pyflink的所有的api都是调用的java端的功能,如果java端没有,pyflink就不支持

Best,
Xingbo

Leonard Xu <xb...@gmail.com> 于2020年7月16日周四 上午11:09写道:

> Hi,
>
> 我理解 pyflink 底层也会走到你看到的java代码, 我对 pyflink 不是很熟, cc xingbo 补充下。
>
> 祝好
> Leonard Xu
>
> > 在 2020年7月16日,11:04,小学生 <20...@qq.com> 写道:
> >
> > 各位大佬好,由于不是特别懂java,所以麻烦问下pyflink里面有相关mysql的delete吗,官网没看到,谢谢!
>
>

Re: flink 1.11 upsert结果出错

Posted by Leonard Xu <xb...@gmail.com>.
Hi,

我理解 pyflink 底层也会走到你看到的java代码, 我对 pyflink 不是很熟, cc xingbo 补充下。

祝好
Leonard Xu

> 在 2020年7月16日,11:04,小学生 <20...@qq.com> 写道:
> 
> 各位大佬好,由于不是特别懂java,所以麻烦问下pyflink里面有相关mysql的delete吗,官网没看到,谢谢!


Re: flink 1.11 upsert结果出错

Posted by 小学生 <20...@qq.com>.
各位大佬好,由于不是特别懂java,所以麻烦问下pyflink里面有相关mysql的delete吗,官网没看到,谢谢!

Re: flink 1.11 upsert结果出错

Posted by 小学生 <20...@qq.com>.
嗯嗯,麻烦问下Python版本的相关资料有吗

Re: flink 1.11 upsert结果出错

Posted by Leonard Xu <xb...@gmail.com>.
Hi,

基本类似的,具体拼delete sql会根据 pk 来, 可以看下delete executor的代码[1]

祝好,
Leonard Xu
【1】https://github.com/apache/flink/blob/master/flink-connectors/flink-connector-jdbc/src/main/java/org/apache/flink/connector/jdbc/internal/executor/BufferReduceStatementExecutor.java#L89 <https://github.com/apache/flink/blob/master/flink-connectors/flink-connector-jdbc/src/main/java/org/apache/flink/connector/jdbc/internal/executor/BufferReduceStatementExecutor.java#L89>

> 在 2020年7月15日,11:05,小学生 <20...@qq.com> 写道:
> 
> 嗯嗯,谢谢大佬的理解,还有一个问题,就是除了update,这个我看新性能也支持delete的,但是没找到相关的部分,delete这个是否类似:delete table1 where score=1;烦请大佬帮忙解答下,不胜感激。


Re: flink 1.11 upsert结果出错

Posted by 小学生 <20...@qq.com>.
嗯嗯,谢谢大佬的理解,还有一个问题,就是除了update,这个我看新性能也支持delete的,但是没找到相关的部分,delete这个是否类似:delete table1 where score=1;烦请大佬帮忙解答下,不胜感激。

Re: flink 1.11 upsert结果出错

Posted by Leonard Xu <xb...@gmail.com>.
是的,目前是更新相同pk的记录,如果需要统计相同pk的记录, Flink表不声明PK就是append 写入,就会有写入多条记录,(DB里的表也不声明pk,不然insert会报错)。

祝好


> 在 2020年7月14日,18:21,小学生 <20...@qq.com> 写道:
> 
> 嗯嗯,谢谢大佬的解答,还有一个问题就是sql自己的语法是支持增量式的比如score=score+1,现在flink1.11特性反应成数据库 upsert SQL的方式,其实是全量的更新同Pk的记录吧,并达不到增量的情况吧。


Re: flink 1.11 upsert结果出错

Posted by 小学生 <20...@qq.com>.
嗯嗯,谢谢大佬的解答,还有一个问题就是sql自己的语法是支持增量式的比如score=score+1,现在flink1.11特性反应成数据库 upsert SQL的方式,其实是全量的更新同Pk的记录吧,并达不到增量的情况吧。

Re: flink 1.11 upsert结果出错

Posted by Leonard Xu <xb...@gmail.com>.
Hello,

> 在 2020年7月14日,17:56,小学生 <20...@qq.com> 写道:
> 
> ON DUPLICATE KEY UPDATE 

这个语法 Flink 还不支持的,官网上说的 Flink 的 JDBC connector 实现 幂等写入[1]的方式,就是有相同pk的数据在写入数据库时,翻译成数据库 upsert SQL的方式,这里说的语法是数据库的 SQL 语法 。


Best,
Leonard Xu
[1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/jdbc.html#idempotent-writes <https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/jdbc.html#idempotent-writes>