You are viewing a plain text version of this content. The canonical link for it is here.
Posted to user-zh@flink.apache.org by Bowen Li <bo...@gmail.com> on 2019/03/18 05:10:51 UTC

Re: Hive 大数据量时运行mapreduce报错

Hi,

这是Flink用户群,只能解答Flink-Hive结合的相关问题,建议你试用下Blink读写Hive。

Hive-MapReduce问题请移步Hive或Hadoop社区

Bowen

On Wed, Mar 13, 2019 at 9:18 PM sam peng <62...@qq.com> wrote:

> 请教大家一个hive的问题,先谢过大家。
>
> 我的机器是32G内存,单点部署,每天落盘大约12G数据到hdfs中。
>
> 需求是对最近七天数据进行去重后inner join关联一直小表.一直失败。
>
> 目前测试将7天数据按分区导入Hive表中,大约70G。select count(*) 直接失败。
>
>
> Nademanager 大小为26G, map内存设置为2g.
> 为了控制map数量,防止mapper 占尽内存我设置
> set mapreduce.input.fileinputformat.split.minsize=10000000;
> 和
> set mapred.map.tasks=10; 均无效
>
> Yarn-site配置:
> yarn.nodemanager.resource.memory-mb 26840
> yarn.scheduler.maximum-allocation-mb 2096
> yarn.scheduler.minimum-allocation-mb 512
> yarn.nodemanager.vmem-pmem-ratio 1.1
>
> Mapred-site.xml 配置
> mapreduce.reduce.java.opts -Xmx2048
> mapreduce.map.java.opts  -Xmx1024
> mapreduce.reduce.memory.mb 2560
> mapreduce.map.memory.mb 1536
>
> 想请教一下大家:
> 1. 数据量大后为何我控制mapper数量仍无法达到预期
> 2. 假设我想用32G 的内存 (26G给nodemanager是因为节点有flume和kafka采集数据) ,处理72G的数据,可以怎么配置?
>
> 叩谢。
>
>
>
>
>