由于数据分布不均衡导致个别reduce数据量太大,整个任务卡在99%无法完成,查看task counter 输入输出是正常任务的几十倍。
123
set hive.auto.convert.join=trueset hive.mapjoin.smalltable.filesize=25000000或者使用 hit /*+mapjoin(a)*/
1234
#map中做部分聚集操作set hive.map.aggr=true#通过设置该参数进行负载均衡set hive.groupby.skewindata=true