数据倾斜原因和处理方式
区块链毕设网qklbishe.com为您提供问题的解答
数据倾斜原因和处理方式
数据倾斜的原因是因为某一个维度值的数据相比于其他值数据量特别大,比如某个城市当天点击的数据量特别大,有个聚合计算就是计算城市维度的点击量,这时候就会造成数据倾斜。 发生数据倾斜的操作有两个,group by和join group by 聚合操作,对某几个维度进行聚合,碰巧维度对应某个值数据量特别大,就会造成倾斜。 解决办法:1、看一下数据倾斜的维度是否可以过滤掉,哈哈哈; 2、如果某个维度经常倾斜,可以单独进行计算然后union all 3、维度加盐,聚合,维度去盐,再聚合 join:大小表:尝试使用广播join 大中表:大表维度加盐(比如随机数0-10)+中表每条数据+盐0-10,然后join;先检查造成数据倾斜的维度,然后将这个维度单独join然后union all 大大表:先检查造成数据倾斜的维度,然后将这个维度单独join然后union all
25:03
以上就是关于问题数据倾斜原因和处理方式的答案
欢迎关注区块链毕设网-
web3一级市场套利打新赚钱空投教程
区块链NFT链游项目方科学家脚本开发培训