hive join
无    2014-04-26 20:41:35    574    0    0
life

http://blog.csdn.net/wisgood/article/details/17186107

三种策略: reduce端, map端, sort-merge-bucket-join

sort by 不是sorted by

前面两个很好理解,基本上每个人都会接触到,但最后一种,可能有同学还是比较陌生,SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。

划分一个个小表, 那么可以将一些小表作为distributed file放到map端进行join.


上一篇: 不断完善, 不断进步-追求极致

下一篇: HBase要点

574 人读过