http://blog.csdn.net/wisgood/article/details/17186107
三种策略: reduce端, map端, sort-merge-bucket-join
sort by 不是sorted by
前面两个很好理解,基本上每个人都会接触到,但最后一种,可能有同学还是比较陌生,SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。
划分一个个小表, 那么可以将一些小表作为distributed file放到map端进行join.