14、Hadoop 入门：MapReduce | DDKK.COM 弟弟快看

把输入目录下的文件按照一定标准逐个进行逻辑切片，形成切片规划。
默认切片大小和块的大小相同128M，每一个切片由一个MapTask处理。

对切片数据按照一定规则读取解析返回<key,value>对。
默认按行读取数据。key是每一行起始位置的偏移量，value是本行的文本内容。

调用Mapper类中的map方法。每读取出一个<key,value>对，调用一次map方法。

按照一定规则对Map输出的键值对进行分区partition。
默认不分区，因为只有一个reducetask，分区的数量就是reducetask运行的数量。

Map输出数据写入内存缓存区，达到比例溢出到磁盘上。溢出spill的时候对键key进行排序sort。默认根据key字典序排序。

对所有的溢出文件进行最终的merge合并，成为一个文件。

在MapReduce中Shuffle并不是将数据洗乱，而是将数据整理成有一定规则的数据，方便reduce端接收。

shuffle这个过程在 Map产生输出数据开始到Reduce取得数据作为输出之前 这个阶段。

shuffle频繁的涉及到内存磁盘之间的反复，这就是MapReduce相比SparkFlink计算慢的原因。