一区二区三区日韩免费播放,亚洲国产精品人久久,日韩综合在线

maptask工作機(jī)制如圖所示。

MapTask工作機(jī)制圖文詳解

（1）read階段：maptask通過用戶編寫的recordreader，從輸入inputsplit中解析出一個個key/value。

（2）map階段：該節(jié)點(diǎn)主要是將解析出的key/value交給用戶編寫map()函數(shù)處理，并產(chǎn)生一系列新的key/value。

（3）collect收集階段：在用戶編寫map()函數(shù)中，當(dāng)數(shù)據(jù)處理完成后，一般會調(diào)用outputcollector.collect()輸出結(jié)果。在該函數(shù)內(nèi)部，它會將生成的key/value分區(qū)（調(diào)用partitioner），并寫入一個環(huán)形內(nèi)存緩沖區(qū)中。

（4）spill階段：即“溢寫”，當(dāng)環(huán)形緩沖區(qū)滿后，mapreduce會將數(shù)據(jù)寫到本地磁盤上，生成一個臨時文件。需要注意的是，將數(shù)據(jù)寫入本地磁盤之前，先要對數(shù)據(jù)進(jìn)行一次本地排序，并在必要時對數(shù)據(jù)進(jìn)行合并、壓縮等操作。

溢寫階段詳情：

步驟1：利用快速排序算法對緩存區(qū)內(nèi)的數(shù)據(jù)進(jìn)行排序，排序方式是，先按照分區(qū)編號partition進(jìn)行排序，然后按照key進(jìn)行排序。這樣，經(jīng)過排序后，數(shù)據(jù)以分區(qū)為單位聚集在一起，且同一分區(qū)內(nèi)所有數(shù)據(jù)按照key有序。
步驟2：按照分區(qū)編號由小到大依次將每個分區(qū)中的數(shù)據(jù)寫入任務(wù)工作目錄下的臨時文件output/spilln.out（n表示當(dāng)前溢寫次數(shù)）中。如果用戶設(shè)置了combiner，則寫入文件之前，對每個分區(qū)中的數(shù)據(jù)進(jìn)行一次聚集操作。
步驟3：將分區(qū)數(shù)據(jù)的元信息寫到內(nèi)存索引數(shù)據(jù)結(jié)構(gòu)spillrecord中，其中每個分區(qū)的元信息包括在臨時文件中的偏移量、壓縮前數(shù)據(jù)大小和壓縮后數(shù)據(jù)大小。如果當(dāng)前內(nèi)存索引大小超過1mb，則將內(nèi)存索引寫到文件output/spilln.out.index中。

（5）combine階段：當(dāng)所有數(shù)據(jù)處理完成后，maptask對所有臨時文件進(jìn)行一次合并，以確保最終只會生成一個數(shù)據(jù)文件。

當(dāng)所有數(shù)據(jù)處理完后，maptask會將所有臨時文件合并成一個大文件，并保存到文件output/file.out中，同時生成相應(yīng)的索引文件output/file.out.index。

在進(jìn)行文件合并過程中，maptask以分區(qū)為單位進(jìn)行合并。對于某個分區(qū)，它將采用多輪遞歸合并的方式。每輪合并io.sort.factor（默認(rèn)10）個文件，并將產(chǎn)生的文件重新加入待合并列表中，對文件排序后，重復(fù)以上過程，直到最終得到一個大文件。

讓每個maptask最終只生成一個數(shù)據(jù)文件，可避免同時打開大量文件和同時讀取大量小文件產(chǎn)生的隨機(jī)讀取帶來的開銷。

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，謝謝大家對服務(wù)器之家的支持。如果你想了解更多相關(guān)內(nèi)容請查看下面相關(guān)鏈接

原文鏈接：https://blog.csdn.net/qq_43193797/article/details/86062393