轉自 http://blog.csdn.net/xiaoshunzi111/article/details/48367683
HDFS的block是邏輯上的數據塊.Hadoop2.0中每一塊默認大小128MB,實際存儲過程中block大小小于等128MB,它是以文件為存儲對象.如一200MB大小文件,分兩個數據塊128MB+72MB 這里的兩個塊大實際小分別是128MB和72MB
算法分析:
max(minSize, min(maxSize,blockSize))
min(maxSize,blockSize)取maxSize,blockSize之間的最小值
max(minSize, min())取minSize, min()之間的最大值
blockSize=128MB
所以增加切片大小有要調整 min(maxSize,blockSize)中maxSize值
減小切片大小調整minSize值.
具體兩個方法如下:
FileInputFormat.setMaxInputSplitSize(job, size);
FileInputFormat.setMinInputSplitSize(job, size);
新聞熱點
疑難解答