HDFS block介绍
介绍
HDFS文件在物理上是分块存储(block),块大小通过参数dfs.blocksize控制,hadoop2.x默认128M,老版本64M;
HDFS的设计特点:
1)可以进行超大文件存储
2)对商用硬件要求不高,可以在廉价机器上运行
3)流式数据访问:适合一次写入,多次读出的场景,适合用来做数据分析,并不适合做网盘应用等文件系统
4)HDFS只支持单个写入者,而且文件的写入只能以“添加”方式在文件末尾写数据
5)因为NameNode的原因,不适合大量小文件的存储
6)数据访问的延迟相对较高,不适合进行低延迟处理
默认128M因为最佳传输损耗理论:在一次传输中,寻址时间占总传输时间的1%时,本次传输损耗最小,为最佳性价比传输,目前硬件的发展条件,普通磁盘写速率大概为100M/s,寻址时间10ms,10ms/1%=1s,1s*100M/s=100M,块传输每64k校验一次,因此块大小必须为2的n方,最接近100M的就是128M;
实际开发中要把block设置远大于128MB,比如存储文件是1TB,一般把block大小设置为512MB,但是也不能设置特别大,因为mapreduce任务中map一次只处理一个块中的数据(默认切片大小等于block大小),如果设置太大,任务数就会少,任务运行速度慢;
如果文件小于块大小,不会占用整个块;
如果是固态硬盘,写速度300M/s,块调整到256M;如果是固态硬盘,写速度500M/s,块调整到512M;
不能太大:1)在一些分块读取的场景,不够灵活,会带来额外的网络消耗;2)在上传文件时,一旦发生故障,会造成资源的浪费;
不能太小:1)块太小,同样大小的文件会占用过多的NameNode的元数据空间;2)块太小,在进行读写操作时,会消耗额外的寻址时间;
块缓存:通常DataNode从磁盘读取块,但是对于频繁访问的数据块,DataNode会将其缓存到DataNode节点内存中,以堆外缓存形式存在。默认情况下,一个块只会缓存到一个DataNode内存中,这样计算框架就可以在缓存块上进行计算任务,大大提高读操作性能,进而提高任务效率;