IPFS存儲機械硬盤服務器可靠性分析

2019-05-23 11:17:15 GDIDC

    在企業級存儲市場中,結構化數據的存儲很快就會是SSD的天下,機械硬盤(HDD)會逐步退出;非結構化數據因為其巨大的容量,從成本的角度來看,會長時間存在。但不論怎么說,SSD代替HDD是趨勢。

    生產HDD的廠家很少,就WD、希捷、HGST等,其中,HGST也是WD的子公司。看似他們壟斷了市場,但他們的日子卻不好過。因為HDD大勢已去,在SSD領域,領先的卻是Intel、三星等玩家。HDD越做越大,價格也越來越低。

    但IPFS等存儲挖礦項目卻讓HDD市場又看到了一點希望。今年,10TB以及以上的硬盤大幅度缺貨,價格比去年的最低點已經上漲了30%。瘋狂的玩家囤礦機(存儲服務器)、囤硬盤。我從好幾個地方,都聽到了有人批量買幾萬塊硬盤的事情。

   【注:只是聽說,不一定代表事實】也冒出來了各種各樣的IPFS礦機,大多數都像最低端的群暉NAS一樣,插了一塊硬盤,擴展性不是特別好,放在家里,等待文件幣發布就挖礦。

    如果這個礦機能做一個家用NAS,也挺好的。許多人也在對比各種礦機。但大家容易忽視的是,同是機械硬盤,其可靠性也千差萬別。我們不能光看硬盤容量,而要看洞察更多的硬盤參數。好在這些參數不多,非常容易理解。


我們就以希捷的硬盤為例來進行講解。型號太多,就說說幾種典型的。

    1. 桌面級硬盤。這是消費級電腦中最常用的硬盤,基本都是采用SATA接口。比如希捷BarraCuda系列的8TB硬盤ST8000DM004。官方的參數請見:https://www.seagate.com/www-content/datasheets/pdfs/3-5-barracudaDS1900-10-1802CN-zh_CN.pdf。

其中里面有幾點大家比較感興趣。

    1.1最大值持續數據傳輸率OD(MB/秒):190MB/秒。 看上去這個值挺高的。但它只是硬盤外圈的順序讀寫性能。較小的文件讀寫,基本都達不到這個性能。

    1.2每年運行小時數(24×7) :2,400。 如果24x7開機,每年能運行2400小時。也就是能每年持續運行100天。每天上班8小時的辦公室文員,用這個硬盤不錯;但用來挖礦,就有點悲催了。所以……存儲挖礦,肯定不能選擇桌面級硬盤。

    1.3工作負載評級限制(TB/年):55。 一每年讀寫55TB數據以下,故障率較低。以前的HDD參數沒有這個值。SSD因為Flash的磨損次數有限制,有一個TBW值。HDD理論上讀寫次數沒有限制,但因為機械部件多,可靠性并不高,所以,也可以理解廠商為什么需要加這個參數。

    1.4有限質保(年):2 桌面級硬盤保修2年。

    1.5最大不可恢復錯誤/被讀數據(位):1/10E14。 這個是大多數人不了解的參數。我認為是評估硬盤穩定性的最重要的參數之一。HDD運行過程因為受到振動等影響,是非常容易出錯的。但因為糾錯手段完善,大多數錯誤可以被糾正。但仍然會存在一定概率,在工作環境正常的情況下,錯誤無法糾正。通常我們就把它認為是ECC算法也無法糾正的錯誤,所以叫做Uncorrectable ECC Count。

    1.6這個桌面硬盤對應的值為10的14次方分之一,其含義為,從硬盤上讀10的14次方個bit,就可能出現一次無法被糾正的錯誤,導致數據出錯。10的14次方個bit,其實大概就是11TB的數據。從概率上來講,全盤讀寫1次大容量硬盤,就很可能出現這樣的錯誤。


    2. 監控級硬盤。這是在安防系統中最常用的硬盤。基本都是采用SATA接口。SkyHawk監控盤系列其官方參數請見:https://www.seagate.com/www-content/datasheets/pdfs/skyhawk-3-5-hdd-DS1902-8-1803CN-zh_CN.pdf

    2.1最大值持續數據傳輸率OD(MB/秒):根據容量的不同,該值從180MB/秒到210MB/秒,和桌面級硬盤差不多。

    2.2每年運行小時數(24×7):清一色的是8760。說明可以一年365天不間斷運行。這和桌面級硬盤有非常大的區別。

    2.3額定工作負載限制(WRL):180TB。 相對于桌面級硬盤的工作負載評級限制,該值要高不少。

    2.4MTBF(平均故障間隔時間) :1,000,000 hr。 桌面級硬盤的參數中,就沒有寫這個值。1百萬小時,是理論上可以用114年嗎?顯然不是。大概可以這么算,1/114約等于0.9%,說明年壞盤率理論上為0.9%。當然,這個只是理論值,實際的壞盤率受到多種因素的影響。

    2.5有限質保(年):3 顯然,3年的質保,也是廠商對這種硬盤更有信心。

    2.6最大不可恢復錯誤/被讀數據(位):ST4000VX007這塊4TB的硬盤為1/10E14,其他型號為1/10E15。前幾年的較老型號監控級硬盤其值均為1/10E14,顯然是非常容易壞的。如果為1/10E15,需要寫入將近113TB數據,從概率上才會出現一次不可恢復的錯誤,自然可靠性會增大很多。

(注:希捷還有充氦氣的監控硬盤,但從型號和參數來看,完全是企業級硬盤的范疇了。)


    3. 企業級硬盤。這是企業級存儲系統和數據中心最常用的硬盤。可靠性自然比前面兩種硬盤要高很多。接口有SATA和SATA,其中SAS又分NL-SAS(近線SAS)和高轉速SAS(1萬轉或1.5萬轉)。

    NL-SAS盤和企業級SATA盤的主要差別在于接口采用SAS,可以支持雙端口(用于雙控存儲系統,可以兩個主機同時連接),其他參數基本一致。高轉速SAS盤的轉速高于我們常用7200轉,性能更好,可靠性也更高,但容量相對較小,價格也比較昂貴。

    大容量企業級SATA硬盤(8TB及以上)一般在內部充氦氣,利用氦氣的惰性,可以全面提升硬盤容量,從數據中心的壞盤率統計來看,其可靠性也更高。這里我們討論希捷的企業級SATA硬盤,以常用的10TB充氦氣硬盤ST10000NM0016為例。,其官方參數見: https://www.seagate.com/files/www-content/datasheets/pdfs/exos-x-10DS1948-1-1709CN-zh_CN.pdf

    3.1最大值持續數據傳輸率OD(MB/秒):249MB/秒。 這個值比前面的硬盤略微高一點點,但也高不到哪里去。

    3.2隨機讀取/寫入4K QD16 WCD (IOPS) :170, 138。 這是4KB隨機讀和寫的IOPS值,表示每秒最大的I/O請求個數。算成帶寬,就是680KB/秒和552KB/秒。我去,這個值和前面的傳輸速度差了好幾個數量級!

    3.3對于HDD來說,因為機械部件的尋道時間很難縮短,所以這個值是很正常的,這也是為什么SSD會受到追捧的重要因素之一——SSD的隨機性能遠高于HDD。

    前面的桌面級硬盤和監控級硬盤都沒有寫這個參數呢,它們的實際IOPS值比企業級硬盤更差。這也是為什么專業的存儲系統,需要復雜的算法,通過CACHE等手段,盡可能變隨機的讀寫為有點點順序的讀寫,來提升系統的整體性能。

    3.4每年運行小時數(24×7):8760。因為一年只有365天,所以這個值也不會更大了。

    3.5平均故障間隔時間(MTBF,小時) :2,500,000。理論上,年壞盤率為0.35%。

    3.6有限質保(年) :5。 顯然,希捷對于企業級硬盤更有信心。

    3.7不可恢復錯誤/被讀數據(位) :1 扇區/10E15。從概率上講,每讀寫10的15次方個bit,會有一個扇區出現不可恢復的bit。 10TB的硬盤,從頭到尾讀寫超過11遍,平均會遇到一次這樣的情況。比起桌面級硬盤,還是要穩定許多。

(注:沒有看到額定工作負載限制或類似的參數。看來企業級硬盤直接取消了這個讀寫數據量的限制。)

    回過頭再來看看“不可恢復錯誤/被讀數據(位)”這個參數。企業級SATA盤和較新的監控級硬盤,比較老的監控級硬盤和桌面級硬盤要高一個數量級,自然要穩定許多。

    桌面級硬盤和監控級硬盤的對應參數名字前加了一個“最大”,企業級硬盤沒有寫“最大”,不知道是否希捷有意為之。

    如果是,證明企業級硬盤的讀寫錯誤更低。以前問過硬盤廠商的工程師,他們回復說,桌面級硬盤和監控級硬盤沒有防震芯片,所以錯誤率高;企業級硬盤,和較新的監控級硬盤,都加了這個芯片,通過避震的方式來提高可靠性。

    我們也接觸過大量的存儲項目,有上萬片硬盤實際運行的穩定性統計數據。某項目用了80%的監控級硬盤(不可恢復錯誤/被讀數據(位)這個值為1/10E14)和20%的企業級SATA硬盤,運行了三年,監控級硬盤的壞盤率超過10%,但企業級硬盤的壞盤率低于1%。

    桌面級硬盤因為都不能全天候運行,所以完全不適合這種大型的項目。另外,如果大容量硬盤做RAID5或者RAID6,壞了一塊盤,會導致硬盤重建。

    如果該參數為1/10E14,基本上硬盤從頭到尾讀一遍,就有很大的概率產生新的不可恢復錯誤,直接導致第二塊壞盤的產生。這個也是為什么RAID5/6在重建的時候,很容易產生第二塊盤,導致RAID出現更嚴重問題的原因。

    實際上,重建的時候,所有硬盤都在高速讀寫,其震動本身就會導致更多的問題。不用RAID容易壞盤導致數據丟失,使用RAID也容易壞盤,那怎么辦?選擇更高可靠性的硬盤,才是正確的辦法。

    如果是高轉速的SAS硬盤和企業級SSD,不可恢復錯誤/被讀數據(位)往往都是1/10E16甚至更高,其出錯的概率就會更低了。

    除了上面的HDD,希捷還有NAS系列的硬盤,可以滿足全天候的運行需求,價格比企業級硬盤低。但因為我沒有用過,所以暫時不評述。

    再好的硬盤,也可能會很快壞掉。以上所有的參數,都是針對大批量硬盤而言的平均值。

    所以,通過軟件進行合理的硬盤管理(RAID、CACHE、硬盤全程監控),是必要的手段,且需要一個易用的存儲管理系統,在硬盤真的出現問題時,能夠及時發現,及時排除故障,保證系統的穩定運行。算了,說再多了就是廣告了。


主站蜘蛛池模板: 客服| 郓城县| 潼南县| 饶阳县| 宝坻区| 驻马店市| 白城市| 拉萨市| 巴楚县| 磐安县| 垫江县| 思茅市| 玉溪市| 满城县| 贺兰县| 科尔| 乌鲁木齐市| 南宁市| 罗山县| 焦作市| 原平市| 饶阳县| 越西县| 驻马店市| 长岛县| 霍州市| 佛坪县| 衢州市| 葵青区| 利津县| 本溪| 庆安县| 永寿县| 石楼县| 梓潼县| 乌恰县| 安庆市| 竹溪县| 璧山县| 汉阴县| 兰州市|