[討論] 最近掛了一票儲存裝置....

作者: chang0206 (Eric Chang)   2019-05-06 11:11:22
這篇應該算是抱怨兼閒聊吧...
一年多前到目前任職的公司時,前人留下了一批segate 2T 硬碟(ST2000DM006)
數量大概有四五十顆左右,採購時間在2016年,所以都還在保固內
這一年多來,陸陸續續的把這些硬碟用了一大半出去,庫存大概剩下十顆左右
可是就在最近這兩個月,開始收到系統寄出的smart警告
一開始是幾個月前群暉的NAS發出的,但不管怎麼換硬碟,那台NAS就是一直出現警告
所以我認為是NAS機器的問題,而不是硬碟有狀況
事實上也是如此,然後報群暉維修,就報了一萬七千多的天價...機器也才買兩萬多塊
當然是決定不修了,也開始著手自建NAS(FreeNAS),準備換掉手邊的其他三台群暉NAS
手邊有很多ASUS tower server,想說都要自己來做了
那就直接裝滿六顆硬碟,然後把系統灌在隨身碟上
就這樣做了五六台出來,陸續上線,其中包括一台10G的配置
可是上線沒多久,就在群暉NAS出問題之後
這些server也都開始發出信件警告SMART有問題
不過奇怪的是,有些是直接就找不到硬碟,有的是警告C5/197/198 > 0
上禮拜跟同事盤點了一下,合計有8顆硬碟出現SMART警告,這比例也太高了吧!
總共算用了50顆硬碟好了,就有8顆出現異常,那就是16%的故障比例
這應該不能算是人品不好了...
由於我很堅持我人品沒有問題(誤
所以我做了幾個測試,我拿一台一樣的Server,只裝四顆硬碟上線做一樣的事
只是RAID等級不同,前面裝六顆的都是RAID10
這次裝四顆的,我都跑RAID5
測了一個多月下來,發現同時裝機的三台機器,只有裝四顆硬碟的這台沒有錯誤
其他兩台都各有一顆出現異常
嗯哼,看來問題不只是硬碟,連Server也有問題,難道是電力不夠?
既然有這個疑問,當然我們就要繼續實驗下去
於是我改用了「據說」比較省電的SSD (其實SSD有沒有比較省電似乎眾說紛紜?)
用ADATA 的SU650 480G SSD六顆,一樣做RAID10,然後這台做成10G的環境
把虛擬機的備份多做一份到這台來,所以這台基本上是平常都閒置
只有在半夜會頻繁寫入一個小時左右
沒想到這樣子的測試,不到兩個禮拜,就掛了一顆SSD,而且死得很徹底
連SMART都還沒發現錯誤(我每天有排smart short test,每週跑一次long test)
直接就在系統內消失,重開機之後發現連BIOS都看不到了...
拆下來送修之後,先用手邊備用的創見512G SSD頂上去
不過呢,接下來又有兩顆出現SMART C5/197/198 > 0 的情況
所以現在是raid degrade 然後又有兩顆出現SMART異常的狀態
(好孩子不要學,大叔心臟夠大顆才這樣玩...)
可是這樣子沒辦法驗證前面懷疑是因為電力不足所造成的問題
我也沒有設備可以定時抓電力使用狀況
看樣子需要其他方法來確認到底是因為主機供電不足造成硬碟錯誤
還是真的單純就是硬碟有問題
不曉得各位有什麼建議嗎?
總之呢,這兩個月來就是這樣每天收到各地機器寄來的SMART警告信件
https://i.imgur.com/CNEsHKl.png
然後被助理小姐念說怎麼那麼多硬碟要報修
小姐,我也不願意啊...而且這批硬碟還都不是我買的耶...
看來下一次如果還要大量採購硬碟,要盡量避免只買同一個型號
只是通常這樣會被採購念就是了...
好,碎念完畢,繼續去機房拆硬碟....
ASUS Server還沒hot swap,真的是有夠OOXX ...
作者: nightwind209 (夜風)   2019-05-06 13:04:00
有幾個點可以看說 一個是硬碟本身 一個是供電 一個是server內建的RAID問題(?)
作者: waynechen251 (waynechen251)   2019-05-06 15:54:00
既然都公司採購 下次就買好一點的nas碟唄 資料無價
作者: hentaiojisan   2019-05-06 18:22:00
這硬碟定位是desktop,非Nas/enterprise,就別拿去作磁碟陣列了

Links booklink

Contact Us: admin [ a t ] ucptt.com