Re: [問題] 監視器網芳傳檔案,CPU會突然爆高

作者: LIAR (玻璃做的大叔)   2020-08-08 00:26:28
: → LIAR: 如果硬碟沒問題,還會有甚麼因素會卡在I/O呢? 08/07 08:26
: → LIAR: 我報告一下實際的狀況,整台電腦運作真的都會頓頓的,SMB 08/07 08:27
: → LIAR: 關掉就會恢復正常。 08/07 08:27
: → bitlife: 你說5月前正常,是否5月前才開始用smb? 存檔影片是只有即 08/07 09:04
: → bitlife: 時影像還是包含(你文中提到的)歷史錄影檔案轉移?單個攝影 08/07 09:06
: → bitlife: 機每秒流量? 網路是100M還是1G? 硬碟是HDD還是SDD? 要各 08/07 09:07
: → bitlife: 種因素一起看才比較好推測. 忘了還有同時多少攝影機(總秒 08/07 09:07
: → bitlife: 流量) 08/07 09:07
: 推 bitlife: 5月之後才開始用smb 08/07 09:09
: 推 bitlife: SSD 08/07 09:13
我整理一下這幾個月的紀錄,有點長,不好意思。
伺服器接收9台監視器資料,監視器檔案先錄到自己的記憶卡,再上傳到伺服器,
所以應該不算即時的,但是每分鐘每台都會有一個4~8MB大的新檔案被上傳。
硬碟是傳統硬碟,伺服器是筆電裝CentOS,伺服器和另外兩台監視器連接的AP一起
接在P880下面,網路是100Mbit的。
平均一天會有75GB檔案產生,也就是理論上每分鐘平均會接收53.3MB大小的檔案。
按照時間軸,伺服器有幾個重大事件:
4月samba啟用接收檔案 + rclone自動上傳到Gsuite,自動運作正常。
5月都正常。
6月18日換硬碟500GB→2T,用clonezilla轉移後xfs_growfs放大,沒發現異常。
6月21日中發現有error log,當時無法解讀也忘記紀錄,用yum update後,grub
多出一個CentOS Linux 7 Rescue f8b625c751034e15b45eb19be9e13e06的開機選項
6月22日開始有CPU過載的問題。
硬碟買來前有先整個scan過,因為時間點接近,我一開始有看smart或hdparm稍微
判斷一下,沒有明顯異狀。
7月之後才安裝mcelog,/var/log/message裡面抓到一段
log:
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 5
MISC 138a0000086 ADDR fef873c0
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
Hardware event. This is not a software error.
MCE 1
CPU 0 BANK 6
MISC 238a0000086 ADDR fef87380
TIME 1593684184 Thu Jul 2 18:03:04 2020
MCG status:
MCi status:
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Generic CACHE Level-2 Generic Error
STATUS ae0000000040110a MCGSTATUS 0
MCGCAP c07 APICID 0 SOCKETID 0
MICROCODE 26
CPUID Vendor Intel Family 6 Model 69
印象中每次開機都有,但之後運作除了監視器傳輸出問題,其他都正常。
雖然log表示有硬體問題,但無法交叉測試,加上我用其他電腦直接網芳傳大檔案進去,
每秒也都有正常的幾MB,只有監視器上傳檔案會延遲,所以這個error只能先擱置。
不過懷疑過CPU有問題,想說雙核心,嘗試用下面方式分別停掉一個核心
/sys/devices/system/cpu/cpu0/online
/sys/devices/system/cpu/cpu1/online
結果只會讓CPU負載情況惡化。
因為公司因素,我沒法說直接要一台新電腦取代,只能先嘗試修過或是分析出
確定因素才能報修,所以目前我就卡在這邊了。請問這個問題和硬體有關嗎?
作者: mirc (阿谷)   2020-08-08 04:01:00
嘗試先把硬碟換掉
作者: bitlife (BIT一生)   2020-08-08 06:17:00
先確定硬碟是PMR(CMR),如果是SMR會變慢是很有可能的.現今硬碟SMR魚目混珠,連NAS碟都有廠商用了SMR.前幾個月各硬碟廠在民意壓力下公布硬碟的PMR,SMR型號.去Storage_Zone和PC_Shopping查一下型號. 我去年買一個外接硬碟用來複製整個home目錄,9年前買的500GB 2.5吋大約100MB/s,新買的硬碟常常掉到10~30MB/s,查了才知道近年硬碟有SMR問題立刻退貨換硬碟也要注意別再買到SMR,不知道怎麼選就買那嘶狼,目前已知那嘶狼沒有SMR的(未來不知)#1UemJtmt (PC_Shopping)ubuntu有內建[磁碟]工具程式可以做簡單的測速,CentOS應該也有,用測速就可以發現PMR的曲線相對很穩定維持定速月高速,SMR忽快忽慢,一旦開始掉速後的忽快也不會很快且
作者: LIAR (玻璃做的大叔)   2020-08-08 07:43:00
確定是SMR無誤,囧
作者: bitlife (BIT一生)   2020-08-08 08:08:00
幫你寫個慘字...
作者: LIAR (玻璃做的大叔)   2020-08-08 22:18:00
慘!不過先撇開公司的事情,其實我也好奇CPU的那個error到底有沒有關聯就是了,解讀不出來XD
作者: asdfghjklasd (好累的大一生活)   2020-08-08 22:55:00
HDD 因為速度慢寫不下去,會變成Q在系統裡RAM CPU 都可能會愈來愈高的使用率
作者: LIAR (玻璃做的大叔)   2020-08-09 00:12:00
不過我用自己電腦傳檔案進去,還是有幾個MB/S耶?所以SMR我也是有懷疑是否為主因。我是有遇過硬碟壞軌讓電腦龜在那邊,但是SMR會這麼嚴重嗎?
作者: bitlife (BIT一生)   2020-08-09 10:32:00
建議可以從僅1台攝影機流量開始測試,逐步增加連線的攝影機數量,看看在數量幾台的時候出現問題.如果wa是隨數量增加而惡化,很可能真的是SMR造成的問題.我home的資料用前面提的500GB 2.5吋,我記得第一次備份只花了大概4小時.同樣時期的另兩台2.5吋 500GB,放在我目前的a300中,一台當home不定期用dd將整顆500GB硬體進行全部磁區的完整備份,也不到2個小時(整顆硬碟dd比home的rsync快是正常).用上面提的SMR,我晚上11點左右丟給它去rsync,早上起來至少經過7小時還才備份到1x%,看了就暈倒,估計要1~2天才完成500GB的初次rsync.查了資料就連絡廠商退貨了500GB硬碟除非我剛好買到碟王,不然SMR就是如此的可怕 XD上面的資料憑印象,時間和%數可能有問題,但初次rsync要超過24小時是絕對沒記錯的光是快速格式化就要閃燈超級超級久的硬碟(我用幾種格式試過),我也是第1次遇到快速格式化真的久到我都以為當了 XD

Links booklink

Contact Us: admin [ a t ] ucptt.com