Re: [請益] 如何有效管理大量的刀鋒伺服器..?

作者: Shanye (Shanye)   2014-01-03 10:28:08
※ 引述《JoGYa (舊機歪a)》之銘言:
: 請教版上各位高手,
: 小弟在某家遊戲公司工作,
: 有上千台HP及IBM的blade server,
: HP http://goo.gl/ZjfGGU
: IBM http://goo.gl/VOJnA4
: 公司主要以這兩類為主,常見的rack server倒是不多,
: 像這類設備的資產都是由IT在負責的,
: 在這麼多的設備,每年資產盤點都是一件很麻煩的事情,
: 伺服器的位置經常在移動,
: 已經連續兩年是在會計盤點前跑機房好幾趟做清點紀錄位置,
: 這個方法真的是很累人,所以想請教版上各位高手們,
: 不曉得有沒有高手是管理過上千台blade server
: 另外想請問是否有較推薦的伺服器監控程式,
: 目前公司是使用Zabbix,但有意思想汰換掉改用其他的軟體,
: 系統主要以Centos及Windows為大宗
: 希望可以有高手推薦 謝謝
嗯 我協助管理過IBM的刀瘋 客戶是銀行
上面跑的有prodution, S2, DR主機 全部走SAN boot
原則上就是用Direct作整合還有發alarm
再加上客製化AP撈資產報表收集刀片對映管理者資訊
先來歸類你會遇到的問題
1. 實體主機位置
你說刀片常常會搬來搬去 這很常見
管理員要將硬體資源release出來
或者有部分刀片硬體故障 須作緊急調整等都會移動刀
刀瘋管理員也遇到盤點困難 這無解
windows還可以考慮用system center 前提是都得加網域
用SC我覺得是自找麻煩
無論如何 請用原廠的管理工具是第一步
要收費 廢話 最賺錢就在這塊 你老闆以為光賣硬體有錢賺嗎
連微軟 VM都這一兩年都在瘋狂推SC&VCOPS了
監控是有knowhow的
2. IP WWN等資訊
這部分看貴公司有沒有給網管組分工了
不然光是記錄每刀的IP MAC
若有走FIBER還要記錄WWN & zoning config
(刀瘋有獨立SAN module, 有時候網管會推回來給你作)
3. 硬體 韌體版本資訊
有時候遇到windows update開不了機怎麼辦?
原廠會教你先提供firmware版本資訊 從刀片parts到module都有
幾百幾千刀怎麼作? 一箱一箱從MM看吧 這部分請一定要記錄
並請原廠提供firmware support list
4. 管理窗口
你管理刀瘋 不過每台主機都會有專屬管理者
硬體或者服務有問題告警要發給誰?
這人離職了嗎? 分機有沒有變? 業物(免磨刀)有沒有交接?
這只能客製化作了 手工記錄也是很累的
5. 系統資訊
系統版本 service pack版本 license
尤其是大量授權的 這也要記錄
時間不多暫時想到這些 還是建議請原廠或者專業SI協助吧
不然你負擔越來越大 業務又交不出去 只是惡性循環
每年請工讀生作一個月盤點也是種方法喔
在下曾經幫某外商銀行作盤點 當年省了70萬美金的license費用
財務長CFO親自過來跟我握手
有心要作的話 你會是公司內不可撼動的人員
作者: Shanye (Shanye)   2014-01-03 10:28:00
看了一下打好多 這篇就不收費了(爆)還有各機櫃的電源迴路 機櫃圖也要記錄
作者: liskenny (Why so serious?)   2014-01-03 11:09:00
推!
作者: jashking (拉拉拉)   2014-01-06 01:42:00
推機櫃圖 接手機房經驗尚淺 我以為這是每家公司都有的..

Links booklink

Contact Us: admin [ a t ] ucptt.com