[請益] 系統&服務監控

作者: PTTCEO (批踢踢首席執行長)   2019-08-03 22:09:34
目前有需求是要監控系統資訊跟服務 並且做警報(Email通知)
請問各位大大 有沒有推薦的 系統跟服務監控 解決方案?
需求有以下幾點:
1.監控基本的系統資訊項目(CPU, Memory, Disk usage, Disk IO)
2.監控項目需要比較複雜的定義(例如CPU連續5分鐘平均 > 90)
3.監控服務是否還在運作(簡單的探測一下API)
4.監控某個RESTful API的狀態(例如系統授權是否即將到期)
5.監控的服務項目需要discover(打某個API取得目前有哪些instance)
6.符合警報後寄送email通知
7.Email通知需要支援群組設定(例如TechSupport群組, 客服群組, Sales群組)
8.通知規則需要支援複雜規則(一個period內的警報只寄送一次, 警報後特定條件內不再
發mail)
9.需要同時支援Windows跟Linux平台(系統資訊採集Windows透過WMI, Linux透過別的)
10.需要能夠單機執行(非一個master搭配agent做群集監控)
原本的想法是自己用熟悉的語言(Java or GO)刻一個簡單的程式
但發現要做到那些規則的定義跟configuration 包括Email通知規則
好像也不是這麼簡單的一個小program 也不太想要從輪子開始打造
Survey了好一番 監控的解決方案從Zabbix到其他一大堆 眼花撩亂的
但有些非免費 有些僅限Linux平台 有些功能太多 有些功能又缺了些
像是這個GOLang寫的Checkup https://github.com/sourcegraph/checkup
差了系統資訊監控跟規則&警報定義 只能做到status check而已
目前找到的只有 Prometheus https://prometheus.io/
應該都有符合需求 搭配AlertManager, WMI_exporter, Blackbox exporter
可惜還差了discover service以及監控某個API狀態的需求
可能得自己刻一個json exporter? 或者已經有現成的exporter呢?
不知道是否有其他的解決方案可以參考的 感謝各位~
作者: MOONY135 (談無慾)   2019-08-03 22:22:00
除了四跟五我好像都有現成方案
作者: wwfkane (阿囉哈)   2019-08-03 22:23:00
zabbix、nagios
作者: jack0204 (Jarbar王朝)   2019-08-03 22:25:00
自己寫資訊來接服務比較好吧
作者: MOONY135 (談無慾)   2019-08-03 22:27:00
Qt可以做桌面的 四五沒做過 不過應該也是可以測
作者: alihue (wanda wanda)   2019-08-03 23:07:00
普羅米修斯
作者: s890510 (月藍天水)   2019-08-03 23:08:00
普羅米修斯+grafana
作者: e920528 (Evis)   2019-08-03 23:22:00
Prometheus
作者: slash66 (JimmyHuang)   2019-08-03 23:57:00
WhatsupGold
作者: ripple0129 (perry tsai)   2019-08-04 02:00:00
這年代除非你很熟其他方案之外,還有比Prometheus + grafana更強大的選擇嗎,會來問基本上就是不用考慮了,入門簡單又強大。
作者: PoloHuang (黃保羅)   2019-08-04 10:54:00
Zabbix
作者: Sieg2010 (Sieg)   2019-08-04 18:41:00
Zabbix
作者: SmallpTsai (Smallp Tsai)   2019-08-05 21:56:00
Prometheus
作者: bamchisu (suchi)   2019-08-06 12:45:00
推自己磕加油 OS跟web server也做一下還有程式語言跟編譯器

Links booklink

Contact Us: admin [ a t ] ucptt.com