隨著云計算和互聯(lián)網(wǎng)的高速發(fā)展,大量應(yīng)用需要橫跨不同網(wǎng)絡(luò)終端,并廣泛接入第三方服務(wù)(如支付、登錄、導(dǎo)航等),IT系統(tǒng)架構(gòu)越來越復(fù)雜??焖俚漠a(chǎn)品需求和良好的用戶體驗,需要IT運維管理者時刻保障核心業(yè)務(wù)穩(wěn)定可用,而企業(yè)運維中的痛點和難點也急需解決。
1.面向業(yè)務(wù)的運維,不但關(guān)心單點IT資源的運行狀態(tài),更關(guān)心整個業(yè)務(wù)系統(tǒng)的健康狀態(tài)
2.如果企業(yè)使用了大量的API和模塊化應(yīng)用,那么關(guān)注每個接口的性能變化情況和指標(biāo)
3.對于運維主管及企業(yè)管理層來說,特別需要上墻的監(jiān)控大屏
4.運維需要每周、每月查看報告趨勢分析,但傳統(tǒng)運維工具數(shù)據(jù)導(dǎo)出困難
5.需要第一時間轉(zhuǎn)雀和快速發(fā)現(xiàn)故障節(jié)點,減少業(yè)務(wù)中斷帶來的損失
本文對業(yè)內(nèi)主流的開源運維監(jiān)控系統(tǒng)和商業(yè)運維監(jiān)控系統(tǒng)進行對比,分析各種產(chǎn)品的定位、目標(biāo)用戶和功能特點,希望幫助廣大運維、開發(fā)和創(chuàng)業(yè)者找到最適合自己的運維工具。
一、開源運維監(jiān)控產(chǎn)品篇
(一)Zabbix
推薦星級:★★★★★
Zabbix是一個基于Web界面的提供分布式系統(tǒng)監(jiān)控以及網(wǎng)絡(luò)監(jiān)控功能的企業(yè)級開源運維平臺,也是目前國內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件,云智慧遇到的85%以上用戶在使用Zabbix做監(jiān)控解決方案。
入門容易、上手簡單、功能強大并且開源免費是云智慧對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕日常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的設(shè)備。理論上,通過Zabbix 提供的插件式架構(gòu),可以滿足企業(yè)的任何需求。
用戶群:85%以上的泛互聯(lián)網(wǎng)企業(yè)。
優(yōu)點:
1.支持多平臺的企業(yè)級分布式開源監(jiān)控軟件。
2.安裝部署簡單,多種數(shù)據(jù)采集插件靈活集成。
3.功能強大,可實現(xiàn)復(fù)雜多條件告警。
4.自帶畫圖功能,得到的數(shù)據(jù)可以繪成圖形。
5.提供多種API接口,支持調(diào)用腳本。
6.出現(xiàn)問題時可自動遠(yuǎn)程執(zhí)行命令(需對agent設(shè)置執(zhí)行權(quán)限)。
缺點:
1.項目批量修改不方便。
2.社區(qū)雖然成熟,但是中文資料相對較少,服務(wù)支持有限。
3.入門容易,能實現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進行大量的二次定制開發(fā),難度較大。
4.系統(tǒng)級別報警設(shè)置相對比較多,如果不篩選的話報警郵件會很多;并且自定義的項目報警需要自己設(shè)置,過程比較繁瑣。
5.缺少數(shù)據(jù)匯總功能,如無法查看一組服務(wù)器平均值,需進行二次開發(fā)。
6.數(shù)據(jù)報表需要特殊二次開發(fā)定義。
(二)Nagios
推薦星級:★★★★☆
Nagios 是一款開源的企業(yè)級監(jiān)控系統(tǒng),能夠?qū)崿F(xiàn)對系統(tǒng)CPU、磁盤、網(wǎng)絡(luò)等方面參數(shù)的基本系統(tǒng)監(jiān)控,以及SMTP,POP3,HTTP,NNTP等各種基本的服務(wù)類型。另外通過安裝插件和編寫監(jiān)控腳本,用戶可以實現(xiàn)應(yīng)用監(jiān)控,并針對大量的監(jiān)控主機和多個對象部署層次化監(jiān)控架構(gòu)。
Nagios最大的特點是其強大的管理中心,盡管其功能是監(jiān)控服務(wù)和主機的,但Nagios自身并不包括這部分功能代碼,所有的監(jiān)控、告警功能都是由相關(guān)插件完成的。
用戶群:適合復(fù)雜IT環(huán)境的企業(yè)
優(yōu)點:
1.出錯的服務(wù)器、應(yīng)用和設(shè)備會自動重啟,自動日志滾動。
2.配置靈活,可以自定義shell腳本,通過分布式監(jiān)控模式。
3.支持以冗余方式進行主機監(jiān)控,報警設(shè)置多樣。
4.命令重新加載配置文件無需打擾Nagios的運行。
缺點:
1.事件控制臺功能很弱,插件易用性差。
2.對性能、流量等指標(biāo)的處理不給力。
3.看不到歷史數(shù)據(jù),只能看到報警事件,很難追查故障原因。
4.配置復(fù)雜,初學(xué)者投入的時間、精力和成本比較大。
(三)Ganglia
推薦星級:★★★★☆