上述每一個(gè)監(jiān)控解決方案和大多數(shù)其他商業(yè)或OpenSource解決方案可以通過(guò)自行設(shè)計(jì)專門指標(biāo)來(lái)進(jìn)行擴(kuò)展。
命令“time OpenStack catalogue list”可以測(cè)量Keystone API響應(yīng)時(shí)間,評(píng)估結(jié)果,并在結(jié)果不符合預(yù)期時(shí)產(chǎn)生人工故障狀態(tài)。此外,你可以使用簡(jiǎn)單的操作系統(tǒng)工具,如“netstat”或“ss”,來(lái)監(jiān)控API端點(diǎn)的不同連接狀態(tài),并了解服務(wù)中可能出現(xiàn)的問(wèn)題。OpenStack云依賴關(guān)系的關(guān)鍵部分(例如消息代理和數(shù)據(jù)庫(kù)服務(wù))也可以這樣做。請(qǐng)注意,消息中間件失敗基本上將“殺死”OpenStack云。
關(guān)鍵是不要偷懶!不要只用默認(rèn)的指標(biāo),而是應(yīng)該用與自己服務(wù)相關(guān)的指標(biāo)。
挑戰(zhàn)四:人為因素
人為因素關(guān)乎一切。俗話說(shuō),埋怨工具的工匠不是一個(gè)好工匠。
沒(méi)有經(jīng)過(guò)測(cè)試的情景響應(yīng)程序,單一故障不僅本身是一個(gè)問(wèn)題,還將帶來(lái)造更多的問(wèn)題。在你的監(jiān)控解決方案中,云基礎(chǔ)設(shè)施的任何事故及其相關(guān)警報(bào)中都應(yīng)該有明確的記錄,以清楚的步驟來(lái)解釋如何檢測(cè)、遏制和解決問(wèn)題。
人為因素必須考慮,即使你有一個(gè)可以關(guān)聯(lián)事件和建議適當(dāng)?shù)慕鉀Q方案來(lái)檢測(cè)事故的、聰明的系統(tǒng)(一個(gè)有一定程度人工智能的系統(tǒng))。請(qǐng)務(wù)必記住,如果系統(tǒng)不正確或不完整,那么輸出也將不準(zhǔn)確或不完整。
總結(jié)一下,OpenStack監(jiān)控不一定很困難,最重要的是要徹底。每個(gè)單獨(dú)的服務(wù)以及與其他服務(wù)的互動(dòng)都需要仔細(xì)監(jiān)控。特殊指標(biāo)甚至可以自己實(shí)現(xiàn)。通過(guò)一些TLC,你可以輕松地成功監(jiān)控你的OpenStack。