這兩款產(chǎn)品都是對Platform LSF產(chǎn)品家族的補充。Platform RTM為Platform LSF環(huán)境提供了完善的負(fù)載監(jiān)控和報告功能,它通過統(tǒng)一的界面,方便、高效地監(jiān)控所有負(fù)載調(diào)度和許可證使用狀況,從而使管理員無需中斷服務(wù)即可快速排除故障。Platform RTM還包含一個靈活且自動化的報警系統(tǒng),可迅速發(fā)現(xiàn)故障,確保集群始終保持正常運行狀態(tài)。由于內(nèi)置了多種功能,Platform RTM可替代傳統(tǒng)的Platform LSF環(huán)境中的多種工具,這種接口統(tǒng)一、易于使用的監(jiān)控工具大幅度提升了管理員的工作效率并降低了管理成本和復(fù)雜性。
作為一款對海量Platform LSF負(fù)載數(shù)據(jù)進(jìn)行分析、關(guān)聯(lián)和可視化的產(chǎn)品Platform Analytics可以從一個或多個Platform LSF集群收集作業(yè)數(shù)據(jù)、資源和許可證數(shù)據(jù),并據(jù)此作出相應(yīng)的決策。該工具不僅擁有功能強大的分析引擎,還提供了創(chuàng)新的界面,可以快速、方便地提供分析結(jié)果。用戶可以從各種預(yù)先配置的儀表盤中選擇數(shù)據(jù),或者構(gòu)建自己的儀表盤,快速了解其HPC及應(yīng)用的運行狀態(tài),優(yōu)化資源規(guī)劃和使用效率。
Platform RTM 8和Platform Analytics 8的推出得到了各行業(yè)客戶的一致好評。Cadence公司工程基礎(chǔ)架構(gòu)IT總監(jiān)Steve MacQuiddy表示:"當(dāng)我們同時運行數(shù)百萬個模擬設(shè)計以測試我們的最新軟件時,監(jiān)控集群的可用性和性能就變得特別重要,有了統(tǒng)一的Platform RTM儀表盤,我們就能監(jiān)控整個集群環(huán)境,不僅能更容易地平衡工作負(fù)載,還可以在峰值期間優(yōu)先為關(guān)鍵任務(wù)分配資源。"
"當(dāng)我們頻繁地測試我們的賽車設(shè)計時,確保我們的HPC數(shù)據(jù)中心始終可用是至關(guān)重要的,即使是微小的設(shè)計調(diào)整也必須經(jīng)過嚴(yán)格的測試才能實際投入生產(chǎn)",紅牛賽車公司IT總監(jiān)Matt Cadieux說,"Platform Analytics使我們既能隨時了解集群的使用情況,也能隨時發(fā)現(xiàn)可能干擾測試程序運行的潛在問題,它同時也使我們的的設(shè)計團(tuán)隊可以提前規(guī)劃峰值用量,確保在測試高峰期應(yīng)用程序能平穩(wěn)地運行。
"Platform RTM 8以功能強大且可擴(kuò)展的開源Cacti圖形化架構(gòu)為基礎(chǔ),并提供了一些強有力的新功能,例如網(wǎng)格報警使我們無需調(diào)用Cacti圖就能迅速給出警示",達(dá)索公司Simulia部門CIO Kevin Rota說。"RTM允許Simulia進(jìn)行方便快捷地進(jìn)行訪問并實現(xiàn)了數(shù)據(jù)的可視化,這使我們能更清晰地了解LSF資源的使用狀況以及使用者是誰,這個新功能將幫助我們改進(jìn)服務(wù)質(zhì)量"。
Platform公司高級產(chǎn)品市場經(jīng)理Louise Westoby表示:"集群管理員必須監(jiān)控和分析集群的性能以排除潛在的風(fēng)險并分析使用模式,從而更有效地利用Platform LSF基礎(chǔ)架構(gòu)。如今,IT人員的任務(wù)繁重,時間緊張,要建立本地的監(jiān)控、報告和報警系統(tǒng)是不現(xiàn)實的,Platform RTM和Platform Analytics提供了全面的可見性,讓用戶能夠全面了解其Platform LSF集群、隊列和任務(wù)的狀況,提高生產(chǎn)力并降低成本"。
Platform RTM 8的新功能
與那些僅在基礎(chǔ)層監(jiān)控基礎(chǔ)架構(gòu)的工具不同,Platform RTM能對工作負(fù)載和資源進(jìn)行全面監(jiān)控,包括遍布全球的集群、主機(jī)、許可證隊列、用戶和日志文件。新功能包括:
" 統(tǒng)一視圖、直觀的儀表盤--通過可視化的狀態(tài)指示器快速查明問題
" 支持多個集群--可進(jìn)行遠(yuǎn)程管理以提高效率并節(jié)省時間
" 資源使用監(jiān)控--以資源使用報告為基礎(chǔ),對調(diào)度策略進(jìn)行分析
" 以用戶、組或團(tuán)隊為單位對資源進(jìn)行監(jiān)控--確保資源的使用與業(yè)務(wù)優(yōu)先級保持一致,并通過多級分配監(jiān)控來輔助進(jìn)行容量規(guī)劃
" 自動完成報警和異常處理--通過即時通知提高集群的可用性,利用多度量觸發(fā)器減輕管理員的工作量