
第二個(gè)Spark應(yīng)用是一個(gè)標(biāo)準(zhǔn)批量分析應(yīng)用程序,在給定的時(shí)間窗口產(chǎn)生服務(wù)調(diào)用圖以及調(diào)用延遲統(tǒng)計(jì)。應(yīng)用作為標(biāo)準(zhǔn)批處理作業(yè)被提交到Spark作業(yè)服務(wù)器。如圖5所示,批量分析應(yīng)用從InfluxDB分離出獨(dú)立事務(wù)跟蹤,并將每個(gè)獨(dú)立事務(wù)跟蹤轉(zhuǎn)換為<vertex,edge>對(duì)的列表。列表被聚集成兩個(gè)RDDS,一個(gè)包含頂點(diǎn)列表,而另一個(gè)為邊列表。頂點(diǎn)列表根據(jù)頂點(diǎn)名稱(chēng)進(jìn)一步解析。最后,應(yīng)用程序的調(diào)用圖在有向圖中計(jì)算,以及圖中每條邊延遲時(shí)間的統(tǒng)計(jì)數(shù)據(jù)。該圖是應(yīng)用程序時(shí)間演變圖的一個(gè)實(shí)例,表示給定時(shí)間內(nèi)的狀態(tài)。圖6和7顯示調(diào)用圖和租戶(hù)應(yīng)用延遲時(shí)間的統(tǒng)計(jì)數(shù)據(jù),作為該批次的分析作業(yè)輸出。



通過(guò)Spark平臺(tái),各種不同類(lèi)型的分析應(yīng)用可以同時(shí)操作,如利用一個(gè)統(tǒng)一的大數(shù)據(jù)平臺(tái)進(jìn)行批量處理、流和圖形處理。下一步則是研究系統(tǒng)的可擴(kuò)展性方面,如通過(guò)增加主機(jī)線(xiàn)性提升數(shù)據(jù)提取速度,并同時(shí)處理成千上萬(wàn)租戶(hù)的應(yīng)用蹤跡。后續(xù)會(huì)繼續(xù)匯報(bào)這方面的進(jìn)展情況。