簡(jiǎn)單和明了,Storm讓大數(shù)據(jù)分析變得輕松加愉快。
當(dāng)今世界,公司的日常運(yùn)營(yíng)經(jīng)常會(huì)生成TB級(jí)別的數(shù)據(jù)。數(shù)據(jù)來源囊括了互聯(lián)網(wǎng)裝置可以捕獲的任何類型數(shù)據(jù),網(wǎng)站、社交媒體、交易型商業(yè)數(shù)據(jù)以及其它商業(yè)環(huán)境中創(chuàng)建的數(shù)據(jù)??紤]到數(shù)據(jù)的生成量,實(shí)時(shí)處理成為了許多機(jī)構(gòu)需要面對(duì)的首要挑戰(zhàn)。我們經(jīng)常用的一個(gè)非常有效的開源實(shí)時(shí)計(jì)算工具就是Storm —— Twiitter開發(fā),通常被比作“實(shí)時(shí)的Hadoop”。然而Storm遠(yuǎn)比Hadoop來的簡(jiǎn)單,因?yàn)橛盟幚泶髷?shù)據(jù)不會(huì)帶來新老技術(shù)的交替。
Shruthi Kumar、Siddharth Patankar共同效力于Infosys,分別從事技術(shù)分析和研發(fā)工作。本文詳述了Storm的使用方法,例子中的項(xiàng)目名稱為“超速報(bào)警系統(tǒng)(Speeding Alert System)”。我們想實(shí)現(xiàn)的功能是:實(shí)時(shí)分析過往車輛的數(shù)據(jù),一旦車輛數(shù)據(jù)超過預(yù)設(shè)的臨界值 —— 便觸發(fā)一個(gè)trigger并把相關(guān)的數(shù)據(jù)存入數(shù)據(jù)庫(kù)。
Storm
對(duì)比Hadoop的批處理,Storm是個(gè)實(shí)時(shí)的、分布式以及具備高容錯(cuò)的計(jì)算系統(tǒng)。同Hadoop一樣Storm也可以處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還可以讓處理進(jìn)行的更加實(shí)時(shí);也就是說,所有的信息都會(huì)被處理。Storm同樣還具備容錯(cuò)和分布計(jì)算這些特性,這就讓Storm可以擴(kuò)展到不同的機(jī)器上進(jìn)行大批量的數(shù)據(jù)處理。他同樣還有以下的這些特性: