任何新技術的發(fā)展都會經歷一個從被公眾了解到最終普遍應用的過程。大數(shù)據(jù)技術作為一個新興的數(shù)據(jù)處理技術,經過了近十年的發(fā)展,剛剛開始在各個行業(yè)得到應用。但從媒體和公眾視野中,大數(shù)據(jù)技術總是帶有神秘的色彩,似乎有著挖掘財富和預測未來的神奇力量。廣泛流傳的大數(shù)據(jù)應用案例包括Target超市根據(jù)女孩的購物歷史判斷是否懷孕,信用卡公司根據(jù)用戶在不同時空的購物行為預測客戶的下一個購買行為,等等。大數(shù)據(jù)技術也為我們描繪了一個個如“智慧城市”,“智慧交通”和“智慧醫(yī)療”等等的美好夢想。這些描述讓大家對大數(shù)據(jù)技術充滿了憧憬和美好預期。
我從2014年的大數(shù)據(jù)應用中總結了兩個重要的現(xiàn)象或者說應用趨勢。第一個現(xiàn)象是大數(shù)據(jù)技術優(yōu)先應用在采用SQL進行結構化數(shù)據(jù)處理上,來解決數(shù)據(jù)量增大帶來的處理能力的挑戰(zhàn);這與很多人宣傳的大數(shù)據(jù)技術最適合處理非結構化數(shù)據(jù)(而不適合結構化數(shù)據(jù)處理)相反。我們發(fā)現(xiàn)企業(yè)面臨兩方面的挑戰(zhàn),一方面是累積的數(shù)據(jù)量越來越大,從GB增長到了TB(擁有PB級的企業(yè)客戶也有,但是少數(shù)),另一方面,隨著應用的增多和復雜化,計算能力越來越不能滿足要求。大多數(shù)企業(yè)多年來根據(jù)業(yè)務需求在傳統(tǒng)的關系數(shù)據(jù)庫如DB2或者Oracle上開發(fā)自己的應用,數(shù)據(jù)量和應用的數(shù)量都在快速增加,傳統(tǒng)數(shù)據(jù)庫運行這些應用花的時間越來越長,即使只有1TB的數(shù)據(jù),由于業(yè)務邏輯的復雜性,在傳統(tǒng)關系數(shù)據(jù)庫上運行統(tǒng)計業(yè)務,也從以前的日報(每日統(tǒng)計)降低到只能做現(xiàn)在的周報了。這樣的時效性已經大大限制了企業(yè)的生產力。在IT系統(tǒng)日益成為企業(yè)業(yè)務本身的大趨勢下,IT系統(tǒng)效率的低下嚴重影響了企業(yè)的競爭力。這些待處理的數(shù)據(jù)都是企業(yè)的結構化業(yè)務數(shù)據(jù),現(xiàn)有的應用也都是基于SQL的。這是分布式的SQL on Hadoop技術發(fā)展的客觀原因,也是星環(huán)科技致力于提升SQL運行性能和SQL支持完整程度的一個現(xiàn)實需求。
第二個現(xiàn)象或者需求是對實時時序數(shù)據(jù)的處理需求日益強烈,特別是隨著傳感器和監(jiān)控設備等電子儀器的普及,企業(yè)有越來越多的實時數(shù)據(jù)。傳統(tǒng)處理方法是將電子儀器產生的數(shù)據(jù)存入數(shù)據(jù)庫后再統(tǒng)一分析。隨著設備的增多和數(shù)據(jù)的增長,傳統(tǒng)方案的延時越來越高。利用流處理技術在數(shù)據(jù)產生的時候就進行實時處理可以極大地提高企業(yè)的反應速度和工作效率。2014年星環(huán)科技部署了較多的流處理集群,來處理從用戶產生的實時數(shù)據(jù)到傳感器產生的數(shù)據(jù)。
這兩個應用趨勢我認為在2015年會變得更加強烈。下文簡單總結了過去一年中在運營商、金融、物流、工商、交通、能源、廣電和電商等多個領域中的大數(shù)據(jù)應用。
電信運營商
移動互聯(lián)網時代的運營商面臨著許多新挑戰(zhàn)。微信等手機通訊APP的出現(xiàn)侵蝕了運營商的語音和短信收入,流量業(yè)務顯得更加重要。另一方面,無線網絡服務是運營商的核心競爭力。近年來,運營商正在投入大量資金建設網絡來大力發(fā)展4G。4G網絡的覆蓋率不高或者質量不高導致的4G回落到3G或者2G會大大降低客戶滿意度。
經過最近一兩年的探索,運營商在大數(shù)據(jù)平臺建設方面總結了兩個方向,一是利用大數(shù)據(jù)技術來提升運營效率,同時探索新的商業(yè)模式和數(shù)據(jù)運營方式。在過去的一年中,大數(shù)據(jù)在運營效率提升方面得到驗證,而新的商業(yè)模式仍然在探索中。我們在廣東移動的經營數(shù)據(jù)分析中應用星環(huán)的內存計算技術成功地將800多個指標的計算從原先Oracle的30小時減少到了4小時,在上海移動成功地將流量經營系統(tǒng)從DB2完整地遷移到了星環(huán)的TDH上,運行效率比原先的集群有5倍左右的提升。我們對SQL的完整支持使得應用系統(tǒng)遷移成為可能,而之前合作伙伴曾經嘗試過將應用系統(tǒng)遷移到某知名Hadoop發(fā)行版上但沒有成功。我們正在參與某省電信和某直轄市移動的4G網絡優(yōu)化項目,在這些項目中,我們的合作伙伴在用更高性能的星環(huán)TDH代替?zhèn)鹘y(tǒng)MPP數(shù)據(jù)庫進行網絡優(yōu)化模型的建立和高速的模型運算,一方面發(fā)現(xiàn)網絡中存在的問題,例如信號回落的問題,幫助運營商快速找出有問題的區(qū)域。另一方面通過TDH提供的完整SQL結合統(tǒng)計和機器學習算法,找到最佳的優(yōu)化模型和參數(shù),對網絡進行細粒度的精確調整,以提高網絡的覆蓋度以及信號的質量。
金融
在2013年到2014年間,國有銀行以及部分股份制銀行或多或少地進行了大數(shù)據(jù)技術應用方面的探索,但是早期的應用局限在簡單的歷史交易查詢以及非結構化數(shù)據(jù)的存儲和檢索上,并沒有對銀行的關鍵業(yè)務產生影響。而大數(shù)據(jù)技術在銀行的應用前景被廣泛傳播,通過綜合處理銀行自有結構化交易數(shù)據(jù)以及外部互聯(lián)網/政府數(shù)據(jù),可以提升精細化客戶管理水平以及進行大數(shù)據(jù)征信降低風險等。這些遠景在2014年沒有成為現(xiàn)實,2015年預計將是應用探索的一年。但我們在2014年在銀行中實踐了一些務實的應用。在這些應用中,TDH作為數(shù)據(jù)倉庫的補充,用于提升數(shù)據(jù)分析的效率。同樣受益于我們對SQL的完整支持,某股份制銀行開始把一些復雜的貸款風險控制邏輯遷移到TDH Hadoop平臺上進行運算。這些風控模型客戶此前在多個MPP數(shù)據(jù)庫和Hadoop發(fā)行版上進行過嘗試,性能或者功能都沒能滿足他們的要求。從技術角度來看,這些分析涉及的數(shù)據(jù)量只有幾個TB,但是分析業(yè)務極其復雜,涉及到近百張事實表和維度表,有些表的寬度甚至超過了幾萬字節(jié)。這個案例說明傳統(tǒng)關系型數(shù)據(jù)庫或者MPP數(shù)據(jù)庫對于大數(shù)據(jù)場景下的復雜計算變得越來越捉襟見肘,銀行需要一個更高效的數(shù)據(jù)處理工具。