快遞
快遞行業(yè)IT系統(tǒng)產(chǎn)生的數(shù)據(jù)量和承載的壓力過去一直沒有得到大家的關注。近年來,快遞行業(yè)的規(guī)模隨著電子商務的高速發(fā)展出現(xiàn)了快速的擴張。巨大的市場需求給快遞公司帶來了前所未有的挑戰(zhàn),每年的“雙十一”會給快遞公司的處理能力施加遠高于平時的壓力。因此,怎樣緩解“雙十一”的爆倉、避免快件變“慢件”是每個快遞公司的難題。
如何通過大數(shù)據(jù)的分析對快遞流程進行改善和優(yōu)化成為一個值得研究的問題,也是快遞業(yè)提高競爭力的一個重要手段??爝f的每一個生產(chǎn)環(huán)節(jié)都會產(chǎn)生的大量數(shù)據(jù),監(jiān)控這些數(shù)據(jù)進而對全國各處理中心的收寄和運載能力、出班投遞計劃做實時優(yōu)化調(diào)整,公司就能降低成本。分析這些數(shù)據(jù)來對業(yè)務發(fā)展的趨勢做出預測,公司就能做好準備應對暴漲的需求。然而,快遞生產(chǎn)環(huán)節(jié)中的數(shù)據(jù)具有數(shù)據(jù)量大、并發(fā)性高、類型復雜的特點,上層應用對實時性要求很高,傳統(tǒng)數(shù)據(jù)庫在這樣的情況下捉襟見肘。
我們和華勝天成合作一起為中國郵政EMS速遞部門部署了大數(shù)據(jù)平臺,對它在全國的攬投部、處理中心和集散中心的數(shù)據(jù)(包括已接收、留存件、已下段、未下段、已投遞、未投遞、攬收員、地址、已封發(fā)、已發(fā)運、未發(fā)運等等)進行處理。大數(shù)據(jù)平臺將ESB(企業(yè)生產(chǎn)總線)流來的數(shù)據(jù)實時動態(tài)加載進流處理集群以及實時數(shù)據(jù)庫,進行實時統(tǒng)計和指標監(jiān)測,并且實現(xiàn)實時數(shù)據(jù)查詢。這次部署給了客戶簡單易用的工具來對業(yè)務的每個環(huán)節(jié)實時監(jiān)控,使得他們在海量的快遞業(yè)務中都可以快速精準地發(fā)現(xiàn)問題,如快件的積壓、遺失、破損等,從而提高服務質(zhì)量。這個大數(shù)據(jù)平臺平穩(wěn)支撐了2014年“雙十一”的數(shù)據(jù)處理壓力。未來該平臺也可根據(jù)最新的生產(chǎn)數(shù)據(jù)幫助快遞公司調(diào)整和優(yōu)化投遞計劃,為公司降低成本。
工商
工商部門在建設國家的“經(jīng)濟戶籍庫”積累了大量的市場主體信息、年檢情況、執(zhí)法數(shù)據(jù)和12315投訴等數(shù)據(jù)。對這些數(shù)據(jù)的統(tǒng)計分析可以幫助工商部門理解市場與經(jīng)濟形勢。
大數(shù)據(jù)技術的其中一個簡單應用是用在數(shù)據(jù)質(zhì)量管理和統(tǒng)計分析上。由于是人工錄入數(shù)據(jù),不可避免存在一定出錯的概率,雖然概率不大。同時企業(yè)和個人的基本信息被分散在幾十張關系表中,信息存在一定程度的交叉關聯(lián)。通過對數(shù)據(jù)進行大規(guī)模交叉比對和統(tǒng)計,可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的錯誤并及時得到更正。這個應用使用了星環(huán)的內(nèi)存計算技術,全量數(shù)據(jù)的校驗和統(tǒng)計可在十分鐘內(nèi)完成,極大提高了工作效率。
另外,大數(shù)據(jù)技術也用于市場主體信息的查詢系統(tǒng)中,可以應對上億用戶并發(fā)查詢并在幾百毫秒內(nèi)就返回查詢或搜索結(jié)果。對企業(yè)歷史快照的查詢可以讓用戶跟蹤企業(yè)變更信息,掌握企業(yè)生命周期的變化規(guī)律。在解決了存儲和查詢問題的基礎上,我們還幫助客戶利用圖計算引擎快速發(fā)現(xiàn)企業(yè)之間和企業(yè)相關人員之間的關聯(lián)。通過對全庫數(shù)據(jù)進行掃描,確認這些企業(yè)基于股權、任職等方面的關聯(lián)關系,建立企業(yè)關聯(lián)關系信息庫。
電力
隨著電力企業(yè)信息化快速建設和智能電力系統(tǒng)的全面建成,電力數(shù)據(jù)的增長速度將遠遠超出電力企業(yè)的預期。從發(fā)電側(cè)為例,電力生產(chǎn)自動化控制程度的提高,對諸如壓力、流量和溫度等指標的監(jiān)測精度,頻度和準確度更高,對海量數(shù)據(jù)采集處理提出了更高的要求。就用電側(cè)而言,一次采集頻度的提升就會帶來數(shù)據(jù)體量的“指數(shù)級”變化。電力數(shù)據(jù)量的增長已經(jīng)遠遠超過某電力部門原先使用的關系數(shù)據(jù)庫的處理能力。
我們在2014年主要幫助電力部門處理用電側(cè)的數(shù)據(jù)。我們意外地發(fā)現(xiàn)電力數(shù)據(jù)的統(tǒng)計分析涉及非常復雜的SQL運算,從技術角度來看,大量使用了Oracle的PL/SQL擴展語法,包括存儲過程/控制流/異常處理/增刪查改/事務處理等。從應用角度來看,這些SQL邏輯主要用于用電量的歷史統(tǒng)計和用電趨勢的分析,以及對線路損耗的計算。我們協(xié)助客戶通過機器學習的方法進行分析,發(fā)現(xiàn)用電量跟宏觀經(jīng)濟走勢以及氣候有一定的相關性,同時也跟每個行業(yè)以及每個企業(yè)的經(jīng)營狀況密切相關。通過對企業(yè)用電量的統(tǒng)計以及它所處行業(yè)的用電水平的對比,可以發(fā)現(xiàn)企業(yè)的節(jié)能情況,通過對用電歷史數(shù)據(jù)的分析,可以發(fā)現(xiàn)企業(yè)生產(chǎn)活動的變化或者節(jié)能措施的效果。某南方供電局采用TDH的平臺統(tǒng)計找出節(jié)能環(huán)保的企業(yè)和用電大戶,并對節(jié)能環(huán)保的企業(yè)給予補貼,目的是對全社會節(jié)能減排觀念進行引導,推動工業(yè)由高耗能的粗放發(fā)展方式向低耗能、高效率的綠色和諧發(fā)展方式轉(zhuǎn)變。