如今,地理大數(shù)據(jù)產(chǎn)業(yè)在中國(guó)方興未艾。通過地理大數(shù)據(jù)為企業(yè)提供決策服務(wù)的GeoHey,是其中的代表。如何尋找并發(fā)掘地理大數(shù)據(jù)的價(jià)值。我們請(qǐng)來GeoHey的數(shù)據(jù)總監(jiān)高楠,分享了他對(duì)地理大數(shù)據(jù)這座金礦的“掘金秘籍”。
如何獲取“無處不在”的地理大數(shù)據(jù)?
我們先來說說如何獲取和清洗地理大數(shù)據(jù)。
作為一個(gè)互聯(lián)網(wǎng)用戶,你是否會(huì)留意到不少手機(jī)應(yīng)用在啟動(dòng)時(shí)會(huì)向你發(fā)出獲得個(gè)人位置定位的請(qǐng)求?比如,你在馬路上打開喜馬拉雅的FM廣播聽個(gè)相聲,邊走邊聽的時(shí)候你的位置數(shù)據(jù)便被不斷采集起來,這些被采集的位置數(shù)據(jù),便是地理數(shù)據(jù),也是值得挖掘的對(duì)象。另外,現(xiàn)實(shí)中的地理單位,比如一條馬路,一棟房屋,它們也是一個(gè)個(gè)地理數(shù)據(jù),可以被采集。
當(dāng)我們把這些搜集起來的數(shù)據(jù)賦予維度并交叉應(yīng)用時(shí),便產(chǎn)生了它的應(yīng)用價(jià)值。
既然位置數(shù)據(jù)來源于互聯(lián)網(wǎng),那么我們就去互聯(lián)網(wǎng)上爬。
我們將這個(gè)過程設(shè)定為四個(gè)步驟:首先是開發(fā)爬蟲,我們會(huì)開發(fā)挖掘數(shù)據(jù)的爬蟲程序,這是我們的核心工具;在爬蟲程序設(shè)定之后,我們便設(shè)定策略,確定要抓取哪一方面的數(shù)據(jù),這也是我們的關(guān)鍵環(huán)節(jié);在策略設(shè)定好之后,我們便設(shè)定生產(chǎn)排程,說通俗點(diǎn)就是排好工期;最后獲得到我們想要的數(shù)據(jù)。
正如淘金需要過濾泥沙一樣,我們獲取到的數(shù)據(jù)其實(shí)有很多“廢渣”,會(huì)影響整體價(jià)值。清洗數(shù)據(jù)和獲取數(shù)據(jù)也是同樣重要。按照上述這套流程下來,我們的系統(tǒng)不僅可以獲得數(shù)據(jù),還可以清洗數(shù)據(jù)。
要做到數(shù)據(jù)去重和清洗,首先要保證數(shù)據(jù)的獲取量足夠大。此外,還對(duì)數(shù)據(jù)來源進(jìn)行評(píng)估,保證數(shù)據(jù)來源的“干凈”。
我們是一個(gè)僅16人的團(tuán)隊(duì),所以處理數(shù)據(jù)更多是依靠機(jī)器而非人力完成。我們要賦予機(jī)器學(xué)習(xí)能力,即借助計(jì)算機(jī)強(qiáng)大的計(jì)算能力去發(fā)現(xiàn)更多的數(shù)據(jù)信息。
依靠機(jī)器,使我們保持了較高的工作效率。所需的數(shù)據(jù)最快半小時(shí),最多1天就能將全部爬完。而這些數(shù)據(jù)清洗的工作也僅依靠3、4個(gè)人便能完成。
除了提高效率,機(jī)器學(xué)習(xí)還具備三個(gè)功能:
數(shù)據(jù)補(bǔ)全:從網(wǎng)上爬下來的數(shù)據(jù)很多質(zhì)量不高,而數(shù)據(jù)補(bǔ)全功能就是在當(dāng)數(shù)據(jù)不完整時(shí),可以根據(jù)已有的數(shù)據(jù)去推測(cè)估算缺失的數(shù)據(jù);
新數(shù)據(jù):在缺少某種數(shù)據(jù)時(shí),可以從已有的數(shù)據(jù)提取生產(chǎn)出新數(shù)據(jù)。就像通過影像數(shù)據(jù)可以提取建筑數(shù)據(jù);
數(shù)據(jù)生長(zhǎng):從現(xiàn)有的數(shù)據(jù)中,可以提取出某些數(shù)據(jù)內(nèi)在的規(guī)律,根據(jù)規(guī)律生產(chǎn)新數(shù)據(jù)。憑借完整的流程設(shè)置和機(jī)器學(xué)習(xí),目前我們獲得數(shù)據(jù)量是非??捎^的,僅以位置數(shù)據(jù)為例,目前GeoHey的位置數(shù)據(jù)總量將近8億,位置數(shù)據(jù)年平均增量達(dá)到了58%。同時(shí),我們還對(duì)數(shù)據(jù)實(shí)行周期更新,更新頻率從小時(shí)到每季度不等。
當(dāng)數(shù)據(jù)被掌握了之后,我們可以用它做哪些事情呢?這就是一個(gè)發(fā)掘地理大數(shù)據(jù)價(jià)值的過程,我想通過三個(gè)案例來介紹。
1. 用大數(shù)據(jù)來展現(xiàn),哪家運(yùn)營(yíng)商的4G信號(hào)好?
如何用地理大數(shù)據(jù)判斷哪里的4G信號(hào)哪家強(qiáng)?作為非專業(yè)人士,面對(duì)這個(gè)問題很難回答。不過,我們通過挖掘地理數(shù)據(jù),能夠給出答案。
首先,萬事開頭找數(shù)據(jù)。
那么這些數(shù)據(jù)從哪里挖掘呢?我們都知道,作為通訊運(yùn)營(yíng)商,信號(hào)離不開通信基站的支持,每個(gè)通信基站上都有一個(gè)傳感器,傳輸?shù)男盘?hào)數(shù)據(jù)便可以被我們獲取,來判斷移動(dòng)、電信和聯(lián)通三家運(yùn)營(yíng)商的4G信號(hào)差異。
對(duì)此,我們采集了7500萬通信基站的數(shù)據(jù)。(DT君注:在現(xiàn)場(chǎng),高楠還演示了上圖右邊的這些數(shù)據(jù)采集后的三維可視化效果。)
在不同區(qū)域不同運(yùn)營(yíng)商的4G信號(hào)強(qiáng)度是不同的。比如,電信的數(shù)據(jù)應(yīng)用最普遍且信號(hào)強(qiáng)度最高,而在北方尤其是東北地區(qū),聯(lián)通則更加強(qiáng)勢(shì),信號(hào)也要明顯電信和移動(dòng)兩家運(yùn)營(yíng)商。
除了判別不同地區(qū)4G信號(hào)的差異,我們還能看到不同運(yùn)營(yíng)商的信號(hào)覆蓋密集程度。以西南地區(qū)的貴州省為例,在當(dāng)?shù)爻艘苿?dòng)一家獨(dú)大之外,信號(hào)的密集程度也明顯要低于中東部地區(qū)。從側(cè)面來看,這也說明貴州省的基站分布不均,對(duì)于各大運(yùn)營(yíng)商而言,依舊存在競(jìng)爭(zhēng)的可能。