引言:現(xiàn)在越來越多的公共突發(fā)事件當(dāng)中,尤其是像人為的突發(fā)事件,比如說最近像上海的踩踏事件,互聯(lián)網(wǎng)也好,大數(shù)據(jù)也好,能不能發(fā)揮一些正能量的作用?防止這種悲劇的再度重演呢?本期IT名人堂的訪談嘉賓是星環(huán)科技的聯(lián)合創(chuàng)始人孫元浩先生,我們在2015中國Hadoop技術(shù)峰會(huì)上對他進(jìn)行了獨(dú)家訪談。
孫元浩認(rèn)為,完全可以用一些新的技術(shù)手段來檢測外灘人流的變化,為公安部門和交通部門提供一些信息指導(dǎo),比如攝像數(shù)據(jù)充當(dāng)數(shù)據(jù)源來做一些提前的預(yù)警。通過地鐵刷卡數(shù)據(jù)、和軌道交通數(shù)據(jù)來判斷人流量,發(fā)現(xiàn)地鐵數(shù)據(jù)的異常,公安部門可以直接和交通部門協(xié)調(diào),從而疏散人流。其次,我們還可以結(jié)合數(shù)據(jù)源運(yùn)營商基站的信號對數(shù)據(jù)進(jìn)行分析,它們包含了用戶手機(jī)的大致位置,我們能夠迅速的判斷出人群密度以及變化趨勢。隨著手機(jī)的移動(dòng),根據(jù)基站里手機(jī)的移動(dòng)方向可以預(yù)測密度的范圍,這些信息綜合起來可以形成從軌道地下、地面到空中的全方位檢測,這些信息可以迅速反饋給公安,為治安提供導(dǎo)向性的方案。此外,還有一個(gè)車流信息數(shù)據(jù)的采集也是非常重要的,機(jī)動(dòng)車輛經(jīng)過外灘、乃至全市交通,都會(huì)留下一條記錄,我們可以迅速判斷哪些機(jī)動(dòng)車沒有離開,逗留了,從而推斷出這里的車輛可能發(fā)生了擠壓狀況。在這種情況下,我們可以立刻反饋給交通部門,所有的營運(yùn)車輛不允許經(jīng)過外灘,這種方式也能緩解交通情況,所以綜合這些措施也是能夠做到預(yù)防的。
皮皮:在大數(shù)據(jù)的時(shí)代里,數(shù)據(jù)是一個(gè)讓企業(yè)很糾結(jié)的話題,很多人會(huì)認(rèn)為數(shù)據(jù)是死的,人是活的,數(shù)據(jù)挖掘的世界既是一個(gè)地雷陣,同時(shí)又是金礦,那大數(shù)據(jù)到底能給我們帶來什么呢?如何在海量的數(shù)據(jù)里挖掘出有價(jià)值的數(shù)據(jù)為己所用呢?
在采訪中,孫總為我們概括了大數(shù)據(jù)的三種典型應(yīng)用場景,其用武之地小到個(gè)人、家庭,大到國家,大數(shù)據(jù)可謂是無所不能。今天Hadoop主要應(yīng)用場景集中在技術(shù)處理上,但是已經(jīng)有一部分的應(yīng)用開始偏向機(jī)器學(xué)習(xí)。星環(huán)科技與合作伙伴也開始嘗鮮,利用Hadoop技術(shù)來處理數(shù)據(jù)的高級分析,從大數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)。
第一個(gè)典型的應(yīng)用場景是利用大數(shù)據(jù)來滿足實(shí)時(shí)營銷,比如實(shí)時(shí)采集用戶手機(jī)的位置信息,推送WI-FI的熱點(diǎn),根據(jù)用戶的購物歷史,刷卡記錄來做數(shù)據(jù)分析,推送個(gè)性化的營銷,比如電影票或感興趣的商品等。
第二個(gè)典型的應(yīng)用場景是利用大數(shù)據(jù)來預(yù)測用電量,孫總為我們介紹了一個(gè)從事用電數(shù)據(jù)分析的真實(shí)客戶案例。有些省份已經(jīng)布置了很多智能電表,多達(dá)幾千萬戶家庭,電表采集密度每天高達(dá)23次,通過電網(wǎng)傳感器的數(shù)據(jù)可以分析用電量與氣候之間的關(guān)系,能夠幫助電力公司來初步的預(yù)測未來的電力需求量,同時(shí)也能挖掘出企業(yè)用電和GDP增長之間的關(guān)系。
第三個(gè)典型的應(yīng)用場景是大數(shù)據(jù)應(yīng)用在醫(yī)療領(lǐng)域,有些企業(yè)應(yīng)用大數(shù)據(jù)的分析對DNA進(jìn)行比對。過去對高齡產(chǎn)婦進(jìn)行檢查,手術(shù)存在風(fēng)險(xiǎn)?,F(xiàn)在采用大數(shù)據(jù)的新技術(shù),通過采集胎兒的DNA序列進(jìn)行比對,一旦發(fā)現(xiàn)胎兒的異常癥狀,就可以采取措施,這種方法與手術(shù)相比,更加準(zhǔn)確,也無風(fēng)險(xiǎn)的,這種新的技術(shù)隨著大數(shù)據(jù)應(yīng)用越來越廣泛。
皮皮:60%的Hadoop應(yīng)用是用在SQL統(tǒng)計(jì)領(lǐng)域,最早的Hadoop是用于ETL,包括從數(shù)據(jù)的萃取到轉(zhuǎn)制到最后的加載,而現(xiàn)在我們發(fā)現(xiàn)像FACEBOOK的數(shù)據(jù)倉庫也用到了Hadoop 的數(shù)據(jù)倉庫,那么Hadoop與數(shù)據(jù)倉庫究竟有什么樣的關(guān)系呢?
孫總坦言,互聯(lián)網(wǎng)公司從第一天開始就是用Hadoop做數(shù)據(jù)倉庫,所以Hadoop是互聯(lián)網(wǎng)公司建數(shù)據(jù)的第一選擇,實(shí)際上Hadoop是互聯(lián)網(wǎng)公司的數(shù)據(jù)倉庫。而對傳統(tǒng)企業(yè)來講,IT架構(gòu)也發(fā)生了比較大的變化,比如在運(yùn)營商、銀行、物流、飛機(jī)等其它行業(yè),Hadoop作為一個(gè)數(shù)據(jù)倉庫的補(bǔ)充,但是把Hadoop運(yùn)用到這些企業(yè)當(dāng)中的時(shí)候存在一個(gè)顯著的問題,傳統(tǒng)的IT架構(gòu),在上面已經(jīng)有大的應(yīng)用了,這些應(yīng)用很多是基于SQL的,應(yīng)用類型與復(fù)雜程度其實(shí)是超過了互聯(lián)網(wǎng)公司,所以hadoop在進(jìn)入了這個(gè)領(lǐng)域的時(shí)候,有些局限,早期只是做ETL。而隨著hadoop技術(shù)的發(fā)展,像國外的一些公司包括我們公司都能提供比較完整的SQL支持,這樣使得我們能夠更進(jìn)一步用hadoop來替代企業(yè)的某些數(shù)據(jù)倉庫。
傳統(tǒng)的數(shù)據(jù)倉庫像一些大的企業(yè)國有銀行,動(dòng)不動(dòng)就是幾個(gè)億,維護(hù)擴(kuò)建也是幾個(gè)億的,成本經(jīng)費(fèi)非常昂貴,而Hadoop提供了性價(jià)比非常高的方案,這是企業(yè)在選擇的時(shí)候的一個(gè)考慮的重要因素。