還有一些大數(shù)據(jù)的挖掘價(jià)值,這部分價(jià)值我不會(huì)談的太多,因?yàn)檫@部分價(jià)值我覺得我們作為一個(gè)互聯(lián)網(wǎng)公司來說沒有太多的發(fā)言權(quán),比如說我們對這部分?jǐn)?shù)據(jù)利用的還不夠充分,因?yàn)檫@些數(shù)據(jù)比如說政府和研究機(jī)構(gòu)以及學(xué)校對于這些數(shù)據(jù)怎么用應(yīng)該比我們了解更多,我們只是在數(shù)據(jù)里面挖出冰山一角,我們把數(shù)據(jù)發(fā)布出來,比如我們看春運(yùn)的時(shí)候哪些城市更多人遷入和哪些城市更多人遷出,以及我們怎么選擇路線,以及某些節(jié)日,比如情人節(jié)時(shí)我們做什么流量推廣。
我現(xiàn)在說的更偏技術(shù)性的東西,就是我們智能交通計(jì)算平臺(tái),這可以認(rèn)為是百度地圖大腦。智能交通服務(wù)都有哪些?比如說我們可以看到的,截至到2014年底國家汽車保有量1.4億,國家2014年可以完全進(jìn)入了汽車社會(huì),在2013年到2015年由于移動(dòng)互聯(lián)網(wǎng)發(fā)展,我們也進(jìn)入了移動(dòng)互聯(lián)網(wǎng)社會(huì),我們有了移動(dòng)互聯(lián)網(wǎng)更大的數(shù)據(jù)采集和更大的數(shù)據(jù)量,我們可以看到更大的數(shù)據(jù),比如說上海用戶平均每次擁堵是15分鐘,平均他們速度22千里每小時(shí),這個(gè)速度大家可以認(rèn)為是非常非常擁堵的,我們要做的智慧交通就是通過我們的智慧交通提供服務(wù)提高智慧效率。我們通過車輛調(diào)度、商圈選擇以及城市規(guī)劃,包括社會(huì)效率。我們整個(gè)平臺(tái)從上到下分為四個(gè)部分,第一個(gè)是應(yīng)用,基于我們這些數(shù)據(jù)做一些具體應(yīng)用,第二個(gè)是數(shù)據(jù)挖掘,第三個(gè)是數(shù)據(jù)分析,第四個(gè)是定位,剛剛說精準(zhǔn)定位是非常高,1多3米左右。數(shù)據(jù)我們跟合作方和政府合作數(shù)據(jù),這些數(shù)據(jù)比如說出租車數(shù)據(jù)高質(zhì)量,但是它覆蓋率存在不足,我們還有地圖導(dǎo)航數(shù)據(jù),這些數(shù)據(jù)非常大,但是非常差,那我們就要做數(shù)據(jù)清晰,比如地圖匹配,軌跡分類,拓?fù)錁?gòu)建,我們把高質(zhì)量的引進(jìn)來,把軌跡量不足的地方把它做泛化,把數(shù)據(jù)做補(bǔ)充。我們利用實(shí)時(shí)路況,時(shí)間估計(jì),實(shí)時(shí)公交,包括新路發(fā)現(xiàn),因?yàn)橛辛诵侣钒l(fā)現(xiàn),我們才把地圖流程提升到天級或者是小時(shí)級別。
地圖匹配,我們不是運(yùn)營商,所以我們拿到數(shù)據(jù)是運(yùn)營商的點(diǎn),他給我們就是這些點(diǎn),那么我們需要就是把這些點(diǎn)還原成他所謂的軌跡,而且這些軌跡需要自造,而且有些點(diǎn)離的非常遠(yuǎn),有些可能比如從汽車已經(jīng)轉(zhuǎn)換成步行,我們會(huì)把這些點(diǎn)通過建模轉(zhuǎn)換成這樣一個(gè)軌跡,我們對算法和模型有很多的要求,比如它具有很高的魯棒性。當(dāng)然這個(gè)用戶定位點(diǎn)缺失比較大,這樣保證我們的數(shù)據(jù)越來越的精確性。還有說K階HM圖,這條路是否通行,比如大家看到這個(gè)線,如果用戶在西直門立交橋那個(gè)地方是要繞道的,因?yàn)槟莻€(gè)地方有一個(gè)限制。
實(shí)時(shí)路況我們首先要做分鐘更新,如果太慢就不會(huì)很準(zhǔn)確,如果更新更快,比如這個(gè)地方紅燈比較長,大家經(jīng)常會(huì)覺得紅燈會(huì)很堵,綠燈也會(huì)很暢通,對于產(chǎn)品我們不能把紅燈綠燈去做,我們會(huì)融合評估整個(gè)紅燈情況。第三個(gè)是全國覆蓋,如果一個(gè)數(shù)據(jù)沒有路況,其實(shí)用戶對這個(gè)路況是不信任的。我們把這些還原成軌跡之后,就會(huì)變成這個(gè)樣子,十分鐘或者二十分鐘之內(nèi)這條路段上面所有軌跡的趨勢圖,通過趨勢圖,我們可以看到這個(gè)路段它是從暢通開始慢慢地速度下降變成擁堵,但是它并沒有完全擁堵,加上我們計(jì)算和核算趨勢,把實(shí)時(shí)路段發(fā)送擁堵,實(shí)踐證明我們這個(gè)按趨勢模型算法,準(zhǔn)確率達(dá)到80%左右。
除此之外我們還會(huì)加入一些時(shí)空規(guī)則,舉個(gè)簡單例子,比如這個(gè)路段上面現(xiàn)在車輛很少,可能只有兩輛車,有一輛車開的非常慢,我們軌跡就看車開的非常慢,軌跡量很少,這個(gè)時(shí)候我們說這個(gè)車擁堵是不對的,因?yàn)樗赡軇傞_車開的非常慢,所以我們結(jié)合他上一個(gè)時(shí)間速度開的非???,他慢速的可信度,通過實(shí)時(shí)模型和預(yù)測模型,整個(gè)路況率提升90%恩左右。
第三個(gè)比較難的就是時(shí)間估計(jì),剛剛跟下面同學(xué)討論了一下,時(shí)間估計(jì)這個(gè)非常難做,難做的原因大家能想到,比如去一個(gè)地方需要50分鐘,我首先要拿到的數(shù)據(jù)就是以前的數(shù)據(jù),我們不能用當(dāng)前路況累加,當(dāng)前在車行使過程中會(huì)變,所以當(dāng)前路況不準(zhǔn)。維度用哪個(gè)維度,比如今天下雨和明天下雨不一樣,包括路面擁堵,今天擁堵和昨天擁堵通行時(shí)間也是不一樣,所以如果我們用路段累加方式會(huì)陷入災(zāi)難。第二個(gè)這種數(shù)據(jù)越遠(yuǎn)的時(shí)候我們用累加方式,到后來累加的準(zhǔn)確率可能就會(huì)越來越低,就會(huì)造成擁堵的情況。
大家可能6月份會(huì)看到我們推出全新的一款百基于百度圖象識(shí)別和人臉識(shí)別類似的方式,給大家舉一個(gè)例子,人臉識(shí)別如果你用特征會(huì)陷入一個(gè)問題,人五官是特征,五官有五個(gè)特征,五官的五個(gè)特征可以相互組合可以形成更多的特征,他的左臉和右臉有很多特征,她今天畫眉毛明天不畫眉毛,你識(shí)別就不會(huì)準(zhǔn),因?yàn)樗拿济珪?huì)變。地圖LENING是什么方式?跟大家具體描述可能要一天一夜,簡單來說就是把時(shí)間、路況都丟進(jìn)去,計(jì)算出來一個(gè)抽象的特征,這個(gè)抽象特征最后降為三到五個(gè)特征,通過這三到五個(gè)特征再去訓(xùn)練模型,這樣得到效果。包括這里面有大數(shù)據(jù)效果,基本上準(zhǔn)確率可以達(dá)到70%,以前可能是50%恩左右。50%就是詬病的狀態(tài),因?yàn)樗褪菧?zhǔn)和不準(zhǔn)之間。