2014中關村大數(shù)據(jù)日于2014年12月11日在中關村舉辦,大會以大會以“聚合數(shù)據(jù)資產(chǎn),推動產(chǎn)業(yè)創(chuàng)新”為主題,探討數(shù)據(jù)資產(chǎn)管理和變現(xiàn)、大數(shù)據(jù)深度技術以及行業(yè)大數(shù)據(jù)應用創(chuàng)新和生態(tài)系統(tǒng)建設等等關鍵問題。大會還承載從政府主管部門到各行各業(yè)的需求和實踐中的疑問,探討包括政府、金融、運營商等部門是如何通過數(shù)據(jù)資產(chǎn)管理和運營,實現(xiàn)轉型發(fā)展和產(chǎn)業(yè)創(chuàng)新的路徑。
百度大數(shù)據(jù)部總監(jiān)薛正華
百度大數(shù)據(jù)部總監(jiān)薛正華參與并做主題演講,分享了百度在大數(shù)據(jù)方面所取得的成績與經(jīng)驗。
薛正華:尊敬的各位領導,各位來賓,各位朋友,大家上午好!我叫薛正華,來自百度,今天想和大家一起分享百度在大數(shù)據(jù)方面所作的一些工作。
百度是一家互聯(lián)網(wǎng)公司,從這家公司誕生之日起它就是一個大數(shù)據(jù)公司,百度搜索引擎每天爬取大量的數(shù)據(jù),并對這些數(shù)據(jù)進行加工處理,來挖掘和發(fā)現(xiàn)這些數(shù)據(jù)的價值。這張片子是百度大數(shù)據(jù)引擎的整體架構,從最底層的開放云,到中間層的數(shù)據(jù)工廠,再到百度大腦,這三部分共同構成了百度大數(shù)據(jù)引擎。開放云提供信息基礎設施服務;數(shù)據(jù)工廠主要主要包括:大數(shù)據(jù)的存儲管理以及查詢分析。百度大腦更確切地說是一個基于大數(shù)據(jù)的人工智能系統(tǒng),它會利用語音識別,圖像識別、深度學習等技術,來分析和挖掘大數(shù)據(jù)的價值。
這三層所對應的系統(tǒng)和產(chǎn)品目前正在服務著百度的許多應用,今年4月份百度首席執(zhí)行官Robin宣布大數(shù)據(jù)引擎對外開放,希望百度大數(shù)據(jù)引擎不僅能夠服務百度,也能夠服務更多的企業(yè)、機構和政府,也希望能夠讓普通大眾也體會到大數(shù)據(jù)的價值。
百度開放云是最底層的信息化基礎設施層。今天,百度的服務器已經(jīng)到了幾十萬臺的規(guī)模,分布在全國很多數(shù)據(jù)中心。同時,我們還有一個全國分布的CDN網(wǎng)絡,CDN主要是對應用性能進行加速,以此來保障用戶體驗。我們在硬件方面也做了很多的努力、嘗試以及創(chuàng)新,包括自研的核心萬兆交換機以及SSD等硬件設備。眾所周知,大數(shù)據(jù)面臨一個非常大的挑戰(zhàn)就是IO瓶頸,這是制約大數(shù)據(jù)分析處理性能的一個主要瓶頸。我們在網(wǎng)絡以及SSD方面做了很多研發(fā),讓數(shù)據(jù)能夠更快地加載到計算系統(tǒng)中,以此提升大數(shù)據(jù)系統(tǒng)的性能。我們也是第一家大規(guī)模采用ARM服務器的公司,它能幫助我們節(jié)能降耗,降低系統(tǒng)運維成本。在數(shù)據(jù)中心方面,今年正式投產(chǎn)使用的陽泉數(shù)據(jù)中心是目前亞洲最大的數(shù)據(jù)中心,它將更好地支撐百度各個業(yè)務穩(wěn)定、高效、安全地運行。今天,百度也非常積極地要把這些能力開放出去,讓更多的企業(yè)去使用我們的存儲資源,使用我們的計算資源,使用我們的網(wǎng)絡,這些技術和系統(tǒng)的開放,能夠為企業(yè)帶來的更低的成本,能夠讓他們的業(yè)務更穩(wěn)定、更安全地運行。
這張片子展示的是百度目前在基礎設施層所開放出來的服務能力。大家可以看到有虛擬機、CDN、存儲、緩存等服務,還有基于Hadoop的大數(shù)據(jù)分析處理平臺。數(shù)據(jù)工廠是百度的中間層,建立在基礎設施層之上,這一層主要針對大數(shù)據(jù)的存儲以及快速查詢分析。百度現(xiàn)在的數(shù)據(jù)規(guī)模已經(jīng)到了EB級,每天處理的數(shù)據(jù)量到了上百PB,數(shù)據(jù)量每天還在不斷的增長。如何在海量數(shù)據(jù)中進行快速查找和分析是一個很大的挑戰(zhàn),百度通過多年的積累和探索,取得了很大的進展和突破,能夠更好的服務于百度的各個產(chǎn)品,數(shù)據(jù)工廠的相關技術和平臺也正在逐步開放出來,歡迎更多的企業(yè)使用。
百度大腦是一個基于大數(shù)據(jù)的人工智能系統(tǒng),它利用一些前沿技術,如圖像識別、語音識別、自然語言處理、人機交互、深度學習等進行大數(shù)據(jù)的深度挖掘和分析。百度大腦輸入的是來自于百度許多產(chǎn)品線的數(shù)據(jù)以及第三方合作伙伴的數(shù)據(jù),對這些數(shù)據(jù)進行加工整理后,利用我們IDL的深度學習系統(tǒng)挖掘隱藏在數(shù)據(jù)背后的價值,分析和計算結果服務于百度的搜索引擎、廣告投放等業(yè)務,也服務于我們正在研發(fā)的機器人、無人駕駛等智能產(chǎn)品。
大數(shù)據(jù)到底能幫我們做什么事呢?我們也在和大家一起探討這個問題,根據(jù)過去的一些經(jīng)驗和積累,我們把它總結成三個方面,即:感知認知,分析決策以及發(fā)現(xiàn)創(chuàng)造。這個案例是我們和一家民營企業(yè)醫(yī)院合作的一個案例,就是皮膚病的識別,年輕父母對孩子身上的皮膚出現(xiàn)了一些狀況,常常會感到很著急,她不知道是什么病癥也不知道該如何處理。百度開發(fā)了一款APP,使用這個APP,只要你拿手機對著皮膚患處拍照片,這個照片將被傳送到百度大腦,百度大腦對這張照片以及后臺皮膚病圖庫中的上百萬張圖片進行分析比對,判斷孩子得的是什么病。知道這個病種之后,接下來會從百度知識庫里獲取和這個病相關的詳細信息,如:病癥名稱,癥狀,治療手段等信息,并把這些信息發(fā)送到手機。這一系列過程需要在短時間內迅速完成。
這張圖中的產(chǎn)品是百度在9月份發(fā)布的一款產(chǎn)品叫做百度Eye,它會利用前端的攝象頭把你看到的東西拍下來,然后把圖片傳送到百度大腦上進行分析,分析完成之后,會從知識庫中提取和這張圖片相關的知識,并通過語音合成技術,以語音的方式返回最終的結果給用戶,這一系列的過程也需要在秒級完成。
目前,我們在視覺、聽覺、位置等方面進行了有益的嘗試,也取得了很好的進展。接下來,我們會進一步在味覺、嗅覺等方面進行感知認知探索。我們認為,大數(shù)據(jù)除了有感知認知能力外,在輔助決策方面多我們有很大的幫助。百度目前EB級的數(shù)據(jù),數(shù)據(jù)分析維度已經(jīng)到了上億維度,通過對這些數(shù)據(jù)的分析處理,我們能夠發(fā)現(xiàn)更多的、隱藏在大數(shù)據(jù)背后的真相。
這款產(chǎn)品是叫做百度思南,主要是幫助企業(yè)進行市場分析和決策,它能夠定位企業(yè)品牌在市場的位置,發(fā)現(xiàn)競爭對手,了解客戶群等,這個產(chǎn)品是基于百度大數(shù)據(jù)面向商業(yè)應用的一款分析決策產(chǎn)品。下面我想和大家分享一個具體案例。
這個案例是我們和汽車領域的一個品牌合作的案例,比如我們要找到該品牌的某個車型在市場上的競爭對手是誰?我們會對搜索過該車型的網(wǎng)民,還搜過其他什么車型進行統(tǒng)計分析,通過相似度計算,找出與該車型比較相關的一些品牌,就是通過這樣一個簡單的邏輯,便可以發(fā)現(xiàn)這個車型的競品。圖中,點之間的距離代表的是各個品牌車型和該車型的相似度。我們繼續(xù)以這個車型為例,我們能夠知道搜索該車型的IP都是來自于哪個地區(qū),我們發(fā)現(xiàn)在圖中右上區(qū)域,搜索的人很多,根據(jù)合作伙伴提供給我們的市場數(shù)據(jù),該地區(qū)的銷售量也很大,那么可以判斷,這個地區(qū)是一個現(xiàn)金牛市場,但是在下面這個區(qū)域,搜索量很大,關注的人很多,但是銷量并不高,那說明這個地區(qū)是一個潛在的市場需要大力去拓展。通過這些信息我們可以看到,在海量的數(shù)據(jù)背后,隱藏了很多真相,我們需要把這些數(shù)據(jù)背后的價值挖掘出來。我們繼續(xù)對這個案例進行深挖,探索一下搜索這個車型的用戶,還喜歡搜索其他哪方面的內容,比如:金融財經(jīng)、體育、娛樂、科技等,我們發(fā)現(xiàn)搜索該車型的用戶,搜索孕嬰育兒類的內容比例比較高,據(jù)此我們可以判斷對這種車型感興趣的用戶,可能是一些生活到了一定層次的女性;再看看搜索另一款車型的用戶,我們可以看到它的用戶群體更多會去關注奢侈品,還有美容美體的相關內容,這表明,這類用戶可能是一些有錢有閑的姑娘們。通過這些分析,我們可以清晰地告訴品牌主,你的受眾人群到底是哪些人群。我們繼續(xù)從另一個關注點來分析這個案例,搜索這個車型的人,喜歡搜索哪些、哪類明星,這樣我們可以幫助這些品牌主找到哪些代言人或者哪一類特質的代言人更加契合他的品牌形象。尋找代言人的傳統(tǒng)做法,往往是通過一些商業(yè)的調研機構去輔助調查。這種做法通過線下調研隨機采訪,它的樣本量比較有限,人群覆蓋度不夠。百度通過對幾億網(wǎng)民搜索數(shù)據(jù)進行分析和挖掘,樣本覆蓋度很高;同時,這些數(shù)據(jù)往往是搜索者真實的想法,數(shù)據(jù)有效性很高,因此,它的結果相對就比較準確。對于圖中某款車型,我們發(fā)現(xiàn)關注這款車型的人對王菲、吳莫愁等明星的搜索度很高,那么可能有個性的明星更容易被這款車型的關注人群所接受。通過對上述案例的種種分析,我們可以清楚地看到大數(shù)據(jù)在商業(yè)決策方面能夠提供很有用的商業(yè)價值,通過百度大數(shù)據(jù)我們能夠輔助企業(yè)制定更有效的商業(yè)決策,為企業(yè)帶來實實在在的經(jīng)濟價值。
我們還做了一些其他案例,例如:我們通過對幾億網(wǎng)民搜索手機品牌的行為分析,可以知道哪些手機目前是網(wǎng)民最關注的品牌。同時我們還可以知道用戶到底關注某一品牌哪些方面的指標,例如手機的耗電量、屏幕大小、像素高低等,通過對這些搜索和輿情數(shù)據(jù)的分析,我們能為品牌主提供高價值的商業(yè)決策。
大數(shù)據(jù)在預測發(fā)現(xiàn)方面也有很高的價值。這個案例是我們和中科院、工信部聯(lián)合做的一個項目,研究全國和地區(qū)經(jīng)濟指數(shù)的變化,特別是中小企業(yè)行業(yè)景氣指數(shù)的變化情況。數(shù)據(jù)來源以及分析原理是基于以下幾方面。一是百度自身有很多的企業(yè)客戶,這些企業(yè)客戶來自不同的行業(yè),不同的地區(qū),他們在百度的廣告投放從某種程度上能夠反映出某行業(yè)或地區(qū)的經(jīng)濟景氣情況;二是我們收集了大量與各行業(yè)和地區(qū)相關的搜索、輿情等數(shù)據(jù);同時,我們也融合了能夠反映行業(yè)景氣指數(shù)的一些歷史數(shù)據(jù),通過對這些數(shù)據(jù)進行綜合建模,我們就可以對行業(yè)和地區(qū)的經(jīng)濟景氣指數(shù)進行預測。通過分析,我們能夠提前三個月預測宏觀經(jīng)濟走勢以及行業(yè)和地區(qū)的經(jīng)濟景氣情況。目前,預測的準確率已經(jīng)達到了95%,通過這個案例,我們可以看到利用大數(shù)據(jù)技術能夠更快、更好地對行業(yè)發(fā)展情況進行預測。
這個案例是我們和CDC合作的關于疾病傳播的案例。首先,我們發(fā)現(xiàn)一個現(xiàn)象。當某個地區(qū)爆發(fā)了某種疫情后,這個地區(qū)的人群會到網(wǎng)上搜索與這種疫情相關的癥狀、治療手段等信息?;谶@一現(xiàn)象,當我們的搜索引擎實時統(tǒng)計分析出某地區(qū)某疫情的搜索量突然增大時,我們基本就可以判斷這個地區(qū)爆發(fā)了疫情。與此同時,如果我們發(fā)現(xiàn)另外一個地區(qū)關于這種疫情的搜索量也在持續(xù)上漲,我們就可以判斷疫情在向這個地區(qū)移動了。最后,我們根據(jù)疫情的搜索量和不同地區(qū)人們的搜索時間次序,就可以得到并且預測出疫情的完整的傳播路徑了。在合作中,我們了解到,疫情的傳統(tǒng)做法一般是發(fā)現(xiàn)疫情后,各地上報,然后再派專人去做流行病調查,取樣分析,確定結果,整個周期會較長,不利于疫情的及時控制。通過互聯(lián)網(wǎng)大數(shù)據(jù)分析手段,我們可以第一時間得到并預測出疫情的傳播路徑,從而快速進行有效控制。
前面和大家一起分享了百度大數(shù)據(jù)引擎的構成以及具體應用案例。我們期待與來自各行各業(yè)的同仁們一起合作,共同挖掘和發(fā)現(xiàn)大數(shù)據(jù)的價值,共同創(chuàng)造新的商業(yè)價值,謝謝!