美國總統(tǒng)奧巴馬真得要感謝大數據的挖掘技術。因為正是由于對大數據的掌控,他的競選團隊才會遠在去年11月份競選結果公布之前就已信心十足地認為其將贏得大選。這是怎么一回事兒呢?
早在奧巴馬競選之初,一個由數據科學家組成的技術團隊就已經成立。他們通過對歷史數據以及各類輸入因素的分析,在總統(tǒng)競選過程中,通過使用數據挖掘技術對每一位選民建立精確的用戶偏好模型,從而得出其在大選當日選民投票的概率,以及結果會偏向哪一方。同時,他們還不斷地更新他們的模型,以至于時刻可以知道選民們的意向變化。這些模型建立在對選民的喜好以及行為數據的分析上,來自上千個數據源,其中包括往屆的投票記錄,對競選事項的各類反饋數據,數以千計的電話和在線采訪以及選民轉變觀點之后對競選結果的影響。
志愿者們不但每周都在記錄更新選民們的個人偏好,還要評估各種可能改變他們觀點的因素,諸如演講內容,競選主題和某些關鍵事項。
這個團隊也會使用統(tǒng)計模型來指導志愿者如何有效地說服一個搖擺不定的選民。例如,一個來自加利福尼亞的志愿者針對某一個特定問題能夠比其他州的志愿者更有效地拉攏選民。
這個故事聽起來很奇特,但事實是,大數據挖掘的應用在我們周圍已經漸漸變成常態(tài),而它的核心則是數據。
更確切地說,是大數據,它涉及到我們周圍被數字化記錄的方方面面,例如,社交,工具,我們觀看的視頻,達成的交易,進行的網頁搜索,應用(手機App)的使用以及參加的大學在線課程,等等。
我們可以用石油工業(yè)與石油巨頭打個比方。我們可以把這些數據類比成原油,要變成有用之才,需要經過勘探,開采和提煉加工。與原油不一樣的地方在于,你所需要的并不是進行抽取加工石油的機器,而是數據挖掘技術,將統(tǒng)計學、機器學習以及數據管理技術集結為一身的多學科技術。同樣,處理原油的機器也不再由工程師,而是由數據科學家來操作。數據科學家是一個新的產業(yè),這些人才來自于多個領域,包括計算機科學以及人工智能研究者,統(tǒng)計學家,數據存儲專家和社會科學家等等。
從數據中學習到的知識, 則可以被政治家、科學家、教育者以及商業(yè)管理者所使用,進行決策。
時至今日,數據挖掘已經成為了我們日常生活的一部分。我們使用的谷歌,搜索按鍵的背后是一個強大的數據挖掘引擎。 通過對用戶點擊數據的挖掘,谷歌能夠預測你是誰,你要對信息進行什么樣的操作以及如何展示廣告使其能吸引你的注意。
當我們使用信用卡購買商品時,一個強大的數據挖掘引擎也在背后運行著,用于判斷你的信用卡是否正被盜用。而這背后的數據模型就建立在消費者以往幾十億條交易記錄的基礎上。
我們在羅湖過境時,采集我們指紋的機器背后也存在著由數據挖掘算法構建的模型,它會高速地確認當前站在機器前的人是否是你本人。
我們正處在一個新的大數據浪潮,而大數據挖掘研究還處于初期階段。即便如此,香港的學術界與工業(yè)界卻早已走在了此領域的前端。
在香港的大學里,學者們對數據挖掘的各個方面開展了研究:從設計準確的算法,例如基于網頁、視頻、語音等數據,到研究如何在數據挖掘的過程中保護用戶隱私。新成立的華為諾亞方舟實驗室,也正在進行著幾個以大數據挖掘為未來為目標的研究項目。
作者:楊強 華為諾亞方舟實驗室主任