【摘要】如今的大數(shù)據(jù)正在迫使研究人員尋找知識(shí)探索和數(shù)據(jù)挖掘的新技術(shù)
來(lái)自如谷歌和雅虎這些公司的頂尖科學(xué)家們?cè)谑サ貋喐鐓R聚一堂,參與了第17屆美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)“知識(shí)探索和數(shù)據(jù)挖掘”(KDD)大會(huì)的學(xué)術(shù)討論。他們展示了從如今泛濫的數(shù)據(jù)中洞悉信息的最新技術(shù),并搞清這些比以往來(lái)源更為廣泛多樣的信息的含義。
20年前,唯一關(guān)心所謂“大數(shù)據(jù)”的人(那些擁有海量數(shù)據(jù)并有試圖處理它們的人)只是科技界人士,ACM知識(shí)探索和數(shù)據(jù)挖掘特別興趣小組執(zhí)行主席、雅虎前首席數(shù)據(jù)官奧薩馬·菲亞德(Usama Fayyad)說到。即便這樣,數(shù)據(jù)挖掘的結(jié)果也是令人印象深刻的。“我們能夠解決一些在該領(lǐng)域存在30多年的重大科學(xué)難題,”菲亞德說。
然而,互聯(lián)網(wǎng)的爆炸式增長(zhǎng)改變了一切。不管是否喜歡它,企業(yè)發(fā)現(xiàn)它們正在進(jìn)行在線經(jīng)營(yíng)并積累大量有關(guān)客戶及其行為的數(shù)據(jù)。菲亞德說,由于數(shù)據(jù)挖掘的能力日漸清晰,對(duì)該領(lǐng)域投資經(jīng)濟(jì)動(dòng)機(jī)也在增強(qiáng)。
例如,網(wǎng)飛(Netflix)公司曾提供100萬(wàn)美元,獎(jiǎng)勵(lì)那些能夠挖掘其有關(guān)用戶信息并構(gòu)建比其已有系統(tǒng)更準(zhǔn)確的建議系統(tǒng)的團(tuán)隊(duì)。像這種備受矚目的例子對(duì)于數(shù)據(jù)挖掘應(yīng)用只是蜻蜓點(diǎn)水而已。
“工商業(yè)企業(yè)對(duì)他們通過業(yè)務(wù)流程所獲取數(shù)據(jù)的作用正在逐漸提高興趣,”IBM分析研究中心主管、大會(huì)主席齊德·愛普特(Chid Apte)說到。他指出,尤其是在醫(yī)療、社交媒體以及任何在網(wǎng)上發(fā)生事。
如今,互聯(lián)網(wǎng)巨人們正在從它們收集的用戶信息以及從中挖掘的信息中賺錢。零售商能夠獲得店主行為的復(fù)雜模型以幫助他們更好地經(jīng)營(yíng)他們的店鋪。工業(yè)研究者可以根據(jù)擁堵狀況、天氣以及一年中所處的某一時(shí)間預(yù)測(cè)汽車交通模型,并提供最優(yōu)線路。
然而,現(xiàn)在的數(shù)據(jù)并非以我們所熟悉的數(shù)據(jù)庫(kù)形式存在。“信息不會(huì)以清晰的表格形式呈現(xiàn)在你面前,”愛普特說。“它正以網(wǎng)絡(luò)形式呈現(xiàn)給你。”通常是以圖表的形式,他解釋說——比如那些社交媒體所使用的。這些圖表通常不僅記錄了節(jié)點(diǎn)間復(fù)雜的聯(lián)系而且還有其他各種新式的信息,比如視頻、圖像以及人們?cè)谏缃痪W(wǎng)絡(luò)上提交的評(píng)論。
社交網(wǎng)絡(luò)或許已經(jīng)開啟了分析這類圖表的趨勢(shì),愛普特說,但網(wǎng)絡(luò)數(shù)據(jù)也有其他來(lái)源——例如,來(lái)自復(fù)雜的工程系統(tǒng),如電力網(wǎng)絡(luò)、配水系統(tǒng)以及交通管理系統(tǒng)。這些系統(tǒng)中的分布式傳感器網(wǎng)絡(luò)產(chǎn)生的連接各地的數(shù)據(jù)集與社交網(wǎng)絡(luò)中個(gè)體間的友誼同樣重要。理解這些聯(lián)系是優(yōu)化系統(tǒng)并使它們具有可持續(xù)性的關(guān)鍵。
人們與圖表打交道已有數(shù)百年的歷史了,但如今根據(jù)社交網(wǎng)絡(luò)或傳感器網(wǎng)絡(luò)繪制的圖表有著史無(wú)前例的規(guī)模,愛普特說。“這些是規(guī)模龐大的圖表,”他說。“你正在談?wù)摰氖巧习偃f(wàn)的節(jié)點(diǎn)和數(shù)千萬(wàn)的連接。
要處理那種尺寸和范圍的圖表,并將現(xiàn)代分析工具應(yīng)用其中,就需要更好的算法和其他創(chuàng)意。愛普特說,此次會(huì)議的目標(biāo)之一就是讓企業(yè)注意到來(lái)自學(xué)術(shù)和工業(yè)研究實(shí)驗(yàn)室的前沿技術(shù),因此企業(yè)便能將它們更快地投入應(yīng)用。與此同時(shí),大會(huì)組織者希望,學(xué)術(shù)界能夠意識(shí)到這些最急需解決的商業(yè)挑戰(zhàn)。
菲亞德表示,對(duì)數(shù)據(jù)濃厚的商業(yè)興趣已經(jīng)改變了數(shù)據(jù)挖掘領(lǐng)域。他說,科學(xué)家主要處理以整齊、結(jié)構(gòu)化形式存儲(chǔ)的數(shù)據(jù)。但大多數(shù)企業(yè)產(chǎn)生的數(shù)據(jù)都是混亂無(wú)序的。
“當(dāng)科學(xué)家們正很好地進(jìn)行規(guī)避的同時(shí),企業(yè)卻在被迫面對(duì)它,”菲亞德說。“它驅(qū)使企業(yè)開發(fā)從未有人嘗試過的技術(shù)。”
當(dāng)然,菲亞德說,挑戰(zhàn)依然存在,但是“人們能夠提出許多更具預(yù)測(cè)性的模型,更重要的是對(duì)它們進(jìn)行評(píng)估(判定它們的工作狀態(tài))……這把數(shù)據(jù)分析帶到了一個(gè)真正超越人類大腦理解的水平。”
本文為美國(guó)Technology Review授權(quán)文章,未經(jīng)書面許可,嚴(yán)禁轉(zhuǎn)載使用。