大數(shù)據(jù)挖掘中最重要的是決定挖掘什么樣的知識,這是在數(shù)據(jù)的收集、處理、挖掘的整個過程中都需要認真考慮的問題。本文首先提出大數(shù)據(jù)挖掘的幾項策略,即盡量設想挖掘的場景,盡量多方面收集數(shù)據(jù),盡量將數(shù)據(jù)整合,悉心觀察數(shù)據(jù)特征。之后結合自己在互聯(lián)網(wǎng)搜索中的大數(shù)據(jù)挖掘工作經(jīng)驗,分享對這些策略的體會。最后介紹一個互聯(lián)網(wǎng)搜索中大規(guī)模日志數(shù)據(jù)挖掘的工作,展示大數(shù)據(jù)挖掘的威力,呈現(xiàn)大數(shù)據(jù)挖掘的挑戰(zhàn)。
1.“挖什么”與“怎么挖”

大數(shù)據(jù)技術涉及存儲、搜索、傳輸、計算、挖掘等多方面,本文只考慮大數(shù)據(jù)的挖掘。大數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中挖掘出未知且有用的知識。通過挖掘,大數(shù)據(jù)的價值才得以體現(xiàn),所以挖掘對大數(shù)據(jù)有著舉足輕重的意義。
大數(shù)據(jù)挖掘有兩個基本問題,即“挖什么(what to mine)”與“怎么挖(how to mine)”。前者決定從數(shù)據(jù)中抽取什么樣的信息,統(tǒng)計什么樣的規(guī)律,后者決定怎樣具體進行抽取與統(tǒng)計。前者是在數(shù)據(jù)的收集、處理、挖掘中都要考慮的問題,后者往往僅限于挖掘?!霸趺赐凇蓖ǔJ菙?shù)據(jù)挖掘研究的核心,但是“挖什么”在數(shù)據(jù)挖掘的應用中往往更為重要,因為它決定了挖掘結果的價值。在實際問題中,決定是挖金銀,還是挖銅鐵,比決定是用鋤頭挖,還是用鏟子挖更為關鍵。
2.大數(shù)據(jù)挖掘的策略
本文總結了大數(shù)據(jù)挖掘中判斷“挖什么”的四項策略,即盡量設想挖掘的場景,盡量多方面收集數(shù)據(jù),盡量將數(shù)據(jù)整合,以及悉心觀察數(shù)據(jù)特征。下面,結合自己在互聯(lián)網(wǎng)搜索中的大數(shù)據(jù)挖掘工作經(jīng)驗,介紹對這些策略的體會。
盡量設想挖掘的場景
收集數(shù)據(jù)是數(shù)據(jù)挖掘的第一步,需要判斷記錄、采集哪些數(shù)據(jù),這直接影響了能從數(shù)據(jù)中挖掘什么樣的知識。巧婦難為無米之炊,沒有某一方面的數(shù)據(jù),也就無法從中進行相關的挖掘。但是,存儲、處理數(shù)據(jù)是有代價的,提高數(shù)據(jù)挖掘效率的關鍵也在于只記錄、采集有用的數(shù)據(jù)。所以,需要對收集數(shù)據(jù)的內(nèi)容進行合理的判斷,這時,應該盡量設想挖掘的場景,在此基礎上將可能有用的數(shù)據(jù)全部記錄、采集下來。
某公司的工程師們開發(fā)了一個互聯(lián)網(wǎng)瀏覽器中的工具欄(toolbar)。用戶安裝了工具欄后,在瀏覽器中的操作,如點擊網(wǎng)頁鏈接,拖動鼠標等,都會被記錄下來。在得到用戶允許的條件下,這些數(shù)據(jù)會被傳送到該公司的云端服務器。工具欄記錄的用戶瀏覽器使用行為數(shù)據(jù),可以用于互聯(lián)網(wǎng)搜索引擎等諸多方面。工程師們對工具欄記錄數(shù)據(jù)內(nèi)容進行了精心的設計,考慮了各種可能的情況,希望收集的數(shù)據(jù)能支持多種挖掘任務。用戶的IP地址,網(wǎng)頁鏈接的點擊時間等都被記錄下來。然而,他們忘記記錄了一個重要的信息,使得到的數(shù)據(jù)不利于挖掘使用。原來,用戶關閉瀏覽器的時間沒有被記錄下來,從數(shù)據(jù)中無法判斷用戶何時結束了搜索或瀏覽行為。由于工程師們沒有很好的想象如何使用數(shù)據(jù),給之后的挖掘帶來了一定的困難。
判斷收集什么樣的數(shù)據(jù)牽涉到如何認識世界這一哲學問題。哲學家康德的一個核心觀點是:我們所認識的世界是我們用自己擁有的理論對自己觀察的現(xiàn)象做出的解釋。紙上的一條墨跡,數(shù)學家把它看成是平面上的直線,中國人把它看成漢字的“一”。其實,我們想怎樣看世界決定了我們看到的世界是什么樣的。只有當對數(shù)據(jù)挖掘的內(nèi)容有比較清晰的想法的時候,才能對數(shù)據(jù)的收集范圍有比較明確的界定。所以,盡量設想挖掘場景是必不可少的。
盡量多方面收集數(shù)據(jù)
事實上,我們很難事先窮盡所有可能的挖掘場景,所以也就很難完全準確地判斷應該收集哪些數(shù)據(jù),不應該收集哪些數(shù)據(jù)。作為彌補措施,可以考慮在存儲、處理能力允許的條件下,盡量多方面收集數(shù)據(jù)。這是另一項策略。多收集數(shù)據(jù)總有可能對數(shù)據(jù)挖掘產(chǎn)生某些幫助。
回到工具欄的例子。工具欄記錄的用戶互聯(lián)網(wǎng)訪問的行為數(shù)據(jù),能大大幫助搜索引擎提高對用戶的理解,提高搜索結果的相關性。研究發(fā)現(xiàn),從用戶在瀏覽器中的簡單操作中都可以發(fā)現(xiàn)許多有用的信息,幫助推斷用戶的興趣、意圖等[1]。比如,從用戶在瀏覽器中的鼠標移動軌跡中可以估計出他對網(wǎng)頁的關注范圍,從用戶對網(wǎng)頁鏈接的點擊可以猜測出他的信息需求,從用戶對窗口的關閉動作可以推測出他的興趣轉移。
更多詳細信息,請您微信關注“計算網(wǎng)”公眾號: