第二個現(xiàn)象是“加關(guān)鍵詞明確副主題(Subtopic Clarification by Additional Keyword)”,也可以用于副主題挖掘。用戶在查詢時,會主動明確副主題,在主查詢詞的后面(或前面)加上關(guān)鍵詞,如“harry shum microsoft”,“harry shum jr”。屬于同一副主題的網(wǎng)頁鏈接往往在被加同樣關(guān)鍵詞的查詢中點擊,根據(jù)鏈接是否在加同樣關(guān)鍵詞查詢中被點擊,可以將它們聚類,得到的類也對應(yīng)于副主題。
我們的方法能夠根據(jù)以上兩個現(xiàn)象挖掘出查詢的每個副主題,副主題由網(wǎng)頁鏈接、以及附加關(guān)鍵詞表示。利用特殊的數(shù)據(jù)結(jié)構(gòu),可以將Bing的三個月日志數(shù)據(jù)在一天內(nèi)進行一次高效的挖掘。對于高頻查詢,可以得到非常精準的挖掘結(jié)果(詳見[4])??梢钥闯觯髷?shù)據(jù)確實能夠發(fā)揮巨大作用。
另一方面,我們的方法對低頻查詢無法適用,因為沒有足夠的點擊數(shù)據(jù),也就是說會遇到長尾挑戰(zhàn)[5]。用戶的行為數(shù)據(jù)大多遵循冪率分布(power law distribution),現(xiàn)在基于統(tǒng)計的數(shù)據(jù)挖掘方法對尾部數(shù)據(jù)依然是束手無策。
4.總結(jié)
大數(shù)據(jù)挖掘關(guān)鍵是決定挖什么,這比決定怎么挖更為重要。收集數(shù)據(jù)時,應(yīng)該盡量設(shè)想挖掘的場景,盡量多方面地記錄、采集數(shù)據(jù);收集數(shù)據(jù)后,應(yīng)該盡量將數(shù)據(jù)整合在一起;數(shù)據(jù)挖掘前,應(yīng)該悉心觀察數(shù)據(jù),以幫助判斷挖掘什么樣的知識。只有這樣,大數(shù)據(jù)挖掘的價值才能得以體現(xiàn)。
大數(shù)據(jù)挖掘極具威力,但也有局限性,會遇到長尾挑戰(zhàn)。結(jié)合事先給定的知識進行挖掘,或許是解決長尾挑戰(zhàn)的一條出路。紐約時報記者能從搜索查詢數(shù)據(jù)中挖掘出用戶的身份,也是因為用了基于常識的推理。機器要變得具有同樣的智能,需要采用相同的手段。
大數(shù)據(jù)時代剛剛開始,相信今后在各個領(lǐng)域,各種應(yīng)用中,大數(shù)據(jù)挖掘都會推動創(chuàng)新,對技術(shù)發(fā)展帶來巨大影響。這一點確實令人振奮。
大家都想一想從自己擁有的數(shù)據(jù)中可以挖掘出什么樣的金子吧!
參考文獻
1. S. Fox, K. Karnawat, M. Mydland, S. Dumais, and T. White, Evaluating Implicit Measures to Improve Web Search. ACM Transactions on Information Systems 23, 147-168, 2005.
2. Daxin Jiang, Jian Pei, Hang Li, Mining Search and Browse Logs for Web Search: A Survey, ACM Transactions on Intelligent Systems and Technology, 2013, to appear.
3.A Face Is Exposed for AOL Searcher No. 4417749, New York Times, 2006.
4.Yunhua Hu, Yanan Qian, Hang Li, Daxin Jiang, Jian Pei, Mining Query Subtopics from Search Log Data, In Proceedings of the 35th Annual International ACM SIGIR Conference (SIGIR’12), 305-314, 2012.
5.李航,克服長尾挑戰(zhàn)(Overcoming the Long Tail Challenge)
VIA:李航博士的博客
更多詳細信息,請您微信關(guān)注“計算網(wǎng)”公眾號: