團(tuán)隊(duì)介紹:
EagleEye隊(duì)是由南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系的兩名研究生笪慶和陳虎組成,我們兩人均來自機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所。EagleEye名稱來源于我們在早期使用hadoop實(shí)現(xiàn)的一個(gè)基于內(nèi)容的圖像搜索引擎的名字,后來就沿用的這個(gè)名字作為在各種場合組隊(duì)的隊(duì)名。我們對基于真實(shí)海量數(shù)據(jù)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘尤其感興趣,我們相信機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的技術(shù)會(huì)對所有數(shù)據(jù)集中型的行業(yè)帶來推動(dòng)型的發(fā)展。
作品介紹:
在這次比賽中,我們選做了技術(shù)類賽題中跟我們專業(yè)相關(guān)的其中的四題。由于不是創(chuàng)意類賽題,所以在這里我們將簡單介紹一下我們對每個(gè)題目的所使用的方法。
第一題
第一題我們采用了所謂的Tiny Image的方法,存取了圖片的縮略圖的直方圖文件,然后在第一個(gè)任務(wù)中將10個(gè)查詢在Tiny Image中的近鄰查找出來,選取N(N>100)個(gè)出來作為候選,在第二個(gè)任務(wù)中根據(jù)查詢和候選圖片的原圖計(jì)算的距離對候選圖片進(jìn)行re-ranking,輸出結(jié)果。
第二題
第二題我們首先利用hadoop從6個(gè)月的動(dòng)態(tài)路況計(jì)算出一周里面每天每個(gè)小時(shí)每個(gè)鏈路的平均通過時(shí)間,然后枚舉所有投遞方案返回其中最快的,對每種投遞方案,用Dijkstra計(jì)算相鄰?fù)哆f點(diǎn)的最短路徑。考慮到動(dòng)態(tài)路況具有時(shí)效性,計(jì)算平均時(shí)間時(shí)我們按照日期新舊進(jìn)行了加權(quán)。
第三題
第三題我們計(jì)算了每個(gè)用戶的候選問題和該用戶回答過的問題在文本特征上的cosine距離,綜合問題類型的相似度以及問題的懸賞分,給出了用戶最可能回答的問題的一個(gè)排序,并基于這個(gè)排序預(yù)測前3個(gè)問題即用戶真正回答過的問題。
第四題
第四題我們使用了2個(gè)線性SVM,一個(gè)是multi-class SVM,用于區(qū)分480個(gè)類型的查詢;另一個(gè)是one-class SVM,用一個(gè)線性空間將訓(xùn)練數(shù)據(jù)中的樣本點(diǎn)“包起來”,用來判斷480個(gè)類別之外的查詢,最后將二者的結(jié)果合并起來得到最后的預(yù)測結(jié)果。