1.團隊介紹
本團隊三名隊員均為南京大學(xué)計算機系“大數(shù)據(jù)與云計算技術(shù)”課題組(該課題組主要從事并行計算系統(tǒng)性能優(yōu)化、大數(shù)據(jù)索引和查詢技術(shù)、并行算法、以及云計算應(yīng)用系統(tǒng)研究開發(fā)。)的研究生,因此我們將團隊名稱取為arch-nju。三名隊員各有所長:韋永壯擅長算法設(shè)計和工程實現(xiàn);張建擅長工程實現(xiàn)與界面設(shè)計;劉玉龍擅長算法設(shè)計且工作認(rèn)真仔細(xì)。
2.作品介紹
本項目的主要工作和創(chuàng)新點如下:
l定義了一種聯(lián)合度量網(wǎng)頁重復(fù)關(guān)系和包含關(guān)系的方法;
l提出了一種稱為CCDet的重復(fù)網(wǎng)頁檢測與聚類算法,該算法基于簡明有效的“句號”特征提取新聞網(wǎng)頁主題內(nèi)容,并依據(jù)這些“句號”特征快速和準(zhǔn)確地檢測出具有重復(fù)關(guān)系和包含關(guān)系的網(wǎng)頁,最后對這些網(wǎng)頁進行聚類;
l設(shè)計并實現(xiàn)了一個用于檢索中文新聞網(wǎng)頁的分布式搜索引擎系統(tǒng),稱為Bingo。該系統(tǒng)將具有重復(fù)關(guān)系和包含關(guān)系的新聞網(wǎng)頁進行聚類后再顯示給用戶,以提高用戶滿意度。我們的系統(tǒng)運行于節(jié)點可擴展的Hadoop分布式集群上,適合于處理大數(shù)據(jù)量的網(wǎng)頁。
CCDet的簡述如下:
1.提取網(wǎng)頁“句號”特征;
2.計算每個“句號”特征的IDF值,把IDF值低于一定閾值的特征過濾掉;
3.統(tǒng)計每對網(wǎng)頁之間相同的“句號”特征的個數(shù);
4.計算每對網(wǎng)頁之間的CCS值和CLR值,找出具有重復(fù)關(guān)系和包含關(guān)系的所有網(wǎng)頁對;
將具有重復(fù)關(guān)系和包含關(guān)系的網(wǎng)頁進行聚類。
Bingo首頁設(shè)計
Bingo原型應(yīng)用系統(tǒng)功能模塊和處理流程
Bingo的索引設(shè)計與檢索過程