團隊介紹
大家好,我們是來自南京大學機器學習與數(shù)據(jù)挖掘研究所(LAMDA組)的“hadoop作業(yè)”團隊。我們的隊長是鄒曉川同學,小組成員有郭訓力、李濤和宋拴。我們都是南京大學2011級碩士研究生。在研一下學期,有幸參加黃宜華教授開設(shè)的《大規(guī)模海量數(shù)據(jù)并行處理》的課程,讓我們接觸了hadoop,了解了hadoop。百度舉行的比賽給我們一個一展身手的機會,所以,我們來了。謝謝!
賽題四:基于Hadoop的多分類支持向量機以及半監(jiān)督學習在文本分類中的應(yīng)用
基于Hadoop的多分類支持向量機
支持向量機(SVM)本來是用來做2分類問題的,對于多分類(multi-class)問題而言,最為廣泛使用的一種方法就one-versus-rest。其具體做法就是對于總共C個類別而言,分別訓練C個2分類分類器。測試的時候分別用這C個2分類分類器對待測樣本進行打分,最后選取打分最高的分類器作為這個待測樣本的最終類別。顯然,無論是訓練還是測試過程都是可以并行的。其訓練過程的并行如下圖所示:
可見,訓練文件首先被復(fù)制多份,然后再傳給reducer(mapper)進行訓練。
半監(jiān)督學習在文本分類中的應(yīng)用
半監(jiān)督學習(Semi-Supervised Learning)指的是學習過程不僅要使用已標記的訓練數(shù)據(jù),同時還要使用未標記的測試數(shù)據(jù)。半監(jiān)督學習的應(yīng)用場合一般是訓練數(shù)據(jù)較少,而測試樣本較多的情形。而賽題4中的-1類沒有任何的訓練數(shù)據(jù),正好符合這種情形。我們算法如下圖所示: