4. 邏輯回歸 :邏輯回歸是一種強大的統(tǒng)計方法,它使用一個或者更多的解釋變量對一個二項式結(jié)果建模。它通過使用logistic 函數(shù)估計概率,這是累積 logistic 分布,來度量分類變量和一個或者更多的自變量之間的關(guān)系。

通常,回歸可以被用于在現(xiàn)實世界的應(yīng)用,如:
信用評分
度量營銷活動的成功率
預(yù)測某一產(chǎn)品的收入
在一個特定的日子里會發(fā)生地震嗎?
5. 支持向量機(SVM) :支持向量機是一個二分類算法。給出N維空間的一組二分類的點,支持向量機產(chǎn)生一個 N-1 維的超平面將這些點分成兩組。假設(shè)你在一張紙上有一些線性可分的二分類的點,支持向量機將會找到一條直線,將這些點分成兩類,并位于離所有這些點盡可能遠的位置。

就規(guī)模而言,其中一些最主要的問題已經(jīng)使用支持向量機解決了(通過適當(dāng)?shù)男薷?,如,入廣告顯示,人類的剪接位點識別,基于圖像的性別檢測,大規(guī)模圖像分類等等。
6. 集成方法 :集成方法是構(gòu)建一組分類器,然后通過對預(yù)測結(jié)果進行加權(quán)投票來對新的數(shù)據(jù)點進行分類。原始的集成方法是貝葉斯平均,但最近的算法包括糾錯輸出編碼,bagging, 和boosting。

那么集成方法是怎樣工作的,為什么他們會優(yōu)于單個的模型?
他們拉平了輸出偏差:如果你將具有民主黨傾向的民意調(diào)查和具有共和黨傾向的民意調(diào)查取平均,你將得到一個中和的沒有傾向一方的結(jié)果。
它們減小了方差:一堆模型的聚合結(jié)果和單一模型的結(jié)果相比具有更少的噪聲。在金融領(lǐng)域,這被稱為多元化——多只股票的混合投資要比一只股票變化更小。這就是為什么數(shù)據(jù)點越多你的模型會越好,而不是數(shù)據(jù)點越少越好。
它們不太可能產(chǎn)生過擬合:如果你有一個單獨的沒有過擬合的模型,你是用一種簡單的方式(平均,加權(quán)平均,邏輯回歸)將這些預(yù)測結(jié)果結(jié)合起來,然后就沒有產(chǎn)生過擬合的空間了。
非監(jiān)督學(xué)習(xí)
7. 聚類算法 :聚類是將一組對象進行分組,使得同一組(簇)內(nèi)的對象相似性遠大于不同組之間的相似性。
每一種聚類算法都不太一樣,這里有一些:
基于質(zhì)心的算法
基于連通性的算法
基于密度的算法
概率聚類
降維
神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)

8. 主成分分析(PCA) :主成分分析是一個統(tǒng)計過程,它使用正交變換,將一組可能相關(guān)的變量的一組觀測值變換成線性不相關(guān)的變量,這些變量稱為主成分。
PCA的應(yīng)用包括壓縮,簡化數(shù)據(jù)使它們更容易學(xué)習(xí),可視化。注意,選擇是否使用主成分分析,領(lǐng)域知識是非常重要的。當(dāng)數(shù)據(jù)充滿噪聲時,主成分分析是不合適的(主成分分析的所有成分都有很高的方差)。

9. 奇異值分解(SVD) :在線性代數(shù)中,SVD是分解一個實數(shù)的比較復(fù)雜的矩陣。對于一個給定的m*n的矩陣M,存在一個分解M = UΣV,這里U和V是酉矩陣,Σ是一個對角矩陣。
PCA 是 SVD 的一個簡單應(yīng)用,在計算機視覺中,第一個人臉識別算法,就運用了 PCA 和 SVD 算法。使用這兩個算法可以將人臉表示為 “特征臉”線性組合,降維,然后通過簡單的方法匹配人臉的身份;雖然現(xiàn)代的方法復(fù)雜得多,但許多仍然依賴于類似的技術(shù)。

10. 獨立成分分析(ICA) :獨立成分分析是一種統(tǒng)計方法,用來揭示隨機變量集測試,信號集中的隱藏因素。獨立成分分析為觀測到的多變量的集合定義生成模型,它通常作為大型的樣本數(shù)據(jù)數(shù)據(jù)庫。在這個模型中,數(shù)據(jù)變量被假定為與一些潛在的未知變量的線性混合,混合系統(tǒng)也不知道。潛在變量被假設(shè)為非高斯并且相互獨立的,它們被稱為所觀察到的數(shù)據(jù)的獨立成分。