文|十方
比較分類算法的話,大概考慮這幾個(gè)維度:時(shí)間空間復(fù)雜度,魯棒性,參數(shù)敏感性,處理不規(guī)則形狀,適合的類數(shù)量,類間差異(范圍大小,樣本個(gè)數(shù),形狀差異)
可以參照一下sklearn網(wǎng)站給出的列表:2.3. Clustering
除了這些聚類方法以外,統(tǒng)計(jì)老師講過(guò)一些傳統(tǒng)的聚類方法,歸屬于系統(tǒng)聚類的范疇,先定義觀測(cè)間的距離和類之間的距離計(jì)算方法,然后按照距離把最接近的兩個(gè)觀測(cè)(類)合并,直到合并成一個(gè)大類為止。
最短距離法:
類間距為兩類中最近觀測(cè)的距離。
不限制類形狀,對(duì)拉長(zhǎng)的分布效果好,會(huì)刪除邊緣的觀測(cè)點(diǎn)
最長(zhǎng)距離法:
類間距為兩類中最遠(yuǎn)觀測(cè)的距離。
傾向于產(chǎn)生直徑相等的類,易受異常值影響。
中間距離法:
類間距為最長(zhǎng)距、最短距、類內(nèi)距離的加權(quán)。
重心法:
類間距為兩類重心之間的距離
對(duì)奇異值穩(wěn)健
類平均法:
類間距為兩類觀測(cè)之間距離的平均值。
傾向于先合并方差小的類,偏向于產(chǎn)生方差相同的類。
離差平方和法:
將合并后類內(nèi)方差最小的兩類合并
傾向于產(chǎn)生數(shù)量相等的兩類,對(duì)異常值敏感
密度估計(jì):
較遠(yuǎn)的距離設(shè)為無(wú)窮。較近的兩個(gè)樣本,距離與局部密度成反比。
適用于不規(guī)則形狀類,不適用樣本數(shù)太少。
兩階段密度估計(jì):
用密度估計(jì)計(jì)算距離,再用最短距離法聚類。
普適性較強(qiáng)
除了以上這些常見(jiàn)方法,值得一提的是去年發(fā)在science上的算法 fast search and find of density peaks. 這個(gè)方法克服了DBSCAN中不同類的密度差別大,鄰域范圍難以設(shè)定的問(wèn)題,非常魯棒,看起來(lái)棒棒的。
ps:如果希望聚的效果好,距離度量方法有時(shí)候比聚類方法更重要。