提交: 984 貢獻: 31 Github URL: PyBrain
第十六名:Fuel
Fuel主要用于算法與輸入數(shù)據(jù)之間的銜接。它將被Blocks and Pylearn2這兩個Python庫使用。
提交: 1053 貢獻: 29 Github URL: Fuel
第十七名: PyMVPA
PyMVPA 適用于大規(guī)模的數(shù)據(jù)集,具有擴展性能好優(yōu)點,提供多種算法(分類、回歸、特征選擇、數(shù)據(jù)導入、數(shù)據(jù)導出等)接口。
提交: 9258 貢獻: 26 Github URL: PyMVPA
第十八名:Annoy
Annoy是一個Python可調(diào)用的C++庫,主要用來對給定數(shù)據(jù)進行搜索。它可以生成大量的基于文檔的可讀數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)與內(nèi)存相對應,從而使數(shù)據(jù)被共享。
提交: 365 貢獻: 24 Github URL: Annoy
第十九名:Deap
Deap是一款新的計算框架,它使得算法實現(xiàn)與數(shù)據(jù)結(jié)構(gòu)變得簡單明了。它采用的是并行處理機制。
提交: 1854 貢獻: 21 Github URL: Deap
第二十名:Pattern
Pattern是一款web信息挖掘工具,它集成了各種工具。這些工具可以用來進行數(shù)據(jù)挖掘、自然語言處理、機器學習、網(wǎng)絡分析。
提交: 943 貢獻: 20 Github URL: Pattern
如下圖所示,PyMVPA的社區(qū)貢獻率最高,而排名第一的Scikit-learn社區(qū)貢獻率卻很低,究其原因是PyMVPA是還是一個比較新的開源項目,還有一些地方需要完善、修復。而Scikit-learn則是一個相對來說比較成熟的項目,需要修改、完善的地方比較少。
當我們對2015與2016的結(jié)果進行對比(下圖),我們發(fā)現(xiàn)Pattern, PyBrain and Pylearn2這三個項目的貢獻人數(shù)與提交數(shù)均沒有變化。貢獻的人增加了,提交的次數(shù)也才跟著增加,這就是開源社區(qū)的神奇所在。這些新增的貢獻者與其提交內(nèi)容導致了新的思想、新的軟件的產(chǎn)生。
基于2016年20大機器學習開源項目的貢獻人數(shù)與提交數(shù),以上是雷鋒網(wǎng)整理的簡單分析。不知道到明年的評選上,又有怎樣的開源平臺會登上這個榜單呢?