- pandas: 仿照了R語言的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作,一般用來做數(shù)據(jù)預(yù)處理,特征工程,其DataFrame數(shù)據(jù)格式用起來相當(dāng)便利
- scikit-learn: 家喻戶曉的ML庫,各種聚類、分類、回歸模型等,也可以用來做預(yù)處理
- xgboost: 陳天奇大神的杰作,改進(jìn)了傳統(tǒng)的GBDT模型,在底層用一些trick加速模型訓(xùn)練,非常值得一試,可以取代其他ML庫里的GBDT系列模型 (很早就聽說過這個(gè)碉堡的庫,但一直沒有上手實(shí)踐,實(shí)在汗顏…后面我會結(jié)合GBDT做特征工程,實(shí)踐下效果,發(fā)布到公眾號)
- keras: 神經(jīng)網(wǎng)絡(luò)相關(guān)的庫,可以選擇基于tensorflow或theano,趕腳很強(qiáng)大,我也是剛接觸
- matplotlib: 作圖必備,語言風(fēng)格跟MATLAB很像,很好上手
- tpdm: 我沒聽過,原作者提到的,感興趣的童鞋可以了解下
3.5. 開發(fā)環(huán)境
這里我補(bǔ)充說一下python開發(fā)環(huán)境和上面幾個(gè)庫的安裝方法。首先我跟原作者一樣,因?yàn)樽非笞?裝)由(逼),所以不用python IDE(比如Anaconda, Pycharm),當(dāng)然,裝IDE可能省很多事情,個(gè)人建議安裝Pycharm。然后我自己的python開發(fā)環(huán)境(純屬個(gè)人習(xí)慣,僅供參考):
- windows: notepad++及其插件nppexec/explorer,結(jié)合我昨天發(fā)布的『一個(gè)神奇的腳本,一鍵運(yùn)行各類程序』,里面的nppexec腳本可一鍵執(zhí)行Python。以及l(fā)inux風(fēng)格的shell: git bash (git bash是基于msys的,跟cygwin略有不同)
- mac: sublime及其插件Package Control/anaconda,以及iTerm2,或者自帶的terminal。(sublime中import某些python庫,比如matplotlib/sklearn/tensorflow會出點(diǎn)bug,需要修改下環(huán)境變量啥的,遇到相關(guān)問題可以微信我,盡量幫你解決)
- linux: vim(因?yàn)槲乙话阍诿钚心J较麻_發(fā))。如果是界面linux,應(yīng)該可以有其他選擇
另外,jupyter notebook(前身是ipython notebook)是個(gè)好東西,可以逐步執(zhí)行python代碼片段,不依賴于平臺,可在瀏覽器中打開,非常適合學(xué)習(xí)過程中練手。