如果你有志于做一個數(shù)據(jù)專家,你就應(yīng)該保持一顆好奇心,總是不斷探索,學習,問各種問題。在線入門教程和視頻教程能幫你走出第一步,但是最好的方式就是通過熟悉各種已經(jīng)在生產(chǎn)環(huán)境中使用的工具而為成為一個真正的數(shù)據(jù)專家做好充分準備。
我咨詢了我們真正的數(shù)據(jù)專家,收集整理了他們認為所有數(shù)據(jù)專家都應(yīng)該會的七款 Python 工具。The Galvanize Data Science 和 GalvanizeU 課程注重讓學生們花大量的時間沉浸在這些技術(shù)里。當你找第一份工作的時候,你曾經(jīng)投入的時間而獲得的對工具的深入理解將會使你有更大的優(yōu)勢。下面就了解它們一下吧:
IPython
IPython 是一個在多種編程語言之間進行交互計算的命令行 shell,最開始是用 python 開發(fā)的,提供增強的內(nèi)省,富媒體,擴展的 shell 語法,tab 補全,豐富的歷史等功能。IPython 提供了如下特性:
- 更強的交互 shell(基于 Qt 的終端)
- 一個基于瀏覽器的記事本,支持代碼,純文本,數(shù)學公式,內(nèi)置圖表和其他富媒體
- 支持交互數(shù)據(jù)可視化和圖形界面工具
- 靈活,可嵌入解釋器加載到任意一個自有工程里
- 簡單易用,用于并行計算的高性能工具
由數(shù)據(jù)分析總監(jiān),Galvanize 專家 Nir Kaldero 提供。
GraphLab Greate
GraphLab Greate 是一個 Python 庫,由 C++ 引擎支持,可以快速構(gòu)建大型高性能數(shù)據(jù)產(chǎn)品。
這有一些關(guān)于 GraphLab Greate 的特點:
- 可以在您的計算機上以交互的速度分析以 T 為計量單位的數(shù)據(jù)量。
- 在單一平臺上可以分析表格數(shù)據(jù)、曲線、文字、圖像。
- 最新的機器學習算法包括深度學習,進化樹和 factorization machines 理論。
- 可以用 Hadoop Yarn 或者 EC2 聚類在你的筆記本或者分布系統(tǒng)上運行同樣的代碼。
- 借助于靈活的 API 函數(shù)專注于任務(wù)或者機器學習。
- 在云上用預測服務(wù)便捷地配置數(shù)據(jù)產(chǎn)品。
- 為探索和產(chǎn)品監(jiān)測創(chuàng)建可視化的數(shù)據(jù)。
由 Galvanize 數(shù)據(jù)科學家 Benjamin Skrainka 提供。
Pandas
pandas 是一個開源的軟件,它具有 BSD 的開源許可,為 Python 編程語言提供高性能,易用數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。在數(shù)據(jù)改動和數(shù)據(jù)預處理方面,Python 早已名聲顯赫,但是在數(shù)據(jù)分析與建模方面,Python 是個短板。Pands 軟件就填補了這個空白,能讓你用 Python 方便地進行你所有數(shù)據(jù)的處理,而不用轉(zhuǎn)而選擇更主流的專業(yè)語言,例如 R 語言。
整合了勁爆的 IPyton 工具包和其他的庫,它在 Python 中進行數(shù)據(jù)分析的開發(fā)環(huán)境在處理性能,速度,和兼容方面都性能卓越。Pands 不會執(zhí)行重要的建模函數(shù)超出線性回歸和面板回歸;對于這些,參考 statsmodel 統(tǒng)計建模工具和 scikit-learn 庫。為了把 Python 打造成頂級的統(tǒng)計建模分析環(huán)境,我們需要進一步努力,但是我們已經(jīng)奮斗在這條路上了。
由 Galvanize 專家,數(shù)據(jù)科學家 Nir Kaldero 提供。
PuLP
線性編程是一種優(yōu)化,其中一個對象函數(shù)被最大程度地限制了。PuLP 是一個用 Python 編寫的線性編程模型。它能產(chǎn)生線性文件,能調(diào)用高度優(yōu)化的求解器,GLPK,COIN CLP/CBC,CPLEX,和GUROBI,來求解這些線性問題。
由 Galvanize 數(shù)據(jù)科學家 Isaac Laughlin 提供