Matplotlib
matplotlib 是基于 Python 的 2D(數(shù)據(jù))繪圖庫,它產(chǎn)生(輸出)出版級質(zhì)量的圖表,用于各種打印紙質(zhì)的原件格式和跨平臺的交互式環(huán)境。matplotlib 既可以用在 python 腳本, python 和 ipython 的 shell 界面 (ala MATLAB? 或 Mathematica?),web 應(yīng)用服務(wù)器,和6類 GUI 工具箱。
matplotlib 嘗試使容易事情變得更容易,使困難事情變?yōu)榭赡?。你只需要少量幾行代碼,就可以生成圖表,直方圖,能量光譜(power spectra),柱狀圖,errorcharts,散點圖(scatterplots)等,。
為簡化數(shù)據(jù)繪圖,pyplot 提供一個類 MATLAB 的接口界面,尤其是它與 IPython 共同使用時。對于高級用戶,你可以完全定制包括線型,字體屬性,坐標(biāo)屬性等,借助面向?qū)ο蠼涌诮缑?,或?MATLAB 用戶提供類似(MATLAB)的界面。
Galvanize 公司的首席科學(xué)官 Mike Tamir 供稿。
Scikit-Learn
Scikit-Learn 是一個簡單有效地數(shù)據(jù)挖掘和數(shù)據(jù)分析工具(庫)。關(guān)于最值得一提的是,它人人可用,重復(fù)用于多種語境。它基于 NumPy,SciPy 和 mathplotlib 等構(gòu)建。Scikit 采用開源的 BSD 授權(quán)協(xié)議,同時也可用于商業(yè)。Scikit-Learn 具備如下特性:
- 分類(Classification) – 識別鑒定一個對象屬于哪一類別
- 回歸(Regression) – 預(yù)測對象關(guān)聯(lián)的連續(xù)值屬性
- 聚類(Clustering) – 類似對象自動分組集合
- 降維(Dimensionality Reduction) – 減少需要考慮的隨機變量數(shù)量
- 模型選擇(Model Selection) –比較、驗證和選擇參數(shù)和模型
- 預(yù)處理(Preprocessing) – 特征提取和規(guī)范化
Galvanize 公司數(shù)據(jù)科學(xué)講師,Isaac Laughlin提供
Spark
Spark 由一個驅(qū)動程序構(gòu)成,它運行用戶的 main 函數(shù)并在聚類上執(zhí)行多個并行操作。Spark 最吸引人的地方在于它提供的彈性分布數(shù)據(jù)集(RDD),那是一個按照聚類的節(jié)點進行分區(qū)的元素的集合,它可以在并行計算中使用。RDDs 可以從一個 Hadoop 文件系統(tǒng)中的文件(或者其他的 Hadoop 支持的文件系統(tǒng)的文件)來創(chuàng)建,或者是驅(qū)動程序中其他的已經(jīng)存在的標(biāo)量數(shù)據(jù)集合,把它進行變換。用戶也許想要 Spark 在內(nèi)存中永久保存 RDD,來通過并行操作有效地對 RDD 進行復(fù)用。最終,RDDs 無法從節(jié)點中自動復(fù)原。
Spark 中第二個吸引人的地方在并行操作中變量的共享。默認(rèn)情況下,當(dāng) Spark 在并行情況下運行一個函數(shù)作為一組不同節(jié)點上的任務(wù)時,它把每一個函數(shù)中用到的變量拷貝一份送到每一任務(wù)。有時,一個變量需要被許多任務(wù)和驅(qū)動程序共享。Spark 支持兩種方式的共享變量:廣播變量,它可以用來在所有的節(jié)點上緩存數(shù)據(jù)。另一種方式是累加器,這是一種只能用作執(zhí)行加法的變量,例如在計數(shù)器中和加法運算中。
由 Galvanize 數(shù)據(jù)科學(xué)家 Benjamin Skrainka 提供。
英文原文:Seven Python Tools All Data Scientists Should Know How to Use
本文由qjq346970057, gx老苗, 賣女孩兒的小醬油翻譯。