這些 Python 庫幫助你加速數(shù)據(jù)傳輸,通過 AWS Lambda 對大型計算工作做碎片化處理,并使用略低于 TensorFlow 的模型工作。
機器學習令人興奮,但具體工作復(fù)雜而困難。通常它涉及很多手動提升——匯總工作流及傳輸渠道,設(shè)置數(shù)據(jù)源,以及在內(nèi)部部署和云部署的資源之間來回分流。
用來提高工作效率的手頭工具越多越好。慶幸的是,Python 是一個威力巨大的工具語言,在大數(shù)據(jù)和機器學習之中被廣泛使用。下面是 5 個 Python 庫,幫助你緩解來自交易提升的重負。
PyWren
地址:https://github.com/ericmjonas/pywren
PyWren,一個帶有強大前提的簡單包,能使你運行基于 Python 的科學計算工作量,以作為 AWS Lambda 函數(shù)的多個例子。項目 At The New Stack 的簡介這樣描述 PyWren: 把 AWS Lambda 用作一個巨大的平行處理系統(tǒng),以處理那些可被切割成諸多小任務(wù)的項目,這些小任務(wù)的運行不需要占用很多內(nèi)存或硬盤。
Lambda 函數(shù)的一個缺點是運行時間最長不能超過 300 秒。但是,如果你需要一個只花費幾分鐘就能完成的工作,并在數(shù)據(jù)集中需要運行數(shù)千次,那么 PyWren 也許是一個好選擇,它可以一種用戶硬件上不可用的規(guī)模平行化云端的工作。
谷歌的 TensorFlow 框架正邁入偉大時刻,因為剛發(fā)布了 1.0。人們通常會問一個問題:如何利用在上面訓練的模型而無需使用 TensorFlow 本身?
Tfdeploy
地址:https://github.com/riga/tfdeploy
Tfdeploy 可以部分解決這個問題。將訓練過的 TensorFlow 模型輸出「一個簡單的基于 Numpy 的可調(diào)用對象(callable)」,也就是說,借由 Tfdeploy,可以在 Python 中使用模型,而且 Numpy 的數(shù)學和統(tǒng)計庫被作為唯一的依靠。幾乎所有能在 TensorFlow 上跑的運行也能在 Tfdeploy 上跑,而且你可以通過標準 Python 隱喻方式來延伸庫的行為(比如,超載一個類別)。