丁香五月天婷婷激情六月 ,婷婷久

模型開發(fā)

媒體對模型和算法開發(fā)的報道越來越多，但如果你同數(shù)據(jù)科學(xué)家交談，他們中的大多數(shù)人都會告訴你，訓(xùn)練數(shù)據(jù)的匱乏以及數(shù)據(jù)科學(xué)的產(chǎn)品化是更加緊迫的問題。通常來說，市面上已有足夠多的簡單明了的用例，讓你可以開發(fā)你喜歡的（基本或高級的）算法，并在以后進(jìn)行調(diào)整或替換。

由于工具使算法的應(yīng)用變得容易，因此，先回想一下如何評估機(jī)器學(xué)習(xí)模型的結(jié)果，這很有必要。盡管如此，不要忽視了你的業(yè)務(wù)指標(biāo)和目標(biāo)，因?yàn)樗鼈兾幢嘏c調(diào)試得最好或表現(xiàn)得最好的模型完全相符。關(guān)注與公正和透明有關(guān)的事情進(jìn)展，研究人員和企業(yè)正開始檢查、解決這方面的問題。對隱私的擔(dān)憂，加之設(shè)備的激增，催生了不依賴于集中式數(shù)據(jù)集的技術(shù)。

深度學(xué)習(xí)正逐漸變成數(shù)據(jù)科學(xué)家必須了解的算法。深度學(xué)習(xí)最初用于計算機(jī)視覺和語音識別，現(xiàn)在開始涉及數(shù)據(jù)科學(xué)家能想到的各種數(shù)據(jù)類型和問題。其中的挑戰(zhàn)包括，選擇適當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu)（結(jié)構(gòu)工程是新的特征工程），超參數(shù)調(diào)整，以及描述問題和轉(zhuǎn)換數(shù)據(jù)以適合深度學(xué)習(xí)。（巧合的是，今年我見過的最有趣的大型數(shù)據(jù)產(chǎn)品之一，并不是基于深度學(xué)習(xí)。）

很多時候，用戶更喜歡可解釋的模型（某些情況下，黑盒模型不被人們所接受）。考慮到基本機(jī)制易于理解，可解釋的模型也更容易改進(jìn)。隨著深度學(xué)習(xí)的興起，企業(yè)開始使用那些能解釋模型預(yù)測原理的工具，以及能解釋模型從何而來（通過追蹤學(xué)習(xí)算法和訓(xùn)練數(shù)據(jù)）的工具。

工具

我不想列出一個工具清單，因?yàn)榭闪信e的工具實(shí)在太多了。幫助我們攝取、整合、處理、準(zhǔn)備和存儲數(shù)據(jù)以及部署模型的工具都非常重要。以下是對機(jī)器學(xué)習(xí)工具的幾點(diǎn)看法：

· Python和R是最流行的機(jī)器學(xué)習(xí)編程語言。對于那些想使用深度學(xué)習(xí)技術(shù)的人來說，Keras是最受歡迎的入門級語言。

· 雖然筆記本電腦似乎是不錯的模型開發(fā)工具，但集成開發(fā)環(huán)境（IDE）在R用戶中深受歡迎。

· 通用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的庫有很多，其中一些更善于推進(jìn)從原型到產(chǎn)品的轉(zhuǎn)變。

· 推進(jìn)從單機(jī)到集群的擴(kuò)展是重要的考慮事項(xiàng)。在這方面，Apache Spark是使用廣泛的執(zhí)行框架。經(jīng)過一系列的數(shù)據(jù)整理后，你的數(shù)據(jù)集往往適合部署到穩(wěn)定的單一服務(wù)器上。

· 供應(yīng)商開始支持協(xié)作和版本控制。

· 最后，你可能需要數(shù)據(jù)科學(xué)工具來無縫整合現(xiàn)有的生態(tài)系統(tǒng)和數(shù)據(jù)平臺。

企業(yè)如果想評估哪些問題、哪些用例適合于運(yùn)用機(jī)器學(xué)習(xí)，眼下就是一個很好的時機(jī)。我總結(jié)了一些近期的趨勢和尚未解決的瓶頸，你從中得出的主要結(jié)論應(yīng)該是：現(xiàn)在可以開始使用機(jī)器學(xué)習(xí)了。先從已經(jīng)擁有一部分?jǐn)?shù)據(jù)的問題入手，然后建立出色的模型。

2/2 首頁上一頁 1 2

數(shù)據(jù)科學(xué)面臨的共同挑戰(zhàn)有哪些？