毫無(wú)疑問(wèn),機(jī)器學(xué)習(xí)/人工智能的子領(lǐng)域在過(guò)去幾年越來(lái)越流行。由于大數(shù)據(jù)是目前科技領(lǐng)域最熱門(mén)的趨勢(shì),基于這些大規(guī)模的數(shù)據(jù),機(jī)器學(xué)習(xí)在預(yù)測(cè)和計(jì)算建議方面變得不可思議的強(qiáng)大。最常見(jiàn)的機(jī)器學(xué)習(xí)的例子就是 Netflix(一家在線影片租賃提供商)的算法,它能基于你過(guò)去看過(guò)的電影來(lái)推薦電影,或著 Amazon 的算法,它能基于你過(guò)去買的書(shū),來(lái)推薦書(shū)給你。
那么如果你想進(jìn)一步了解機(jī)器學(xué)習(xí),你應(yīng)該怎樣開(kāi)始呢?對(duì)我來(lái)說(shuō),我的入門(mén)是我在哥本哈大學(xué)留學(xué)時(shí),參加的一個(gè)人工智能的課程。我的講師是丹麥科技大學(xué)的一個(gè)全職的應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的教授,他主要研究邏輯學(xué)和人工智能,主要致力于使用邏輯學(xué)來(lái)對(duì)人類的計(jì)劃,推理,和求解問(wèn)題的過(guò)程進(jìn)行建模。這個(gè)課程是針對(duì)理論/核心概念和動(dòng)手解決問(wèn)題的討論。我們所用的課本是人工智能的經(jīng)典之一: Peter Norvig’s Artificial Intelligence — A Modern Approach ,其中涵蓋的主題主要包括:智能代理,問(wèn)題求解,敵對(duì)搜索,概率論,多智能體系統(tǒng),社會(huì)AI,哲學(xué)/倫理學(xué)/人工智能的未來(lái)。課程的最后,三個(gè)人一組,我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的基于搜索的代理,能夠在虛擬環(huán)境下解決運(yùn)輸任務(wù)來(lái)作為編程項(xiàng)目。
多虧這個(gè)課,我學(xué)會(huì)了大量的知識(shí),并決定繼續(xù)學(xué)習(xí)這個(gè)專業(yè)的主題。在過(guò)去的幾周里,我參加了舊金山的多個(gè)技術(shù)講座,主要是關(guān)于深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)結(jié)構(gòu)的。還有一個(gè)機(jī)器學(xué)習(xí)的會(huì)議,很多該領(lǐng)域的專業(yè)人士都在場(chǎng)。最重要的是,我六月初的時(shí)候參加了Udacity的介紹機(jī)器學(xué)習(xí)( Intro to Machine Learning )的在線課程,并在前幾天剛剛完成。在這篇文章中,我想分享一些我從課程中學(xué)習(xí)到的最常見(jiàn)的機(jī)器學(xué)習(xí)算法。
機(jī)器學(xué)習(xí)算法可以被分為三大類—監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí),和強(qiáng)化學(xué)習(xí)。 有監(jiān)督的學(xué)習(xí) 在數(shù)據(jù)集(訓(xùn)練集)的屬性(標(biāo)簽)已知的條件下是有用的,但是在沒(méi)有標(biāo)簽時(shí),就失去作用了,需要使用其他方法來(lái)進(jìn)行預(yù)測(cè)。當(dāng)我們面臨的是沒(méi)有標(biāo)記的數(shù)據(jù)(屬性沒(méi)有預(yù)先賦值),并且需要我們發(fā)現(xiàn)其中隱含的關(guān)系時(shí), 非監(jiān)督學(xué)習(xí) 就會(huì)很有用。 增強(qiáng)學(xué)習(xí) 介于這兩個(gè)極端之間——對(duì)于每一個(gè)預(yù)測(cè)步驟或動(dòng)作,都會(huì)有某種形式的反饋,但是沒(méi)有確切的標(biāo)簽或著錯(cuò)誤信息。因?yàn)檫@是一個(gè)入門(mén)課,我并不了解強(qiáng)化學(xué)習(xí)。但我希望這10個(gè)有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法就足夠引起你的興趣。
有監(jiān)督的學(xué)習(xí)
1. 決策樹(shù) :決策樹(shù)是一個(gè)使用類樹(shù)圖形,或者決策模型和其可能結(jié)果的決策支持工具,包括偶然事件的結(jié)果,資源成本和效用??匆幌孪旅娴膱D片感受一下它是什么樣的。

從商業(yè)決策的角度來(lái)看,大多數(shù)時(shí)候,一個(gè)決策樹(shù)就是使用最小數(shù)量的必須要問(wèn)的是或不是的問(wèn)題,來(lái)評(píng)估做出正確決策的可能性。作為一個(gè)方法,它允許你以一個(gè)結(jié)構(gòu)化的和系統(tǒng)的方式來(lái)處理這個(gè)問(wèn)題,從而得到一個(gè)合乎邏輯的結(jié)論。
2. 樸素貝葉斯分類 :樸素貝葉斯分類是一族基于貝葉斯定理和特征之間的強(qiáng)獨(dú)立性(樸素)的簡(jiǎn)單分類器。顯著特點(diǎn)是方程式—— P(A|B) 是后驗(yàn)概率,P(B|A) 是似然概率,P(A) 是類的先驗(yàn)概率,P(B) 是預(yù)測(cè)的先驗(yàn)概率。

一些現(xiàn)實(shí)中的例子:
標(biāo)記一個(gè)電子郵件為垃圾郵件或非垃圾郵件
將新聞文章分為技術(shù)類、政治類或體育類
檢查一段文字表達(dá)積極的情緒,或消極的情緒?
用于人臉識(shí)別軟件
3. 普通的最小二乘回歸 :如果你了解統(tǒng)計(jì)學(xué),你以前可能聽(tīng)說(shuō)過(guò)線性回歸。最小二乘法是一種進(jìn)行線性回歸的方法。你可以把線性回歸當(dāng)作使用一條直線來(lái)擬合一系列的點(diǎn)的任務(wù)。有多種可能的方法來(lái)做到這一點(diǎn),最小二乘的策略是這樣的——你可以畫(huà)一條線,然后對(duì)于每一個(gè)數(shù)據(jù)點(diǎn),計(jì)算數(shù)據(jù)點(diǎn)和這條線的垂直距離,然后把它們加起來(lái);擬合的線就是那個(gè)總和的距離盡可能小的線。

線性是指你用來(lái)擬合數(shù)據(jù)的模型,而最小二乘指的是你正在最小化的誤差的度量。