在開始學習各種不同類型的機器學習算法之前,首先了解一下背景材料是很有幫助的。它們包括各種算法的執(zhí)行目標是什么,以及它們適用于人工智能領(lǐng)域的哪些方面。這篇文章將涵蓋通常的人工智能研究中的各種學習類型,為每種學習方式提供Example,并且我將嘗試為不同的學習算法提供適當?shù)臋z驗。這是機器學習系列的第一篇文章,是之后一系列文章的引論,目的是讓我們對有關(guān)機器學習算法中特定概念有一些了解。
·機器學習的類型問題
在人工智能領(lǐng)域,有幾類主要的問題,機器學習就是其中之一。機器學習的目標并不完全是尋找意識那么刺激,不過從某些方面說,它更有可能接近達到傳統(tǒng)人工智能研究的目標。機器學習的目的是:設計一種算法,可以讓計算機進行學習。
學習當然并不一定是指意識學習。它更像是從數(shù)據(jù)中尋找統(tǒng)計規(guī)律,或者發(fā)現(xiàn)一些模式。因此,在接到一個學習任務時,很多機器學習算法很難像用你那種方式去工作。然而,學習算法卻可以在那些難以學習的環(huán)境中賦予其洞察力。
·分類和決策問題
學習算法分為幾個不同的類別。一類是預期的結(jié)果來自算法。例如一些分類問題。你可以從一些公共資料中了解這些問題;一個通常的分類問題的例子是讓計算機學習怎樣識別筆跡。事實上,現(xiàn)在的筆跡識別方法非常完善,一些特定解決方案的識別率可以達到百分之九十九以上(如果排除一些零亂筆跡的話非常好)。大部分數(shù)字識別的工作可以由神經(jīng)網(wǎng)絡來完成,但最近支持向量機也被證明可以在分類方面做得更好。
監(jiān)督學習也可以被用于醫(yī)學診斷——例如給計算機輸入潛在癌癥患者的癥狀,以及患者是否真的感染了癌癥的信息,計算機將會學習怎樣區(qū)分癌癥患者,以及患者是否被誤診。這種學習可以使用神經(jīng)網(wǎng)絡或者支持向量機,不過用決策樹也可以實現(xiàn)類似的功能。
決策樹是一類相對比較簡單的分類技術(shù),它的決策依賴于一個由問題和答案構(gòu)成的樹:如果對于問題的答案是“yes”,則算法執(zhí)行下一個分枝;如果回答為“no”,則算法轉(zhuǎn)向其他的分枝。最終,算法抵達的葉子節(jié)點就是最終分類。
與神經(jīng)網(wǎng)絡相比,學習決策樹不需要頻繁的調(diào)試工作參數(shù),并且相當簡單明確。此外還有一些算法,比如ada-boost等可以迅速提高它的性能。在下文中我們將看到?jīng)Q策樹和神經(jīng)網(wǎng)絡的詳細介紹?,F(xiàn)在我們只需要知道,即使是簡單明確的算法也可以做很多事情。你可以在幾乎任何條件下使用決策樹,你只需要適當數(shù)目的標志以及一個分類系統(tǒng),就可以期待合理的結(jié)果(盡管很有可能無法解決)。
最后一個讓你開胃的分類學習例子是語音識別——通常計算機將得到一套由聲音構(gòu)成的訓練實例,以及與聲音相對應的單詞。這種類型的學習通常交給神經(jīng)網(wǎng)絡來完成,雖然很難想象,但用決策樹來完成這類問題也很簡單。另一種機器學習的方法被稱為隱馬爾科夫模型,為了處理這類時間序列數(shù)據(jù),它經(jīng)過了特別的設計,因此在語音識別方面該模型表現(xiàn)頗佳。
另外一些常見的學習類型不是被設計用于為輸入創(chuàng)建分類,而是作出決定;它們統(tǒng)稱決策問題。通常來說,決策問題需要根據(jù)世界的狀態(tài)作出一些假設,并使它們易于處理。決策程序可能是一次性的,在這種情況下僅僅需要作出單一的決定,也可能是重復的,在這種情況下計算機可能需要做出多重決定。如果今后需要作出多重決策的話,決策程序?qū)⒆兊酶蛹?,因為它不但需要考慮到行為的直接后果,而且要兼顧通過某種渠道獲取信息的可能行為。
決策問題中有一類用于理解的通用框架借用了一個經(jīng)濟學概念,稱作效用函數(shù)。它為計算機(或“智能體”,即Agent,譯者注)執(zhí)行一項操作賦予某些分值。效用函數(shù)并非事先知道(此處應指效用函數(shù)事先不清楚行為的后果,或不知道賦予多少分值合適,譯者注)——智能體必須學習那些是有效的,可以帶來回報的行為,以及哪些是無效的,或者帶來負回報的行為。