
我們看一下深度學習,在過去幾年當中有非常多的研究方面的突破,也就是說在數(shù)據(jù)層面提取出特征來進行學習。我們首先要了解特征是什么,這是我們數(shù)據(jù)的輸出,這是數(shù)據(jù)的輸入,告訴我在這個過程當中你提取出來的特征是什么。通過大量的計算能力,這也是為什么在過去花的時間,通過大量數(shù)據(jù)的學習可能要花幾個月、幾年的時間,因為之前這個計算的能力是非常受限的。

現(xiàn)在系統(tǒng)的發(fā)展更加先進,我們把它叫做端對端的深度學習,它有超過6000萬個參數(shù),這6000萬個參數(shù)就代表著有6000萬個不同的培訓點,同時這個數(shù)據(jù),可以看到它有自己的一些范式,我們可以將這個問題變得簡單化。但是在這邊我們需要注意的一點,這一點非常重要,我們應該有非常好的數(shù)據(jù),非常好的標記,與此同時能夠對我們輸入的信息作出正確的定義。

所以在過去幾年間,信息界發(fā)生的一個很大的變化是機器學習正在處理之前人工處理的一些內容,比如說之前有一些自然的圖像,我們有1000多個類別,當時的想法是,把這些圖像按類別進行分類,看起來非常簡單,不知道在座各位有沒有做過這樣一些工作,這些工作正確率在80%左右,正確率不是特別差,如果看計算機進行分類的話,錯誤率也沒有低很多,如果我們對所有機器進行培訓的話,這些受過訓練的機器可以達到更高的分類精度。
之后我們?yōu)榱私鉀Q錯誤率的問題,去應用了神經網絡,你會看到在應用神經網絡之后語音錯誤率以及ImageNet錯誤率得到了進一步下降。我們在這邊看到了人類的表現(xiàn),人類的錯誤率,其實我們所做的是研究這些錯誤,我們大概有5%左右的錯誤率,過去幾年間,真正讓機器能夠打敗人類或者打敗其他智能的動物還需要幾年的時間,但是我們確實已經見證多了一些重大的進步,大家已經有了智能手機,我們說到這些智能系統(tǒng)的時候,我們知道這些智能手機的智能系統(tǒng)是非常好的,可以在大部分情況下幫我們作出正確的選擇,因為我們在它上面加入了神經網絡,因此我們可以幫他們的正確率得到提高。在Nervana我們也在整個平臺上應用了各種各樣不同的數(shù)據(jù),我們用了自然語言加工,我們用了很多時間序列、金融數(shù)據(jù)等等,這些都是朝著同樣一個方向發(fā)展的。

展望機器學習的未來
從我們的大腦中尋求答案
很有趣的一點,英特爾其中一個創(chuàng)始人之一曾經說過,“我們通過計算機建模的方式來研究人類大腦是如何工作。”,其實我們或許應該用另外一種方法反其道而行之。我們已經發(fā)展到了這樣一個階段,就是為了探索計算機新的發(fā)展方向,也就是數(shù)據(jù)的發(fā)展方向,我們可以向我們的大腦尋求答案。

用我們的芯片打造一個神經元
這也是Nervana所使用的方向之一,我自己本身是學計算機出身的,我自己也對神經系統(tǒng)非常感興趣,我希望我們能夠從大腦中獲取一些概念,能夠從大腦中獲取一些新的想法,把它應用到我們的計算機工程中去。我們不知道如何去真正打造一個生物上的神經元,但是我們可以用我們的芯片打造一個神經元。我們可以把我們大腦中的模式,一種數(shù)學模型的方式提取出來,然后應用到計算機模型當中去。我們可以在其中加入一些生物的元素,然后建立起這樣一個模型,當然這個部分是非常復雜的,然后我們把它轉化為模型描述語言,轉化為原語或者編譯器,之后轉化為針對工作負載的優(yōu)化硬件,這就是我們的工作方向。