科學(xué)家們其實并沒搞清楚究竟什么是意識,所以霍金、埃隆馬斯克等對人工智能會產(chǎn)生意識的擔(dān)心和人類最初的神靈崇拜其實同根同源。按照這種思路我們同樣可以相信地球深處也存在某種意志,所以至少眼下這種擔(dān)心并沒有太大價值,但人工智能對人類的沖擊卻是真實存在的并且也更值得關(guān)注。
|技術(shù)視角下人工智能的真實水平
截止2016年3月人工智能在語音和圖像上已經(jīng)取得了階段性成果,但語義上暫時還看不到能徹底解決的跡象:
1、語音識別
形象來講是這是一個最近幾年已經(jīng)被深度學(xué)習(xí)攻克的領(lǐng)域,只要花足夠的錢,那識別精確度可以達到99%。在語音識別這種領(lǐng)域,最后幾個點精度的提升很可能比前面達成90%精度還要費勁,但最后這幾個點的精度往往正是跨越能用和不能用的關(guān)鍵。沒有深度學(xué)習(xí)之前,人們已經(jīng)嘗試攻克語音識別很多年,一般來講1952年貝爾實驗室研究的第一個能識別10個英文數(shù)字發(fā)音的語音識別系統(tǒng)被認(rèn)為是語音識別的起點,這樣算起來人類已經(jīng)在這事上努力了60多年。
在上個世紀(jì)70年代搞定了小詞匯量的語音識別,在80年代搞定了大詞匯量的語音識別,然后精度就卡在那里了,大概在85%左右徘徊,一卡就接近30年。微軟、IBM當(dāng)年都曾經(jīng)嘗試把這技術(shù)應(yīng)用起來,但顯然沒什么后果,好多人甚至不記得他們干過著件事情。深度學(xué)習(xí)導(dǎo)入語音識別后,使事情有了根本性的變化,現(xiàn)在只要有足夠的數(shù)據(jù)進行訓(xùn)練,大多的公司自己都可以訓(xùn)練出足夠精確的語音識別模型。這技術(shù)基本上要貨品化了,越來越可以認(rèn)為這是一種不要特別多的投入就可以搞定的技術(shù)。
2、圖像識別
圖像識別比語音識別要麻煩一些,因為語音識別的對象總是各種有限的語言。但圖像里人臉和貓的識別落到具體實現(xiàn)上還不能用一個模型來處理。當(dāng)前的狀態(tài)是如果選定一個點比如人臉識別,砸入幾十個PhD,幾百塊GPU,那花個一到兩年,如果還能找到落地點不斷獲得數(shù)據(jù),那就可以做到非常高的精度(99%以上),但這種精度眼下還沒辦法一下子就覆蓋到其它領(lǐng)域,只能一個點一個點來搞定。像人臉這種領(lǐng)域因為有切實的落地場景(銀行等),所以一下子就發(fā)展起來了,其它的領(lǐng)域要想都達到同樣的水平,那還需要一點時間。
3、語義理解
和語音識別與圖像識別不一樣,語義理解處在一種基本沒搞定的狀態(tài)。很多時候我們看演示的時候能看到一個機器人或智能型產(chǎn)品與人進行流暢的交流。達成這狀況有兩種可能,一種是作弊,后面放了個人,屬于人工的人工智能;一種是對話被限定在特定的場景下,比如汽車?yán)锎螂娫挘尩貓D導(dǎo)航等。
語義理解的難度與所要處理的概念數(shù)有關(guān),當(dāng)要處理的概念數(shù)在幾千個以下的時候,那針對特定場景按照基于規(guī)則的方式還是可能搞定,做的比較流暢的。但一旦這個范圍擴大到整個社會生活,那最多也就是GoogleNow和Siri那個樣子。與這點密切相關(guān)的應(yīng)用一個是各種智能語音助手在對話時的智能程度,一個則是翻譯。
在這些里程碑被陸續(xù)達成的過程中,世界也會改變它的樣子,恰如汽車的出現(xiàn)帶來了馬路和交通規(guī)則一樣。而要想理解這種影響的范圍,那就要考察人類與人工智能的分工邊界。
|人類與人工智能的分工邊界
如果有一天我們想種什么植物,那只要對著身邊的智能助手說一聲;我們想生產(chǎn)什么東西,只要選定好樣式和材料工廠就可以按需生產(chǎn);我們想吃什么,機器人都可以幫我們做好;我們想出門的時候,自動駕駛汽車就會等在門口;想看病的時候,身體的各種參數(shù)就會和過往的病例自動對比分析。那人類到底還應(yīng)該做點什么?
由這點可以引出曠日持久的各種爭論,比如軟件在吞噬世界、人工智能在吞噬世界、機器人在吞噬世界等等,但這并沒價值,其關(guān)鍵在于既然有些崗位注定被消滅,那就要知道究竟究竟什么樣的工作會是人類的保留地。當(dāng)然這里用工作可能不太準(zhǔn)確,古代富家翁也種花,但這和花農(nóng)種花其實有著本質(zhì)的區(qū)別。