贊助本站
正如電力在過去一個(gè)世紀(jì)里改變了工業(yè)的運(yùn)行方式那樣,人工智能將在未來100年里大幅改變社會(huì)。AI正被整合應(yīng)用到家用機(jī)器人、機(jī)器人出租車以及心理健康聊天機(jī)器人中。一家創(chuàng)業(yè)公司正在利用AI技術(shù)開發(fā)機(jī)器人,讓它們更接近人類的智能水平。AI本身已經(jīng)進(jìn)入到人們的日常生活中,比如為數(shù)字助理Siri和Alexa的大腦提供動(dòng)力。它讓消費(fèi)者能夠更準(zhǔn)確、更高效地在網(wǎng)上購物和搜索,以及執(zhí)行其他人們認(rèn)為理所當(dāng)然的任務(wù)。
Coursera聯(lián)合創(chuàng)始人、斯坦福大學(xué)教授吳恩達(dá)(Andrew Ng)博士上周在硅谷舉行的AI前沿會(huì)議上發(fā)表主題演講時(shí)表示:“AI就像是一種新的電力。大約100年前,電力改變了每一個(gè)主要行業(yè)。AI已經(jīng)發(fā)展到同樣的水平,有能力在未來幾年改變所有主流行業(yè)。”吳恩達(dá)說,盡管人們認(rèn)為AI是一種相當(dāng)新的技術(shù),但它實(shí)際上已經(jīng)存在了幾十年。但它之所以現(xiàn)在才實(shí)現(xiàn)騰飛,這要?dú)w功于數(shù)據(jù)和計(jì)算能力的擴(kuò)展。
吳恩達(dá)表示,目前通過AI創(chuàng)造的大部分價(jià)值都是通過監(jiān)督學(xué)習(xí)完成的。但有兩大波的進(jìn)步:一波利用深度學(xué)習(xí)來預(yù)測消費(fèi)者是否會(huì)在算法獲得有關(guān)他的信息后點(diǎn)擊在線廣告。而當(dāng)輸出不再是一個(gè)數(shù)字或整數(shù),而是語音識(shí)別、另一種語言或音頻的句子結(jié)構(gòu)時(shí),第二波進(jìn)步就出現(xiàn)了。例如,在無人駕駛汽車中,圖像的輸入會(huì)形成其他在路上的車輛位置輸出。
微軟首席科學(xué)家黃學(xué)東(Xuedong Huang)表示,實(shí)際上,深度學(xué)習(xí)(即電腦從數(shù)據(jù)集學(xué)習(xí)到執(zhí)行功能,而不是執(zhí)行它被編程的特定任務(wù))對實(shí)現(xiàn)與人類相媲美的語音識(shí)別目標(biāo)是有幫助的。2016年,黃學(xué)東領(lǐng)導(dǎo)微軟團(tuán)隊(duì)取得了歷史性成就,當(dāng)時(shí)他們的系統(tǒng)記錄到5.9%的錯(cuò)誤率,這與人類轉(zhuǎn)錄員的情況相同。黃學(xué)東在會(huì)議上說:“多虧了深度學(xué)習(xí),我們能夠在20年之后達(dá)到人類的程度。”此后,該團(tuán)隊(duì)將錯(cuò)誤率進(jìn)一步降低至5.1%。
數(shù)字助理的崛起
從2010年開始,語音識(shí)別的質(zhì)量開始改善,最終Siri和Alexa誕生了。吳恩達(dá)說:“現(xiàn)在,你幾乎認(rèn)為這是理所當(dāng)然的。亞馬遜Alexa總監(jiān)Ruhi Sarikaya說,除此之外,預(yù)計(jì)語音將取代觸控輸入。提高準(zhǔn)確性的關(guān)鍵是理解上下文語境,例如,如果一個(gè)人問Alexa晚餐應(yīng)該做什么,這位數(shù)字助理必須評估他的意圖。他是想讓Alexa去餐館預(yù)訂位置、點(diǎn)餐還是尋找食譜?如果他要求Alexa找到《饑餓游戲》(Hunger Games),他是想要聽音樂、看視頻亦或是聽有聲讀物?
谷歌的研究科學(xué)家迪勒克·哈卡尼-圖爾(Dilek Hakkani-Tur)表示,數(shù)字助理的下一步研究將是一項(xiàng)更先進(jìn)的任務(wù),即理解“超越文字的意義”。舉例來說,如果用戶使用“今天晚些時(shí)候”這樣的短語,可能意味著晚上7點(diǎn)到9點(diǎn)之間,或者下午3點(diǎn)到5點(diǎn)開會(huì)。哈卡尼-圖爾說,下一階段還需要更復(fù)雜、更生動(dòng)的對話、多領(lǐng)域任務(wù)以及超越領(lǐng)域界限的互動(dòng)。此外,數(shù)字助理應(yīng)該能夠做更多事情,比如輕松閱讀和總結(jié)電子郵件。
語音識(shí)別之后,就是“計(jì)算機(jī)視覺”,即計(jì)算機(jī)識(shí)別圖像并對其進(jìn)行分類的能力。隨著許多人上傳圖片和視頻,將元數(shù)據(jù)添加到所有內(nèi)容中變得很麻煩,這就需要一種將它們分類的方法。Facebook人工智能研究院可視化識(shí)別技術(shù)專家Manohar PaluriLumos說,F(xiàn)acebook開發(fā)了一種能夠理解和大規(guī)模分類視頻的AI,名為Lumos。Facebook利用Lumos進(jìn)行數(shù)據(jù)收集,例如,收集煙花圖像和視頻。該平臺(tái)還可以利用人們的姿勢來識(shí)別視頻,比如將人們在沙發(fā)周圍忙碌的場景歸類為“即將外出閑逛”。
谷歌視頻理解主管拉胡爾·蘇山卡爾(Rahul Sukthankar)補(bǔ)充說,關(guān)鍵是要確定上傳視頻的主要語義內(nèi)容。為了幫助計(jì)算機(jī)正確識(shí)別視頻中的內(nèi)容,蘇山卡爾的團(tuán)隊(duì)在YouTube上挖掘了AI可以學(xué)習(xí)的類似內(nèi)容,比如針對非專業(yè)內(nèi)容的特定幀率。蘇山卡爾補(bǔ)充說,未來研究的一個(gè)重要方向是使用視頻對計(jì)算機(jī)進(jìn)行訓(xùn)練。所以,如果機(jī)器人看到一個(gè)人把麥片倒進(jìn)碗里的多個(gè)角度視頻,它應(yīng)該能通過觀察視頻來學(xué)習(xí)。