對于那些在人工智能領(lǐng)域的一些跑分測試上「刷分」的公司來說,到了算總賬的時候了。
從 2014 年開始,人工智能領(lǐng)域突然成為了基于科研能力的科技初創(chuàng)公司和大公司競相發(fā)力的熱門領(lǐng)域。國內(nèi)外各公司頻繁發(fā)布圖像、語音識別等相關(guān)人工智能領(lǐng)域的研究成果和學(xué)術(shù)論文。以百度為首,以及另外一群華裔教授離職創(chuàng)業(yè)的初創(chuàng)公司為主力軍的公司對這口尤為喜愛,他們的 paper 發(fā)的特別多,在 ImageNet、LFW 或者其他圖像和語音識別題庫上,個個都奔著 100% 的正確率飛速進發(fā)。
百度無疑是當中成績最卓越的那一家。百度深度學(xué)習(xí)研究院(IDL)在人臉識LFW數(shù)據(jù)庫的測試中取得了99.62%準確率,比第二名 Facebook 的成績高出了整整 2%,甚至比斯坦福大學(xué)用真人來做比對測試的成績 99.2% 還要高;上個月中旬又有新的好消息傳出:ImageNet 圖像識別測試的錯誤率低至 4.58%——依舊比第二名的 Google,以及真人練習(xí)測試的成績都高;更早前,百度首席科學(xué)家 Andrew Ng 親自帶隊發(fā)布了自研的 語音識別系統(tǒng) Deep Speech 的成績論文 ,號稱遠超 Google 和蘋果等對手的系統(tǒng)。
接著,連一個月不到,百度在 ImageNet 上作弊的消息就傳出來了。
先不談作弊事件本身。借助一些識別類題庫的規(guī)則打擦邊球,提高自己的成績,已經(jīng)不是第一次了。在這些具體事例背后,我們看到的是一個頻繁發(fā) paper 在學(xué)界刷存在感,急于給自己打上人工智能標簽的百度。
作為國內(nèi)可能是首個開始關(guān)注人工智能行業(yè)刷分亂象的大眾媒體記者,幾個月以前我明確報道過以下這些情況:
1)人工智能領(lǐng)域刷分的情況已經(jīng)太過嚴重
強調(diào)技術(shù)牽頭人/團隊創(chuàng)始人是海歸大師學(xué)術(shù)泰斗,強調(diào)天使或 pre-A 就獲得世界知名基金數(shù)千萬美元投資,經(jīng)常出席各類場合陳詞濫調(diào)人工智能,千篇一律預(yù)測人工智能發(fā)展未來——這恐怕是整個互聯(lián)網(wǎng)創(chuàng)業(yè)圈的通玻人工智能公司怎樣證明自己?在沒有足夠簡單,足夠黑科技,能被大眾理解的產(chǎn)品出現(xiàn)之前,刷分是最好的方法。分數(shù)高,就是厲害——飽受應(yīng)試教育摧殘的中國人一定明白這個道理。
人工智能公司為什么要通過刷分的方式證明自己,邏輯其實也很好理解:對于大公司來說,招聘了世界頂級的研究人才,在公司上下 99% 的其他員工不理解的方向上做著研究,花費著公司主營業(yè)務(wù)收入賦予的大量研究經(jīng)費,就算沒有特別能應(yīng)用到核心產(chǎn)品里的結(jié)果產(chǎn)出,到了年底總得交點 KPI 上來吧?對于初創(chuàng)公司來說,產(chǎn)品無論賣給 B 端還是 C 端用戶,人工智能根本就是個 to VC 的行業(yè),是資本密集型產(chǎn)業(yè),總得讓做出點成績讓 VC 老爺們看吧?
2)在學(xué)術(shù)的測試上跑出過高的分數(shù),對于實際商業(yè)化和應(yīng)用到生活當中并無太多意義
刷分就像應(yīng)試教育,大家都以為誰分數(shù)高就一定厲害。然而,對人工智能領(lǐng)域刷分亂象解釋地最好的一句話就是:不看廣告看療效。商業(yè)化對于人工智能的研究尤為重要,直接決定了重金投入的研究到底有沒有實質(zhì)性的作用。沒有商業(yè)化的產(chǎn)品落地,沒有得到比實驗室測試數(shù)據(jù)量更大的大規(guī)模用戶數(shù)據(jù)的填充和反哺,就根本說明不了一顆人工智能的大腦有多聰明。
我曾經(jīng)采訪過的一位人工智能研究者對我講出了真話:現(xiàn)階段聰明的人工智能差異根本不在于多會思考,大家的「智能」水平都差不多。更聰明的大腦單純只是有更多的數(shù)據(jù),也就是知識儲備。博覽群書的人大多出口成章下筆如有神,這個邏輯其實放在人工智能領(lǐng)域一樣有效。
人臉識別技術(shù)公司 Face++曾經(jīng)做過一個實驗,把自己在 LFW(人臉識別題庫)當中得到 99.5% 準確率的系統(tǒng)拿去到金融人臉識別的實際場景里,得到的通過率連萬分之一誤識率 70% 都不到。LFW 的樣本量是 6000 個,想要取得更高成績的直接方法就是熟記題庫然后做優(yōu)化,這就是大部分公司刷分的公司分數(shù)越來越高的最直接原因。
這個高分有沒有用?在現(xiàn)實情況中,樣本量根本不是 6000 個,假如支付寶錢包使用的是這個跑分超高的人臉驗證系統(tǒng),需要識別的量達到三個億,剛才那個萬分之一誤識率 70% 通過率的成績,就意味著一萬個人里面至少有 1 個會被認錯,而所有認對的人里面還有 30% 無法通過——意思就是說,一萬個登陸支付寶錢包的用戶里面就會有一個人被認成另外的人,登陸到錯誤的賬號里;而其他里面高達 30% 比例的用戶無法登陸,因為系統(tǒng)根本識別不了他們到底是對是錯。如果這個跑分超高的系統(tǒng)被實裝,結(jié)果就是嚴重(1/10k)的安全隱患+嚴重的用戶體驗降低。