Google 51.31%
南加州大學 46.57%
IBM沃森實驗室 46.46%
馬里蘭大學 44.97%
約翰?霍普金斯大學 43.48%
……
SYSTRAN公司 10.79%
從中文到英語翻譯 (開放集)
Google 51.37%
SAKHR公司 34.03%
美軍ARL研究所 22.57%
表1 2005年NIST對全世界多種機器翻譯系統(tǒng)進行評比的結果
到了2000年之后,雖然還有一些舊式的學者死守著傳統(tǒng)人工智能的方法不放,但是無論是學術界還是工業(yè)界,機器智能的主流方法是基于統(tǒng)計或者說數(shù)據(jù)驅動的方法。與此同時,另外兩個相關的研究領域,機器學習和數(shù)據(jù)挖掘也開始熱門起來。
2012-2014年,筆者曾經(jīng)負責Google的機器問答項目,并且通過使用大數(shù)據(jù),解決了30%左右的問題,這遠遠超過了學術界迄今為止同類研究的水平。究其原因,除了Google在自然語言處理等基礎算法上做到了世界領先之外,更重要的是,Google將這個過去認為是存粹自然語言理解的問題變成了一個大數(shù)據(jù)的問題。首先,Google發(fā)現(xiàn)對于用戶在互聯(lián)網(wǎng)上問的各種復雜問題,有70-80%左右的問題可以在前十條自然搜索結果(去掉廣告、圖片和視頻等結果)中找到答案,而只有20%左右的復雜問題,答案存在于搜索結果的摘要里。因此,Google將機器自動問答這樣一個難題轉換成了在大數(shù)據(jù)中尋找答案的摘要問題。當然,這里面有三個前提,首先答案需要存在,這就是我們前面講到的大數(shù)據(jù)的完備性;其次,計算能力需要足夠,Google回答這樣一個問題的時間小于10毫秒,但是需要上萬臺服務器同時工作;最后,就是要用到非常多的自然語言處理算法,包括對全部的搜索內(nèi)容要進行語法分析和語義分析,要能夠從文字的片段合成符合語法而且讀起來通順的自然語言等等。其中第一個前提是只有Google等少數(shù)大公司具備,而學術界不具備,因此這就決定了是Google而非學術界最早解決圖靈留下的這個難題。

圖 3 Google自動問答(問題為“天為什么是藍色的?”,問題下面是計算機產(chǎn)生的答案)
由此可見,我們對數(shù)據(jù)重要性的認識不應該停留在統(tǒng)計、改進產(chǎn)品和銷售,或者提供決策的支持上,而應該看到它(和摩爾定律、數(shù)學模型一起)導致了機器智能的產(chǎn)生。而機器一旦產(chǎn)生了和人類類似的智能,就將對人類社會產(chǎn)生重大的影響了。
2.大數(shù)據(jù)(Big Data)的本質
機器智能離不開數(shù)據(jù),那么大量的數(shù)據(jù)和現(xiàn)在大家所說的大數(shù)據(jù)是否是一回事呢?如果不是,它們之間又有什么聯(lián)系和區(qū)別呢?
毫無疑問,大數(shù)據(jù)的數(shù)據(jù)量自然是非常大的,但是光是“量”大還不是我們所說的大數(shù)據(jù)。比如過去國家統(tǒng)計局的數(shù)據(jù)量也很大,但是不是真正意義上的大數(shù)據(jù)。這兩者的差別我們可以從三個方面來看。
首先,大數(shù)據(jù)具有多維度性質,而不同維度之間有著天然的(而非人為的)聯(lián)系。為了說明這一點,我們不妨看一個實際的例子。
2013年9月份,百度發(fā)布了一個頗有意思的統(tǒng)計結果《中國十大“吃貨”省市排行榜》。百度沒有做任何的民意調查和各地飲食習慣的研究,它只是從“百度知道”的7700萬條和吃有關的問題里“挖掘”出來一些結論:
在關于“什么能吃嗎?”的問題中,福建、浙江、廣東、四川等地的網(wǎng)友最經(jīng)常問的是“什么蟲能吃嗎”,江蘇、上海、北京等地的網(wǎng)友最經(jīng)常問“什么的皮能不能吃”,內(nèi)蒙古、新疆、西藏,網(wǎng)友則是最關心“蘑菇能吃嗎”,而寧夏網(wǎng)友最關心的竟然是“螃蟹能吃嗎”。寧夏的網(wǎng)頁關心的事情一定讓福建的網(wǎng)友大跌眼鏡,反過來也是一樣,他們會驚訝于有人居然要吃蟲子。
百度做的這件小事其實就是大數(shù)據(jù)的一個典型應用。它有這樣一些特點。首先,它的數(shù)據(jù)量非常“大”。第二,這些數(shù)據(jù)維度其實非常多,它們不僅涉及到食物的做法、吃法、成分、營養(yǎng)價值、價格、問題來源的地域和時間等等,而且里面包含了提問者的很多信息,互聯(lián)網(wǎng)的IP地址,所用的計算機(或者手機)的型號,瀏覽器的種類等等。這些維度也不是明確地給出的(這一點和傳統(tǒng)的數(shù)據(jù)庫不一樣),因此在外面人看來,這些原始的數(shù)據(jù)是“相當雜亂”,但是恰恰是這些看上去雜亂無章的數(shù)據(jù)將原來看似無關的維度(時間、地域、食品、做法,成分,人的身份和收入情況等)聯(lián)系了起來。經(jīng)過對這些信息的挖掘,加工和整理,就得到了有意義的統(tǒng)計規(guī)律。