2007年,Google研究員Halevy、Norvig和Pereira發(fā)布了一篇類似的論文,描述AI如何在吞食了大量數(shù)據(jù)之后變得“不可理喻的高效”——在很多領(lǐng)域都是如此。
AI的競(jìng)爭(zhēng),從此變成了數(shù)據(jù)量的軍備競(jìng)賽。
回顧這幾十年的AI發(fā)展史,AI技術(shù)在最近幾年的發(fā)展速度是最快的,而數(shù)據(jù)量就是關(guān)鍵。
今天,無(wú)論是Google、Facebook,還是阿里、騰訊、百度,都管自己叫做數(shù)據(jù)公司。無(wú)論他們是賣廣告、賣商品、賣理財(cái)、賣游戲還是賣外賣,對(duì)他們而言,數(shù)據(jù)量就等于賺錢能力。這些在數(shù)據(jù)量?jī)?chǔ)備上遠(yuǎn)遠(yuǎn)超過(guò)了其他競(jìng)爭(zhēng)者的巨頭們,并不會(huì)希望被市場(chǎng)上的其他玩家掌握更大量級(jí)的數(shù)據(jù)。
然而對(duì)于數(shù)據(jù)收集能力有限的非巨頭玩家而言,數(shù)據(jù)共享可能會(huì)給他們帶來(lái)數(shù)倍體量的數(shù)據(jù)集,這會(huì)帶來(lái)顯著的好處。比如,如果各個(gè)銀行們將數(shù)據(jù)合并為一個(gè)數(shù)據(jù)集,則每一家銀行都能夠更準(zhǔn)確的識(shí)別信用卡欺詐。如果能源公司與制造公司的數(shù)據(jù)能夠合并為一個(gè)數(shù)據(jù)集,則其中的每一家公司都能夠更準(zhǔn)確的預(yù)測(cè)市場(chǎng)。如果全球四大鉆石鑒定實(shí)驗(yàn)室的數(shù)據(jù)合并為一個(gè)數(shù)據(jù)集,則每一家鑒定機(jī)構(gòu)都能夠更準(zhǔn)確的為鉆石定價(jià)。如果保險(xiǎn)公司能夠獲取這些能力,則也能獲得更大的收益。
當(dāng)區(qū)塊鏈大數(shù)據(jù)遇到AI
以前由于安全問(wèn)題,大家即使看到了數(shù)據(jù)共享的好處也不敢去做。而一旦區(qū)塊鏈大數(shù)據(jù)技術(shù)成熟,情況將有所不同:
- 去中心化的數(shù)據(jù)控制方式將促進(jìn)數(shù)據(jù)的共享,不僅意味著更多的訓(xùn)練數(shù)據(jù)(對(duì)AI而言意味著更好的模型),同時(shí)也意味著AI模型的共享。
- 更高效的數(shù)據(jù)驗(yàn)證,減少了訓(xùn)練數(shù)據(jù)中的壞數(shù)據(jù),提升模型的可信度。
- 訓(xùn)練數(shù)據(jù)與模型成為可以交易的IP資產(chǎn)。
AI從業(yè)者總是面臨一個(gè)挑戰(zhàn):上哪兒去找數(shù)據(jù)集?以前的數(shù)據(jù)集大多數(shù)在網(wǎng)上七零八碎的躺著,只有一部分比較完整的數(shù)據(jù)集收錄在幾個(gè)列表中,還有大量的私有數(shù)據(jù)集是我們獲取不到的。如果我們有一個(gè)全球化的數(shù)據(jù)庫(kù)來(lái)管理這些數(shù)據(jù)集呢?不僅有Kaggle,有斯坦福的ImageNet,還有無(wú)數(shù)其他的數(shù)據(jù)集。
有需要的話,就上IPDB看看吧。人們?cè)谶@里上傳自己的數(shù)據(jù)集,使用他人的數(shù)據(jù)集。數(shù)據(jù)集本身存儲(chǔ)在類似IPFS的去中心化文件系統(tǒng)上,IPDB上保存元數(shù)據(jù)用于索引。以后,IPDB上也許不僅僅有數(shù)據(jù)集,還可以有從這些數(shù)據(jù)集中構(gòu)建出的模型。人們可以在這里使用他人的模型,上傳自己的模型。
共享到區(qū)塊鏈上的數(shù)據(jù)本身具備資產(chǎn)屬性,可以直接交易與變現(xiàn)。這也可能成為一個(gè)數(shù)據(jù)共享的驅(qū)動(dòng)力。事實(shí)上,今天的公共數(shù)據(jù)市場(chǎng)已經(jīng)有十億美元的體量——一個(gè)有Bloomberg的1000倍那么大的去中心化數(shù)據(jù)市場(chǎng)是完全有可能實(shí)現(xiàn)的。
現(xiàn)在已經(jīng)有相應(yīng)的區(qū)塊鏈技術(shù)可以把數(shù)據(jù)集與模型注冊(cè)為IP資產(chǎn),簡(jiǎn)單來(lái)說(shuō)就是:
- Coala IP協(xié)議
- BigchainDB數(shù)據(jù)庫(kù)與IPDB數(shù)據(jù)共享平臺(tái)
- IPFS文件系統(tǒng)配合Storj、FileCoin等硬件存儲(chǔ)設(shè)備
做為示范,Trent在ascribe給一個(gè)自己以前做的AI模型申請(qǐng)了“著作權(quán)”,得到了一張?zhí)摂M證書(shū):
數(shù)字版權(quán)可以以非常具體的方式進(jìn)行授權(quán),如著作權(quán)、所有權(quán)、使用權(quán)、編輯權(quán)、分發(fā)權(quán)等等,這些權(quán)限在區(qū)塊鏈中可以相對(duì)容易的進(jìn)行管理。就比如在DeepMind基于區(qū)塊鏈的醫(yī)療項(xiàng)目中,用戶就可以自己保有數(shù)據(jù)所有權(quán),只授予DeepMind使用權(quán)。
最后,別忘了還有AI DAO這種可能性,讓AI可以自行征用更多資源。
在過(guò)去,人類已經(jīng)培育過(guò)去中心化的程序,那就是病毒。沒(méi)人能擁有它們,沒(méi)人能控制它們,沒(méi)人能關(guān)閉它們。它們只是存在,試圖搞壞你的計(jì)算機(jī)。
今天,有了更好的API(智能合約語(yǔ)言),有了去中心化的存儲(chǔ)系統(tǒng)(區(qū)塊鏈),這些去中心化的程序?qū)⒛軌蜃龈嗟氖虑椤?/p>
通用人工智能——AGI,是可以自發(fā)行動(dòng)的代理決策者(agent),是一種反饋控制系統(tǒng)??刂葡到y(tǒng)是個(gè)頂呱呱的好東西。控制系統(tǒng)的數(shù)學(xué)基礎(chǔ)深厚,可以追述到1950年代Wiener的“Cybernetics”??刂葡到y(tǒng)與這個(gè)世界交互(通過(guò)傳感器與執(zhí)行機(jī)),并適應(yīng)這個(gè)世界(通過(guò)內(nèi)部模型與外部傳感器來(lái)更新自己的狀態(tài))??刂葡到y(tǒng)應(yīng)用廣泛——恒溫空調(diào)、降噪耳機(jī)、汽車剎車、下圍棋的AlphaGo,這個(gè)世界到處都是它的身影。