贊助本站
前言:本文是未來智能實驗室關于人工智能智商的最新研究文章,主要提出智能系統(tǒng)的智能水平會因為測試目的的不同,產生三種不同的智商類型,針對這三種AI智商,本文也提出對應的測試方法和數(shù)學公式。相關英文論文與2017年12月19日發(fā)表在美國康奈爾大學的預印本網站arxiv.org上,論文地址為:https://arxiv.org/abs/1712.06440
我們在研究中發(fā)現(xiàn),人類在討論AI的智能發(fā)展水平時,需求和目的并不相同,由此在評估AI智商時也會出現(xiàn)差異,第一個目的和需求是評判當前的AI系統(tǒng)(或機器人)是否在智力上超越人類 ,第二個需求和目的是了解一個智能產品在服務人類時,究竟有多么聰明,和要付出多少價格。根據這一關鍵區(qū)別,未來智能實驗室提出AI系統(tǒng)應該存在三種智商,分別是通用智商、服務智商和價值智商。
作者:劉鋒,計算機博士,互聯(lián)網進化論作者
0.背景
伴隨著2016年AlphaGo戰(zhàn)勝人類圍棋冠軍李世石,世界范圍人工智能迅猛發(fā)展,人工智能威脅論也因此廣泛傳播,同時智能產品蓬勃發(fā)展,不斷涌現(xiàn)。人工智能究竟能不能超越人類?這些智能產品的智能究竟達到什么水平?回答這些問題都需要用定量的方法測試智能系統(tǒng)的發(fā)展水平。 ? ?
從1950年圖靈測試提出以來,科學家已經為人工智能發(fā)展的評價體系做了很多工作。1950年,圖靈提出了著名的圖靈實驗,采用提問和人類裁判的方法,判斷一臺計算機是否具有同人相當?shù)闹橇?。作為最被廣泛應用的人工智能測試方法,但圖靈測試并不檢驗Ai的智能發(fā)展水平,只是判斷智能系統(tǒng)能否與人類智能相同,而且受人為因素干擾太多,嚴重依賴于裁判者和被測試者的主觀判斷,因此往往有人在沒有得到嚴格驗證的情況下宣稱其程序通過圖靈測試,
2015年3月24日“美國科學院院刊(PNAS)發(fā)表一篇論文,提出一種新的圖靈測試方法“Visual Turing test” ,這種測試方法用來對計算機的圖像認知能力進行更為深入的評估。
2014年美國佐治亞技術學院的瑞德教授(Mark O. Riedl)認為,智能的本質在于創(chuàng)造力。他設計了一個叫做Lovelace 2.0版本的測試。Lovelace 2.0的測試范圍包括:創(chuàng)作有虛擬故事的小說、詩歌創(chuàng)作、油畫和音樂等。
在解決人工智能定量測試的問題上,包括圖靈測試在內的各種方案還存在兩個問題:第一,這些測試方法沒有形成統(tǒng)一的智能模型,并以此為基礎進行分析,區(qū)分智能的多個分類。導致無法將不同的智能系統(tǒng)包括人類進行統(tǒng)一的測試;第二是這些測試方法無法定量分析人工智能,或者只定量分析智能的某個方面,但這個系統(tǒng)究竟達到人類智慧的百分之多少,發(fā)展速度與人類智慧發(fā)展速度比率如何,這些問題在上述研究中沒有涉及。
針對這些問題,研究團隊提出:根據評測目的的不同,智能系統(tǒng)的智能水平評估存在三種智商,分別是:智能系統(tǒng)的通用智商,服務智商和價值智商。這三種智商的理論基礎,詳細定義和評測方法將在以下內容中做詳細闡述。
1.理論基礎:標準智能系統(tǒng)和擴展的馮諾依曼架構
對智能系統(tǒng)包括人類和人工智能系統(tǒng)的智力能力進行評測面臨兩個重要挑戰(zhàn):第一,人工智能系統(tǒng)目前沒有形成統(tǒng)一的模型;第二,人工智能系統(tǒng)與以人類為代表的生命體之間的比較目前沒有統(tǒng)一的模型。
針對這一問題,2014年 ,中科院虛擬經濟與數(shù)據科學研究中心同時也是未來智能實驗室研究團隊成員,劉鋒,石勇,劉穎參考馮·諾伊曼結構、戴維·韋克斯勒人類智力模型、知識管理領域DIKW模型體系等。提出“標準智能模型”,統(tǒng)一描述人工智能系統(tǒng)和人類的特征和屬性,將任何一個智能體視為一個具有“知識的獲取,掌握,創(chuàng)新和反饋”的系統(tǒng)。
基于這個模型與馮諾依曼架構結合,可以形成擴展的馮諾依曼架構,相比馮諾依曼架構,這個模型增加了創(chuàng)新創(chuàng)造功能,即能夠根據已有的知識,發(fā)現(xiàn)新的知識元素和新的規(guī)律,使之進入到存儲器,供計算機和控制器使用,并通過輸入/輸出系統(tǒng)與外部進行知識交互。第二個增加的是能夠進行知識共享的外部知識庫或云存儲器,而馮·諾伊曼架構的外部存儲只為單一系統(tǒng)服務。擴展的馮諾依曼架構在構建AI的智商中將起到重要的作用。