從本質(zhì)上講,人工智能是一種高階結(jié)構(gòu)。在實踐中,大量松散聯(lián)合的實踐和算法似乎構(gòu)成了大多數(shù)人工智能的組成部分——通??缭皆S多局部領(lǐng)域。事實上,人工智能已經(jīng)遠遠超出了計算機科學(xué)的范疇,涵蓋了神經(jīng)科學(xué)、語言學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)、物理學(xué)、心理學(xué)、生理學(xué)、網(wǎng)絡(luò)科學(xué)、倫理學(xué)等領(lǐng)域。下圖描繪了一組不完全統(tǒng)計的算法,這些算法是第二波人工智能現(xiàn)象的基礎(chǔ),通常被統(tǒng)稱為機器學(xué)習(xí)。
為了實現(xiàn)機器學(xué)習(xí)的某種狀態(tài),有大量的潛在算法和方法存在,這就帶來了一些嚴重的信任問題,特別是對于那些為了確保信任等級而參與軟件測試的人來說。當(dāng)人工智能與任務(wù)臨界狀態(tài)相關(guān)時,就像越來越多的情況一樣,測試人員必須為多個因素建立基礎(chǔ),例如程序一致性、可重復(fù)性、穿透性、應(yīng)用路徑跟蹤,或可識別的系統(tǒng)故障模式。
關(guān)于什么是最合適的人工智能算法這個關(guān)鍵問題的歷史,可以追溯到1976年。人工智能從業(yè)者都面臨著一個復(fù)雜的問題,那就是如何使用合適的算法來適應(yīng)所需的人工智能設(shè)計。給定一個預(yù)期結(jié)果,那么,哪種算法最準(zhǔn)確?哪一種效率最高?在預(yù)期的環(huán)境中,哪一種最容易實現(xiàn)?哪一種隨時間擁有最大的潛力?哪些是最熟悉、最有可能讓用戶參與其中的?設(shè)計是基于某種集中式還是分布式代理、或者是集群軟件代理?這一切要怎么進行測試呢?
這些問題表明,在各種與人工智能相關(guān)的算法和技術(shù)之間存在必要的設(shè)計權(quán)衡。這么多人工智能可替代方法的存在表明,大多數(shù)人工智能架構(gòu)都遠非那么一致或有凝聚力。更糟糕的是,對于推理和學(xué)習(xí)系統(tǒng)來說哦,它們都需要高度的基于上下文的個性化。當(dāng)然,這也是在說人工智能測試,因為每一種算法和它的個性化實現(xiàn)都會帶來獨特的深度測試的挑戰(zhàn),即使是在單元級別。
一個高級人工智能測試評估了正確識別和分類圖像的能力。在某些情況下,這項測試已經(jīng)超越了人類做出此類評估的能力。例如,在人面數(shù)據(jù)庫(LFW)中的數(shù)據(jù)集用13000張圖片支持人臉識別技術(shù)的訓(xùn)練,并使用用神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)來校準(zhǔn)面部識別機器學(xué)習(xí)工具。新的自動化人工智能圖像識別工具可以使用這個數(shù)據(jù)表在統(tǒng)計學(xué)上超越人類的面部識別能力。然而,眼前的任務(wù)本質(zhì)上是感性的。這些任務(wù)通過數(shù)學(xué)上相關(guān)的幾何圖形來區(qū)分,但沒有任何形式的高階認知推理。此外,盡管它將選擇性識別的準(zhǔn)確率與人類能力進行了比較,但在這個測試中,底層代碼基礎(chǔ)的其他關(guān)鍵任務(wù)方面仍未得到檢測。
代碼之外
機器學(xué)習(xí)的測試變得更加復(fù)雜,因為在學(xué)習(xí)環(huán)境中需要大量的數(shù)據(jù)集來“訓(xùn)練”人工智能。不僅人工智能應(yīng)該被證明是無懈可擊的,在訓(xùn)練中使用的數(shù)據(jù)理論上也應(yīng)該具有最高的質(zhì)量。然而,在現(xiàn)實世界中,數(shù)據(jù)集往往是不平衡的、稀少的、不連貫的,而且往往是不準(zhǔn)確的。下面的圖片表明,信息經(jīng)常是由解決歧義得到的。即使在受控條件下,使用單個或多個經(jīng)過驗證的數(shù)據(jù)集來訓(xùn)練和測試分類器也會產(chǎn)生顯著的差異。因此,即使是對分類器的受控測試也會變得非常復(fù)雜,必須仔細研究。
其他與信任相關(guān)的因素遠遠超出了代碼的范圍。因為編程既是一種創(chuàng)造性行為,又是一種句法科學(xué),因此它需要一定程度的翻譯解釋。程序員可以將有意的或無意的文化或個人偏見注入到產(chǎn)生的人工智能代碼中??紤]一下程序員的情況,他們創(chuàng)造了一種非常精確的面部識別程序,但忽略了皮膚色素沉著是識別標(biāo)準(zhǔn)中的一個決定性因素。這一動作會使結(jié)果偏離原本由皮膚顏色強化的功能。相反,罪犯的再犯率扭曲了一些以美國為基地的監(jiān)獄釋放決定。這意味著,一些在押人員比其他人更有機會得到提前釋放的數(shù)據(jù)——而無視了普遍的情況。語義上的不一致性可能會進一步危害人工智能代碼的中立性,尤其是在涉及自然語言處理或慣用語音識別的情況下。
一些人認為,所有的IT從業(yè)者都是網(wǎng)絡(luò)安全從業(yè)者。這也對人工智能的發(fā)展和實施產(chǎn)生了巨大的影響。從網(wǎng)絡(luò)安全的角度來看,“誰知道機器知道什么、機器是什么時候知道的?”的問題就變得尤為重要。機器學(xué)習(xí)的東西往往不是很容易被觀察到的,而是被深度編碼的。這不僅會影響新入網(wǎng)的數(shù)據(jù),而且——在物聯(lián)網(wǎng)中——這些數(shù)據(jù)會讓執(zhí)行器觸發(fā)激活器,從而將“學(xué)習(xí)”轉(zhuǎn)化為某種行為。由于缺乏具體的刺激身份和出身,整個人工智能引發(fā)的物聯(lián)網(wǎng)刺激反應(yīng)機制也變得同樣不確定。在任務(wù)關(guān)鍵型系統(tǒng)中產(chǎn)生的行為需要嚴格的驗證。