6月21日,谷歌的圖像識別神經(jīng)網(wǎng)絡(luò)不但可以識別圖像,而且可以制造出人意料的奇幻景象。
機器有什么夢想?谷歌新發(fā)布的一些機器識別圖像為我們給出了一個可能的答案:將不同的景物合成一種奇幻風景。
這些照片是由谷歌的圖像識別神經(jīng)網(wǎng)絡(luò)產(chǎn)生的,該網(wǎng)絡(luò)已被“教育”,以識別建筑物、動物和物體等圖像。

研究人員將圖片輸入圖像識別神經(jīng)網(wǎng)絡(luò),并讓它識別該圖片中的一個特征,并修改圖片以強調(diào)這項特征。修改后的圖象然后被反饋到神經(jīng)網(wǎng)絡(luò),并讓神經(jīng)網(wǎng)絡(luò)再次識別其他特征并強調(diào)它們。最終,這幅圖片被修改得面目全非。
在一個低水平上,這種神經(jīng)網(wǎng)絡(luò)可以被用來檢測圖像的邊界。在這種情況下,這些圖像就像繪畫作品,使用過Photoshop濾鏡的人應該對此感到不陌生:

但是,如果神經(jīng)網(wǎng)絡(luò)被要求識別更復雜的圖像,——例如識別一頭動物,它會產(chǎn)生令人不安的奇幻圖景:

最終,這個軟件可以對隨機噪聲進行識別,但生成的結(jié)果完全屬于自身的想象:

如果你讓一個用來識別建筑物的神經(jīng)網(wǎng)絡(luò)去識別一幅毫無特征的圖像,它將產(chǎn)生這樣的結(jié)果:

這些照片是驚人的,但他們不僅僅是用來展示的。神經(jīng)網(wǎng)絡(luò)具有機器學習的一個共同特征:它不是向計算機輸入程序以讓它能夠識別特定的圖像,而是向它輸入許多圖像,并讓它自己整合這些圖像的關(guān)鍵特征。
但是,這可能會導致軟件更加出人意料。我們很難知道軟件正在審查哪些特征,以及它忽略了哪些特征。例如,研究人員要求神經(jīng)網(wǎng)絡(luò)在一幅隨機噪聲圖像中識別啞鈴,發(fā)現(xiàn)它認為啞鈴一定是有手臂握住的:

解決方案可能是向它輸入更多放在地上的啞鈴圖像,直到它明白手臂并非啞鈴的內(nèi)在組成部分。
“神經(jīng)網(wǎng)絡(luò)面臨的一個挑戰(zhàn)是逐層識別。例如,第一層可以識別邊緣或拐角。中間層識別基本特征,以尋求整體的形狀或部件,例如門或葉子的形狀。最后幾層將這些組合成一個完整的圖像,在識別非常復雜的事情時,——如整個建筑物或樹木,這些神經(jīng)元很活躍。”谷歌的工程師解釋說。
圖像識別軟件已經(jīng)成為消費產(chǎn)品,如谷歌新的照片服務Google Photos。Google Photos可以根據(jù)文本搜索圖像:例如,你輸入“狗”,它將提供谷歌找到的所有包含狗的照片(偶爾也會出現(xiàn)其他四足哺乳動物的照片)。
所以,未來機器人的夢想將不僅僅是制造電子綿羊,它們的夢想是制造出更加令人吃驚的夢幻奇景。