文/新智元
藝術(shù)創(chuàng)作一直是人類精神活動(dòng)的最高級(jí)形式,自古以來,人們認(rèn)為只有人類的智慧才能真正領(lǐng)悟藝術(shù)作品的深遠(yuǎn)意境和奧妙神韻,玄而又玄的藝術(shù)風(fēng)格更是只可意會(huì),不可言傳。近些年來,機(jī)器視覺和人工智能的發(fā)展正在將藝術(shù)拉下神壇,幾乎人類智能的一切領(lǐng)域都正在被人工智能所解構(gòu)和顛覆??梢院敛豢鋸埖恼f,人工智能似乎很快就能夠達(dá)到“蟲二”(風(fēng)月無邊)的境界。
在視覺藝術(shù)領(lǐng)域,抽象的藝術(shù)風(fēng)格已經(jīng)可以被嚴(yán)密數(shù)學(xué)化,并且可以被提取,變換和轉(zhuǎn)移。一幅藝術(shù)作品,其內(nèi)容(content)和風(fēng)格(style)緊密纏繞在一起,似乎是密不可分的,但是兩者又是相對(duì)獨(dú)立的。如何將內(nèi)容和風(fēng)格相剝離,如何各自表示,如何將不同藝術(shù)作品的內(nèi)容和風(fēng)格有機(jī)結(jié)合,這些都是玄妙而又基本的問題。我們考察一些近期剛剛發(fā)展起來的巧妙算法,看看它們是如何建模并解決這些問題的。
最優(yōu)傳輸方法
我們考察下面兩張圖。第一張是山腳下牧場(chǎng)的田園風(fēng)光,蒼松翠柏,綠草茵茵,艷陽高照,生機(jī)盎然;第二張是古老莊園中的林蔭道,午后斜陽,遍地碎金,藤蘿蔽日,虬枝遮天。第一幅圖像似乎攝于春夏,洋溢著勃勃生機(jī);第二幅圖像似乎是深秋日暮,沒落抑郁。
如果將第一幅圖像的內(nèi)容和第二幅圖像的風(fēng)格相結(jié)合,我們得到第三幅圖像,深秋山腳下的牧場(chǎng),殘陽如血,山林如炬,凄艷欲絕,離恨頓生。
圖像1的內(nèi)容 + 圖像2的風(fēng)格
人類的感知都是基于概率的。這種方法將攝影風(fēng)格抽象為色彩的概率分布。每個(gè)像素的顏色表示成顏色空間的一個(gè)點(diǎn) (紅,綠,藍(lán))。每幅圖像顏色的直方圖(Histogram) 給出了顏色分布的概率分布函數(shù)(PDF)。
陳省身曾經(jīng)說過蒙日-安培方程是最為非線性的偏微分方程。最近,丘成桐團(tuán)隊(duì)給出基于變分法的構(gòu)造性解法。
將視覺圖像的藝術(shù)風(fēng)格理解為色彩空間的概率分布,想法雖然簡(jiǎn)單,但是很多時(shí)候卓有成效。
頻譜能量密度
下圖是將一幅隨意的攝影相片轉(zhuǎn)換成不同風(fēng)格的肖像作品的示例。首先輸入相片和樣本相片之間建立映射,然后將相片進(jìn)行類似小波變換,轉(zhuǎn)換成所謂的
拉普拉斯堆棧(Laplace Stack),在頻率域,計(jì)算每個(gè)頻段的能量密度函數(shù)。將輸入圖片的每個(gè)頻段的能量密度函數(shù)加以調(diào)整,使得其和樣本圖片的能量密度函數(shù)大致吻合。最后施行逆變換,得到輸出圖像。
這種方法可以改變圖像的顏色,對(duì)比度,光照,散聚焦, 同時(shí)保留表情,姿態(tài),形狀,透視和焦距。這種方法將藝術(shù)風(fēng)格理解為多尺度下,圖像局部統(tǒng)計(jì)特性,特別是局部對(duì)比度的統(tǒng)計(jì)特性。第一種方法只是做了全局的統(tǒng)計(jì),丟失了多尺度和局部統(tǒng)計(jì)信息。但是,這種方法需要輸入圖像和樣本圖像比較接近,因此局限性較大,不如最優(yōu)傳輸法靈活。
深度學(xué)習(xí)法
人類的視覺計(jì)算是一個(gè)非常復(fù)雜的過程,如圖 6 所示,在大腦皮層上有多個(gè)視覺功能區(qū)域(v1 至 v5等),低級(jí)區(qū)域的輸出成為高級(jí)區(qū)域的輸入。低級(jí)區(qū)域識(shí)別圖像中像素級(jí)別的局部的特征,例如邊緣折角結(jié)構(gòu),高級(jí)區(qū)域?qū)⒌图?jí)特征組合成全局特征,形成復(fù)雜的模式,模式的抽象程度逐漸提高,直至語義級(jí)別。如圖 7 所示,我們可以毫不費(fèi)力地辨認(rèn)出左幀是奧巴馬的肖像,右?guī)莾芍煌米拥陌酌?。其?shí),圖中大量信息丟失,但是提供了足夠的整體模式。由此可見,視覺高級(jí)中樞忽略色彩,紋理,光照等局部細(xì)節(jié),側(cè)重整體模式匹配和上下文關(guān)系,并可以主動(dòng)補(bǔ)充大量缺失信息。