來自清華大學自然語言處理和深度學習的一個團隊就做了這樣的嘗試。他們?yōu)槿巳哼\動視頻中的每一個人構(gòu)建了一個LSTM模型(long short time memory,一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN模型,被人們大量地用于自然語言處理和機器翻譯),通過自動提取視頻中每一個人的運動軌跡作為訓練數(shù)據(jù),構(gòu)建了能夠準群預(yù)測人群運動狀態(tài)的深度學習模型4。

每一個Agent的LSTM模型,該圖引自:參考文獻4
該模型不僅可以預(yù)測每個人的運動軌跡,同時,它還可以自動為人群的集體運動狀態(tài)進行分類和識別,以便預(yù)警人群的恐慌狀態(tài),防止踩踏的發(fā)生。也可以用來快速識別突發(fā)事件。
類似的,來自英國Sheffield大學和美國哈佛大學的一個團隊嘗試用對抗式機器學習的方法,讓機器通過模仿自動建立多主體模型5。他們將自制的小機器人分成了三組,一組是被模仿對象,它們會按照事先指定的規(guī)則進行復雜的運動;一組是模仿者,它們會混到第一組機器人之中模仿它們的運動行為,從而盡可能地騙過辨別者的法眼;第三組是辨別者,它的任務(wù)就是區(qū)分這些機器人誰是模仿者,誰是被模仿對象。最終的效果是,隨著辨別者識別準確度的提高,模仿者的模仿行為也會越來越逼近被模仿者。于是,我們便可以利用訓練好的模仿者搭建一個逼真的多主體模型,來對被模仿者群體進行模擬。
盡管這些研究仍處于實驗室階段,但是我們不難想象,未來的人工智能將可能通過深度學習自動提取主體的運行規(guī)則,從而構(gòu)造大規(guī)模的模擬程序。那個時候,我們將有可能更加逼真地模擬多個體的復雜系統(tǒng),并在其上進行規(guī)劃或政策仿真。
復雜網(wǎng)絡(luò)中的深度學習
為什么深度學習如此厲害?不同的人會給出不同的答案。
因為它有很深的神經(jīng)網(wǎng)絡(luò)層次——一個初學者大概會如是說;
因為它可以學習超大規(guī)模數(shù)據(jù)——一個了解深度學習的行業(yè)從業(yè)人員大概會這么說;
因為深度學習技術(shù)可以自動從數(shù)據(jù)中提取特征——一個深入理解深度學習的科研人員大概會這么回答。
沒錯,深度學習的本質(zhì)并不在層次有多深,數(shù)據(jù)規(guī)模有多大,而在于它自動提取特征的能力。
什么是特征?長度、寬度、顏色、質(zhì)料、形狀,等等都是特征。然而,它們?nèi)渴侨藶槎x的。假設(shè)一種生活在頻率世界之中的生物體,它大概很難看到一個物體的長度和體積。所以面對超大規(guī)模的數(shù)據(jù),我們憑借肉眼已經(jīng)很難提煉特征了,必須把這種能力賦予機器,這才是深度學習的本質(zhì)。
在現(xiàn)代的復雜系統(tǒng)研究中,復雜網(wǎng)絡(luò)已經(jīng)成為了一種標準的通用描述語言。那么我們怎樣用深度學習的方式自動提取大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)特征呢?
我們知道,復雜網(wǎng)絡(luò)無非就是由點和連邊構(gòu)成的整體。節(jié)點或連邊的特征自然就是由它所在的網(wǎng)絡(luò)環(huán)境(上下文)所決定的。只要我們將每一個點賦予一個n維向量,就得到了整個網(wǎng)絡(luò)的嵌入(n維空間中的一團點云)。
我們可以把語言中出現(xiàn)在同一句話的單詞彼此相連構(gòu)成一個所謂的“共現(xiàn)網(wǎng)絡(luò)”,這樣,每一個詞就是一個節(jié)點,連邊就表示同時出現(xiàn)。對于這種網(wǎng)絡(luò),2013年,Google的Miklov開創(chuàng)性地提出了一種用向量表示英語單詞的做法,叫做Word2Vec6。通過掃描大量的文本數(shù)據(jù),Word2Vec可以快速、高效地為每一個單詞構(gòu)造一個向量,即n維空間中的一個點。
相似的單詞,例如紅與粉在空間中會彼此靠近。更有趣的是,同一種意思的單詞在不同語言的空間嵌入中具有相似的位置。例如,如果我們分別用英語和法語進行訓練,那么1,2,3……等數(shù)字會在兩套向量表示下具有相似的位置。如圖所示:

分別用純英文(左)和純法文(右)的語料訓練Word2Vec得到的向量表示。我們會看到,英語的one,two,three……的位置以及對應(yīng)的法語單詞的位置非常相似。與此類似,哺乳類動物在兩種語言的嵌入中也具有相似的位置(下面兩幅圖)。
