Word2Vec中涌現(xiàn)的向量差關系:,其中藍色的向量(深藍和淺藍)都表示用Word2Vec學習得到的單詞向量。它們彼此之間的差向量(紅色箭頭),表達了最高權力關系也近似相等 。
更讓人震驚的是,單詞之間的關系也可以自動地被Word2Vec學到,如上圖這個著名的公式:v(男人)-v(女人)=v(國王)-v(王后),其中v(x)表示x這個單詞的詞向量。也就是說,機器會自己學習到男人相對于國王相當于女人相對于王后。所以,除了將每個單詞進行向量表示以外,Word2Vec還可以隱式地學習到“最高權力”這種抽象關系。
與此類似,很多概念之間會存在著上下位的層級關系。例如,“動物”就是“昆蟲”的上位詞,而“昆蟲”又是“蜻蜓”的上位詞。我們用這些單詞的向量表示分別做減法,就可以用差向量來表示這種抽象的關系9。如圖:

Word2Vec學習得到的詞語之間的層級關系:首先讓Word2Vec學習大量的中文語料,這樣每個單詞會對應一個表示(藍色的點)。其次,我們尋找所有的上下位詞層級關系,比如工人與木匠,或者運動員與足球運動員,并將它們的向量表示分別相減得到了上下位詞的差向量。我們發(fā)現(xiàn),這些差向量如果是同一種類別的話,比如工人-木匠,以及工人-園丁,則非常相似。所以,Word2Vec學習得到的向量表示蘊含了一種關系表示。該圖摘自:參考文獻9
然而,這種蘊含的關系表示并不十分明確,存在著很大的誤差。于是,人們想出了各種方法來改進,其中一種比較徹底的方式是,將所有的名詞實體和各種關系(包括上下位、同義詞等)分別嵌入到不同的空間(即實體空間和關系空間),這樣可以更全面、更準確地來表達它們10。
與此類似,我們還可以用這種方法處理其它的不同網(wǎng)絡。

利用與Word2Vect類似的DeepWalk算法10得到的“跆拳道俱樂部”(左側)網(wǎng)絡的嵌入(右側)。其中節(jié)點是人,連邊是好友關系。在這個俱樂部中,存在著4個相對獨立的社團,分別被標注了不同的顏色。摘自參考文獻7
得到這些向量表示又有什么用呢?它的用途有很多,例如,通過向量表示可以發(fā)現(xiàn)節(jié)點之間的聚類,我們只要將表示空間中彼此靠近的節(jié)點劃分為一類就可以,如下圖:

該圖是將帶參數(shù)的網(wǎng)絡嵌入Node2Vec算法在兩種不同參數(shù)條件下用于同一個網(wǎng)絡(上、下),并根據(jù)向量表示做聚類分析后得到的可視化效果。其中同一種顏色對應同一種聚類。上圖得到的聚類是網(wǎng)絡的社團劃分。下圖的聚類得到的卻是生態(tài)位(葉子節(jié)點、橋接節(jié)點以及中心節(jié)點)的劃分。摘自文獻8
更重要的是,這些花樣繁多的向量表示解決了每個節(jié)點的特征描述問題以作為節(jié)點分類和預測問題的基礎。一般情況下,節(jié)點的向量表示就是機器自發(fā)學習出來的節(jié)點特征,該特征反應的是每一個節(jié)點所在整個網(wǎng)絡之中的生態(tài)地位。
于是,根據(jù)機器學習得到的特征,運用神經(jīng)網(wǎng)絡技術,我們便可以進行節(jié)點的分類與預測了。我們可以通過社交網(wǎng)絡識別哪一個節(jié)點更可能是恐怖分子。我們也可以根據(jù)一篇文章在引文網(wǎng)中的地位預測它是否可以獲得諾貝爾獎提名,等等。
圖卷積神經(jīng)網(wǎng)絡
我們知道,現(xiàn)在的深度學習技術最主要的突破其實都是在圖像識別領域和自然語言領域。從技術上講,圖像屬于一種靜態(tài)的二維數(shù)組,而自然語言實際上可以看做一種時間上的符號序列。它們都有非常標準的數(shù)據(jù)結構。
但是,網(wǎng)絡或者圖,卻是一種介于二維數(shù)組和一維序列之間的不規(guī)則數(shù)據(jù)類型。我們不能把網(wǎng)絡看做圖像,因為網(wǎng)絡的節(jié)點之間沒有圖像的像素之間那樣規(guī)整的鄰域關系。我們同樣不能把網(wǎng)絡看做是一維的節(jié)點和連邊序列,因為我們任意顛倒節(jié)點之間的順序,卻對應的是同一張網(wǎng)絡。
于是,問題來了。既然深度學習可以在圖像識別以及自然語言處理中大展身手,那么是否也能在復雜網(wǎng)絡的相關任務中嶄露頭腳呢?