1. 選擇金庸的作品只是因?yàn)橛鞋F(xiàn)成的金庸詞庫(kù),本來(lái)還想弄古龍的呢,結(jié)果古龍的沒(méi)有現(xiàn)成的詞庫(kù),傷心。
2. 明顯的,字?jǐn)?shù)少的作品占劣勢(shì),畢竟連接數(shù)要少很多呢。
3. “連接關(guān)系”的定義和思喆的明朝那些事兒一樣,就是在同一個(gè)段落中出現(xiàn)。當(dāng)然,也可以放寬到上下若干段落之內(nèi),不過(guò)現(xiàn)在已經(jīng)夠復(fù)雜的了,再放寬不見(jiàn)得多多少信息量。
4. 可視化部分由Gephi搞定,文本分析部分由R搞定,各取所長(zhǎng)嘛。
5. 同義詞替換。1.20的上海R沙龍上很多朋友提出來(lái),應(yīng)該有一些基本的同義詞替換,比如“楊過(guò)”也可稱(chēng)為“過(guò)兒”,小龍女亦作“龍兒”和“姑姑”。這樣的替換需要建立一個(gè)針對(duì)金庸的同義詞詞典,暫時(shí)還沒(méi)有現(xiàn)成的資源。
6. 同樣是沙龍的朋友提出來(lái)的,對(duì)于關(guān)系的定義應(yīng)該更明確一點(diǎn),不單單是出現(xiàn)在同一段落。金庸的還好,古龍的文風(fēng)就更加飄逸,不適合這樣定義。然而更細(xì)致的定義需要對(duì)金庸的文字進(jìn)行更深入的理解,進(jìn)行一些語(yǔ)義分析,還有待進(jìn)一步對(duì)于語(yǔ)言理解的深入。
作者: Liyun
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):