事到如今,大家一定已經發(fā)現(xiàn)《布谷鳥的呼喚》這本犯罪小說的作者羅伯特·加爾布雷思根本不是什么新手作家,而是風靡全球的哈利·波特系列小說之母J.K.羅琳。這項秘密一直不為人知,直到英國《星期日泰晤士報》美術編輯Richard Brooks收到一條匿名twitter消息后,羅伯特就是羅琳的內幕才大白于天下。為了證明該說法的真實性,他甚至雇傭了一位私家偵探(這與<布谷鳥的呼喚>中的情節(jié)非常相似)展開進一步調查。
相關新聞閱讀:羅琳用筆名寫偵探小說《布谷鳥的呼喚》賣不掉 作者曝光后銷量激增
最終,大數(shù)據(jù)分析破解了羅琳的身份之謎。Brooks先生在兩位語言證據(jù)計算機科學家的協(xié)助下,對《布谷鳥的呼喚》、《臨時空缺》以及哈利波特最后一部《哈利波特與死亡圣器》進行了比對,查看三者是否存在共性??吹竭@里,身為技術人士的朋友一定按捺不住內心的激動之情了。
文本、twitter與狀態(tài)更新中的線索
大家也許以為自己幾年前隨手寫下的博文或者短消息微不足道,然而隨著計算機性能的逐步提升、高復雜性統(tǒng)計分析工作已經不再是難以解決的難題。目前研究人員開始從知名作品的字里行間找尋與作者有關的蛛絲馬跡。當然,這還僅僅是研究工作中的一部分內容。
快訊研究者:他們同樣關注知名度不高的文本對象。博客、twitter、Facebook更新、聊天論壇甚至Amazon中的購物評論都可以成為他們研究用戶生活方式與購買習慣的重要依據(jù)。無論大家是否已經意識到這一點,任何我們刻意選擇的詞語都會傳達出一部分特定訊息。即使對表達方式進行刻意掩飾,每一條新消息都會不可避免地泄露編寫者的零散狀況。
《國家地理》刊發(fā)的一篇文章講述了計算機科學家們證明J.K.羅琳身份的過程:
“最近出現(xiàn)一種風潮,認為計算機足以如探員般從文本中發(fā)現(xiàn)隱藏著的潛臺詞與深層信息。文學作品中存在一種作者自身無法控制、讀者也很難感知的信息,這種因素類似于寫作行為的DNA、簽名或者指紋,”牛津大學專家、《星期日泰晤士報》顧問之一Peter Millican表示。
Rowling.Brooks接觸的另一位專家是Patrick Juola,他和他的學生花了十年時間開發(fā)出一套名為JGAAP的計算機程序。通過該程序對兩本著名的分析,數(shù)據(jù)研究者們最終非常肯定地通知《星期日泰晤士報》:《布谷鳥的呼喚》的真正作者確實是J.K.羅琳。
下面我們一起來看識別出羅琳真正身份的分析方法與線索。
大數(shù)據(jù)識破秘密的五種方式:
- 對每本書中的所有單詞以成對或者相鄰短語方式加以比對;
- 通過“字尾”搜索或相鄰字符排列進行測試;
- 畢竟每本書中使用頻率最高的100個單詞并比較各單詞出現(xiàn)頻率間的細微差異;
- 根據(jù)詞組長度進行分類,并依單詞含義加以區(qū)分;
- 主成分分析:從六種特點進行比較——單詞長度、句子長度、段落長度、字母出現(xiàn)頻率、標點符號使用頻率以及詞語用法。
- 在五個小時之內,計算機科學家利用語言證據(jù)技術與大數(shù)據(jù)分析機制有理有據(jù)地證明了羅伯特·加爾布雷思正是J.K.羅琳。
在大數(shù)據(jù)面前,沒人能藏得住秘密。
更多詳細信息,請您微信關注“計算網”公眾號: