其他應(yīng)用性較強(qiáng)的專門數(shù)據(jù)庫(kù)也可以根據(jù)實(shí)際需要隨機(jī)添加,如邊境管理數(shù)據(jù)庫(kù)、高層訪問(wèn)數(shù)據(jù)庫(kù)、外交談判數(shù)據(jù)庫(kù)、使館領(lǐng)館業(yè)務(wù)數(shù)據(jù)庫(kù)、新聞發(fā)布會(huì)數(shù)據(jù)庫(kù)和外交禮儀數(shù)據(jù)庫(kù)等。與此同時(shí),另一項(xiàng)工作也是大數(shù)據(jù)系統(tǒng)必不可少的,那就是建立基礎(chǔ)性的、戰(zhàn)略性的數(shù)據(jù)庫(kù)。雖然整合國(guó)內(nèi)其他部門現(xiàn)有的基礎(chǔ)數(shù)據(jù)庫(kù)是一個(gè)切入點(diǎn),但它畢竟不是根據(jù)外交決策的特點(diǎn)而建立的,所以也需要新建一批特定的基礎(chǔ)性數(shù)據(jù)庫(kù)。此類數(shù)據(jù)庫(kù)主要儲(chǔ)備那些并非當(dāng)前急用但長(zhǎng)遠(yuǎn)來(lái)看是非常重要的數(shù)據(jù)信息。例如:周邊地區(qū)數(shù)據(jù)庫(kù);大國(guó)資源數(shù)據(jù)庫(kù);海洋資源數(shù)據(jù)庫(kù);國(guó)外精英數(shù)據(jù)庫(kù);國(guó)外選民資料數(shù)據(jù)庫(kù);華人華僑數(shù)據(jù)庫(kù);全球氣候數(shù)據(jù)庫(kù);全球智庫(kù)數(shù)據(jù)庫(kù);國(guó)際組織數(shù)據(jù)庫(kù);國(guó)際會(huì)議數(shù)據(jù)庫(kù);海外利益數(shù)據(jù)庫(kù);對(duì)外援助數(shù)據(jù)庫(kù);能源安全數(shù)據(jù)庫(kù);核安全數(shù)據(jù)庫(kù);國(guó)際會(huì)議數(shù)據(jù)庫(kù);公共衛(wèi)生數(shù)據(jù)庫(kù);銀行信用卡數(shù)據(jù)庫(kù);貿(mào)易金融數(shù)據(jù)庫(kù);武器交易數(shù)據(jù)庫(kù),等等。這些數(shù)據(jù)庫(kù)有些可以根據(jù)公開資料進(jìn)行建設(shè),有些可以直接通過(guò)商業(yè)渠道從國(guó)外購(gòu)買。
建設(shè)一個(gè)完備的外交決策大數(shù)據(jù)系統(tǒng),是一項(xiàng)工作量浩繁的巨大工程。如果按照傳統(tǒng)的線性思維,按照小數(shù)據(jù)的建設(shè)方法,是無(wú)法完成這一任務(wù)的。只有采取分布式的計(jì)算方法,按照分工承包的原則,讓更多的人力資源參與到建設(shè)過(guò)程中去,這樣外交決策大數(shù)據(jù)系統(tǒng)才有可能建成。以建設(shè)周邊地區(qū)數(shù)據(jù)庫(kù)為例,外交部門人員雖然對(duì)周邊地區(qū)的外交事務(wù)非常熟知,但超越了這一范圍,他們就會(huì)遇到知識(shí)的瓶頸。他們可能對(duì)哈薩克斯坦的外交部門情況很了解,但他們對(duì)東哈薩克斯坦州長(zhǎng)的情況就不會(huì)很清楚,而這個(gè)州長(zhǎng)今后可能會(huì)被派駐中國(guó)大使館擔(dān)任公參。他們可能對(duì)吉爾吉斯斯坦的政治高層很熟悉,但他們對(duì)支配吉爾吉斯斯坦政局的七大家族的財(cái)務(wù)狀況茫然無(wú)知,更不知道這些家族的富二代正在歐洲學(xué)習(xí),是未來(lái)吉爾吉斯斯坦政治領(lǐng)袖的人選。這些情況邊疆地區(qū)可能會(huì)知道,因?yàn)樗麄冇凶约旱南⑶馈?/p>
因此在建設(shè)外交決策大數(shù)據(jù)系統(tǒng)時(shí)讓地方參與進(jìn)來(lái),讓這些被“閑置”的人力資源發(fā)揮作用,是一種明智的選擇。因此,在建設(shè)周邊地區(qū)數(shù)據(jù)庫(kù)時(shí)可考慮地方參與。比如,中亞地區(qū)由新疆負(fù)責(zé);朝鮮半島由吉林和山東負(fù)責(zé);南亞地區(qū)由四川和西藏負(fù)責(zé);遠(yuǎn)東地區(qū)由黑龍江負(fù)責(zé);蒙古由內(nèi)蒙負(fù)責(zé);日本由上海負(fù)責(zé);東盟由廣西和云南負(fù)責(zé);福建和廣東負(fù)責(zé)臺(tái)港澳地區(qū);北京負(fù)責(zé)總體協(xié)調(diào)(27)。為了強(qiáng)調(diào)這項(xiàng)工作的戰(zhàn)略意義,周邊地區(qū)數(shù)據(jù)庫(kù)建設(shè)采用一把手負(fù)責(zé)制,其負(fù)責(zé)協(xié)調(diào)本地區(qū)的智力資源參與數(shù)據(jù)庫(kù)的建設(shè)與更新。這種模式的優(yōu)點(diǎn)在于,充分利用邊疆地區(qū)與周邊鄰國(guó)官民、政商、族群和親戚等多層次的密切關(guān)系,將地方層面的數(shù)據(jù)納入大數(shù)據(jù)系統(tǒng),進(jìn)而彌補(bǔ)外交部門的數(shù)據(jù)盲區(qū)。
大數(shù)據(jù)庫(kù)建成之后,下一步工作就是數(shù)據(jù)分析和數(shù)據(jù)挖掘。沒(méi)有數(shù)據(jù)分析,外交決策大數(shù)據(jù)系統(tǒng)就沒(méi)有方向,里面的數(shù)據(jù)只是一堆有待提煉的原料。數(shù)據(jù)分析的目的就是提煉數(shù)據(jù)的價(jià)值,找出事物的內(nèi)在聯(lián)系,預(yù)測(cè)事物發(fā)展的趨勢(shì),幫助管理者進(jìn)行判斷和決策。不同的時(shí)代有不同的數(shù)據(jù)分析法。在小數(shù)據(jù)時(shí)代,對(duì)數(shù)據(jù)的精確性有嚴(yán)格的要求,因此限于能力,一般只能采用隨機(jī)樣本分析。常用的方法有對(duì)比分析法、因子分析、綜合運(yùn)用頻率和百分?jǐn)?shù)統(tǒng)計(jì)、矩陣分析和回歸分析等。但在大數(shù)據(jù)時(shí)代,小數(shù)據(jù)時(shí)代的分析方法已經(jīng)失去意義。面對(duì)海量的數(shù)據(jù),人們對(duì)數(shù)據(jù)的精確性要求大為降低,數(shù)據(jù)分析的主要方法是建立數(shù)據(jù)之間的相關(guān)關(guān)系,它關(guān)注“是什么”而不是“為什么”。
谷歌公司有過(guò)成功的案例。谷歌曾經(jīng)通過(guò)觀察人們?cè)诰W(wǎng)上的搜索記錄預(yù)測(cè)到美國(guó)冬季流感的爆發(fā),還可以具體到特定的地區(qū)和州。谷歌服務(wù)器里儲(chǔ)存著天文數(shù)字般的搜索指令,它抽出5000萬(wàn)條美國(guó)人最頻繁檢索的詞條和美國(guó)疾控中心在2003年至2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,并建立了數(shù)學(xué)模型。然后谷歌將其中的45條檢索詞條的組合放進(jìn)特定的數(shù)學(xué)模型,結(jié)果做出了比疾控中心還及時(shí)準(zhǔn)確的流感預(yù)測(cè)(26)。另一個(gè)很有說(shuō)服力的案例是美國(guó)交通事故的降低。美國(guó)在1966年有9400萬(wàn)輛汽車,當(dāng)年交通事故死亡人數(shù)高達(dá)5萬(wàn)人。2009年,美國(guó)汽車數(shù)量高達(dá)2.4億輛,但交通死亡人數(shù)卻降至3萬(wàn)人。原因是,美國(guó)交通部門經(jīng)過(guò)數(shù)據(jù)分析,找出了事故高發(fā)的日期段、時(shí)間段和年齡段,并發(fā)現(xiàn)有些州沒(méi)有查安全帶也是重要原因,因此采取了針對(duì)性的整改措施,大幅度降低了交通事故的發(fā)生概率(27)。沃爾瑪?shù)慕?jīng)典案例經(jīng)常被人引用。沃爾瑪決策部門通過(guò)銷售數(shù)據(jù)分析發(fā)現(xiàn),每個(gè)周末啤酒和尿布的銷售成正比例增長(zhǎng),原因在于,每到周末女人會(huì)在家做家務(wù),男人則出門購(gòu)物,會(huì)買尿布,這時(shí)候男人趁機(jī)買點(diǎn)啤酒犒勞自己,于是啤酒和尿布就同步增長(zhǎng)。這就是數(shù)據(jù)分析的魅力所在。