因此在政策導(dǎo)向上,為要實(shí)現(xiàn)大數(shù)據(jù)、小數(shù)據(jù)相得益彰推動經(jīng)濟(jì)發(fā)展的目標(biāo),在促進(jìn)發(fā)展大數(shù)據(jù)的同時也要大力發(fā)展小數(shù)據(jù)相關(guān)產(chǎn)業(yè),推動小數(shù)據(jù)相關(guān)研究與合作,使大數(shù)據(jù)與小數(shù)據(jù)齊頭并進(jìn)、互為補(bǔ)充。
(三) 提高大數(shù)據(jù)使用的透明度,加強(qiáng)對大數(shù)據(jù)質(zhì)量的評估
大數(shù)據(jù)面臨的透明度問題遠(yuǎn)比小數(shù)據(jù)嚴(yán)重。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個關(guān)鍵詞是哪些;雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法,但是谷歌并沒有公開相應(yīng)數(shù)據(jù)、也沒有解釋這類數(shù)據(jù)是如何搜集的。我國大數(shù)據(jù)相關(guān)企業(yè)的數(shù)據(jù),也鮮有學(xué)者可以獲得并用于做研究的例子。
與透明度相關(guān)的就是大數(shù)據(jù)分析結(jié)果的可復(fù)制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù),因此就難以復(fù)制、評估采用該數(shù)據(jù)分析結(jié)果的可靠性。因此利用大數(shù)據(jù)的研究難以形成合力,只能處于案例、個例的狀態(tài)。
另外還要注意到,如果數(shù)據(jù)生成機(jī)制不清晰,研究結(jié)論難以復(fù)制,而算法演化也表明,最終數(shù)據(jù)往往成為使用者和設(shè)計者共同作用的結(jié)果。這種數(shù)據(jù)生成的“黑箱”特征,容易成為企業(yè)或者機(jī)構(gòu)操縱數(shù)據(jù)生成過程和研究報告結(jié)果的溫床。唯有通過推動大數(shù)據(jù)的透明化、公開化,我們才能在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展之初,建立健康的數(shù)據(jù)文化。
因此,在大數(shù)據(jù)時代,為了更好利用大數(shù)據(jù),需要采取相關(guān)措施,增加在大數(shù)據(jù)生成過程的透明度方面的努力。例如,采取措施推進(jìn)數(shù)據(jù)生成企業(yè)在妥善處理隱私信息后,定期公布大數(shù)據(jù)隨機(jī)抽樣數(shù)據(jù)、要求數(shù)據(jù)生成企業(yè)及時公布數(shù)據(jù)算法的變更,鼓勵采用大數(shù)據(jù)的研究實(shí)現(xiàn)可復(fù)制性、便于交叉驗(yàn)證等。
◆ ◆ ◆
五、結(jié)語