大英圖書館在大數(shù)據(jù)時代會破產(chǎn)嗎?
大英圖書館是英國的國家圖書館,擁有超過1.5億件館藏。大英圖書館不僅大量收錄各種電子出版物,而且已經(jīng)著手保存各種互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容??紤]到大數(shù)據(jù)時代還只是初露頭角,未來人類社會所能產(chǎn)生的各種文本、圖像等信息數(shù)據(jù),無疑還會以指數(shù)級別增長。即使英國政府可以頒布法律使圖書館免費獲得這些信息,保存信息所消耗的成本無疑也會以指數(shù)級別增長。大英圖書館乃至英國政府能否承受如此高的成本,著實令人懷疑。
這個“杞人憂天”的疑問,其實關(guān)系到“數(shù)據(jù)”或者“信息”的經(jīng)濟(jì)學(xué)屬性,即從“要素”或“財貨”角度來看待“數(shù)據(jù)”的成本收益問題。大數(shù)據(jù)理論有一種傾向,認(rèn)為幾乎所有數(shù)據(jù)都是有價值的,至少是具有潛在價值,哪怕暫時不知道如何利用,也許在未來可以得到重新認(rèn)識,因此都值得收集和整理。這看起來似乎很有道理,但從經(jīng)濟(jì)學(xué)的角度看卻是不能成立的,因為經(jīng)濟(jì)學(xué)的核心問題是“效率”,核心視角是“成本—收益”分析。不只是數(shù)據(jù),任何事物都具有所謂“潛在”價值,但如果獲得和保存它的成本超過了收益,那么在經(jīng)濟(jì)學(xué)者看來就是無效率的。
事實上,在信息時代之初,就有學(xué)者指出信息和數(shù)據(jù)具有“零邊際成本”特性,將完全改造經(jīng)濟(jì)學(xué),還有學(xué)者提出“新信息經(jīng)濟(jì)學(xué)”,主張軟件等信息產(chǎn)品免費共享。大數(shù)據(jù)時代仍然面臨同樣的問題。部分學(xué)者主張數(shù)據(jù)是免費公共資源,具有巨大的外部性,最好由政府來提供。但經(jīng)濟(jì)學(xué)的基本邏輯在此仍然是有效的。雖然具有某些新特性,信息和數(shù)據(jù)仍然是“要素”和“財貨”,需要付出成本,并且能夠產(chǎn)生收益。不計成本地收集整理大數(shù)據(jù)是行不通的。類似地,經(jīng)濟(jì)學(xué)效率觀點還對另一個大數(shù)據(jù)觀點——所謂“全體數(shù)據(jù)”代替“隨機(jī)樣本”的新方法提出了挑戰(zhàn)。“全體數(shù)據(jù)”固然有其優(yōu)勢,但放到經(jīng)濟(jì)學(xué)“成本—收益”的框架下來看,其方法本身就未必有效率了。