我們這里使用用戶地址舉例說明,因為地址是用戶自己填寫的,有很多的坑,這就需要大量的洗數(shù)據(jù)工作。首先,第一類是假/錯地址,因為有的商家作弊或是用戶做測試,比如直接就輸入“該地址不存在”、“13243234asdfasdi”之類的情況,這類的地址可以通過程序識別出來。然后,很多情況是很難通過程序識別出來,比如“宇宙路地球小區(qū)”,但這類地址可以被人識別出來。甚至還有連人腦都無法識別的,比如“北京市東四環(huán)中路23號南航大廈5樓540室”,這個地址根本不存在。其次,第二類是真地址,但是因為用戶輸入不標(biāo)準(zhǔn),所以很難處理,比如將“建國門外大街” 縮寫成 “建外大街”,“中國工商銀行”縮寫成“工行”; 比 如錯別字將“朝陽門”寫成“潮陽門”;比如顛倒,將“東四環(huán)中路朝陽公園” 和 “朝陽公園(靠東四環(huán))”;比如別名,將有的寫開發(fā)商的小區(qū)名“東恒國際”,有的則寫行政的地名“八里莊東里”等等等等。

像上面這樣的例子多得不能再多了,如果希望提高數(shù)據(jù)可應(yīng)用的程度,那么必然需要花大量人力通過編寫程序和手動挑選來淘洗數(shù)據(jù)。而隨著投入的邊際效用遞減,數(shù)據(jù)有效性的要求越高,則需要投入的成本就成倍甚至指數(shù)級增長。
三、適宜海量數(shù)據(jù)處理的軟硬件成熟度不夠,成本太高,普及率低下。
從某種意義上來說,“大數(shù)據(jù)”一直存在,只是受限于時代和科技,因為缺乏相應(yīng)的數(shù)據(jù)記錄、分析工具而無法實現(xiàn)。
市場上缺乏兼具業(yè)務(wù)場景普適性和海量數(shù)據(jù)處理能力的數(shù)據(jù)庫軟件大數(shù)據(jù)時代的到來,使得電子商務(wù)、公共管理、SNS等領(lǐng)域幾乎每個與用戶相關(guān)的業(yè)務(wù)數(shù)據(jù)量都在億級別,某些平臺的日系統(tǒng)調(diào)用可能達到百億級別,而且歷史數(shù)據(jù)不能輕易刪除,所以需要能對TB甚至PB級數(shù)據(jù)進行高速處理的數(shù)據(jù)庫。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,如Oracle,mysql, SQL Server等不能很好地滿足用戶需求,而較新的NoSQL數(shù)據(jù)庫也依然沒有達到適應(yīng)不同業(yè)務(wù)場景的需求,目前依然需要根據(jù)用戶不同的業(yè)務(wù)特征來選擇適合的數(shù)據(jù)庫軟件。
私有云和云服務(wù)普及程度太低
所有企業(yè)和個人都或多或少有大數(shù)據(jù)應(yīng)用的需求。但不同的實體有不同的出發(fā)點,更在意安全和自主性的企業(yè)希望構(gòu)建屬于自己的私有云;應(yīng)用需求少,對成本更敏感的企業(yè)則需要在線的即時云服務(wù)。但受限于人們對云技術(shù)的接納程度、云服務(wù)的成本優(yōu)勢尚不明顯等原因,私有云和云服務(wù)普及程度偏低也大大限制了大數(shù)據(jù)的發(fā)展。
四、 數(shù)據(jù)尚未獲得真正意義上的定價和產(chǎn)業(yè)化。
數(shù)據(jù)的公開性與歸屬權(quán)不清晰直接導(dǎo)致了數(shù)據(jù)融合工作被割裂到一個個的獨立的數(shù)據(jù)資產(chǎn)型平臺內(nèi)部。目前的大數(shù)據(jù)應(yīng)用更多是針對公開數(shù)據(jù)和自有數(shù)據(jù)的價值挖掘,數(shù)據(jù)尚未獲得真正意義上的定價和產(chǎn)品化。
在數(shù)據(jù)共享相對成熟的金融體系,以銀行業(yè)為例,跨銀行間的數(shù)據(jù)共享通道是人民銀行與銀監(jiān)會分別牽頭、管理的征信系統(tǒng)與客戶風(fēng)險統(tǒng)計系統(tǒng),均采取“報送數(shù)據(jù)才能享受共享”及“信貸主體本身可申請及授權(quán)查詢”的原則。在未納入眾多信托、小貸、互聯(lián)網(wǎng)金融等機構(gòu)數(shù)據(jù)的情況下,上述數(shù)據(jù)池的維護成本已經(jīng)非常高。那么多新的交易和交互數(shù)據(jù)源如何進行互相融合,并形成一個個類似于金融投資業(yè)的萬得、同花順一樣在細分業(yè)務(wù)場景下成熟且具有應(yīng)用價值的產(chǎn)業(yè)化數(shù)據(jù)池?這是一個問題。
數(shù)據(jù)的產(chǎn)業(yè)化,從破除阻礙的角度看并關(guān)鍵在于兩點,一是數(shù)據(jù)的公開性與歸屬權(quán)需要在法律及政策層面得到更明確的規(guī)范和指引,二是對同類業(yè)務(wù)場景下不同平臺的數(shù)據(jù)制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn);從操作層面看,在應(yīng)用范圍的選擇上,不應(yīng)尋求一步到位或大而全,最好確定到具體的業(yè)務(wù)場景和產(chǎn)品形態(tài);從實現(xiàn)路徑看,寄望于行政力量介入模式(類似于銀行間整合)的可行性不高,也許“平臺還數(shù)據(jù)于用戶,通過第三方機構(gòu)公證數(shù)據(jù)真實性,用戶再授權(quán)進行跨平臺融合”才是一條可以期待的路。