系列回顧:
趨勢:大數(shù)據(jù)代表未來,投資力度增強
獨家:最新大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀和主要子行業(yè)介紹
36大數(shù)據(jù)專稿,拒絕轉(zhuǎn)載!
一、數(shù)據(jù)的歸屬權(quán)不清晰,數(shù)據(jù)資產(chǎn)型企業(yè)私密占有平臺數(shù)據(jù),制約著大數(shù)據(jù)的融合及發(fā)展。
阿里巴巴,這家集B2B、B2C、C2C電商平臺與第三方支付于一身的巨無霸企業(yè),在2009年前后開始低調(diào)試水小貸業(yè)務(wù),并在之后成立了阿里金融事業(yè)部?;诎⒗锲脚_所累積信用和行為數(shù)據(jù)的全新風險管理模式,快速靈活的放款審批流程,為需求旺盛但供給遠遠不足的小微企業(yè)小額信貸業(yè)務(wù)打開了一條別樣的路。阿里金融從出現(xiàn)開始便受到了廣泛關(guān)注和討論。許多機構(gòu)和個人都向往之,也對其模式了解得清楚明白,但均默默然而無法復制。究其原因,就在于“阿里平臺獨有的沉淀信用及行為數(shù)據(jù)”——數(shù)據(jù),阿里金融的獨門利器。
無論已有的金融交易軟件(如金太陽、大智慧等),亦或電商平臺、O2O平臺、第三方支付平臺,還是SNS 和其他交互數(shù)據(jù)源;現(xiàn)狀是——原始數(shù)據(jù)存儲在平臺后端,被平臺掌握者控制,數(shù)據(jù)的創(chuàng)造者(平臺用戶們)是否掌握與自己相關(guān)的數(shù)據(jù)取決于平臺的開放性和接口提供。平臺企業(yè)們互相獨立地像挖礦一樣在沉淀數(shù)據(jù)中淘金,各自取得一些不錯的成果,但事實上數(shù)據(jù)的私密占有也嚴重制約著大數(shù)據(jù)的廣泛應用和整體發(fā)展。
那么,數(shù)據(jù)到底是誰的?是平臺企業(yè)的,還是數(shù)據(jù)創(chuàng)造者(平臺用戶)的?還是既是平臺企業(yè)的,也是平臺用戶的?什么樣的數(shù)據(jù)是公開的,什么樣的數(shù)據(jù)是私密的?
一般認為,原始數(shù)據(jù)沉淀在平臺上,平臺實際占有并可以使用,但在未獲授權(quán)的情況下不能提供給第三方,用戶對原始數(shù)據(jù)的占有獲取權(quán)及公開程度基本取決于用戶與平臺達成的協(xié)議(多為安裝平臺軟件前的“用戶須知”部分,用戶除用腳投票外并無實際協(xié)議制定權(quán));而平臺對原始數(shù)據(jù)經(jīng)過統(tǒng)計提煉獲得的其他信息屬于平臺企業(yè)。
參考國外立法,數(shù)據(jù)是屬于個人的,平臺企業(yè)可以解除、使用數(shù)據(jù)不代表個人放棄對數(shù)據(jù)的所有權(quán)。國際立法趨勢上看,信息主體的權(quán)利正在強化,如信息主體的遺忘權(quán)、轉(zhuǎn)移權(quán);信息控制主體的責任更加明晰,如明確了負有個人信息保護義務(wù)的服務(wù)提供商范圍、要求服務(wù)提供商設(shè)置個人信息保護專職崗位,增加了服務(wù)提供商對侵權(quán)行為的通知義務(wù),便于用戶采取預防和減損措施。
國內(nèi)的政策法規(guī)方面:2012年12月28日,全國人大常委會出臺《全國人大常委會關(guān)于加強網(wǎng)絡(luò)信息保護的決定》,對網(wǎng)絡(luò)信息保護進行了原則性的規(guī)定;2013年7月,工信部出臺《電信和互聯(lián)網(wǎng)用戶個人信息保護規(guī)定》;除此以外,《信息安全技術(shù)、公共及商用服務(wù)信息系統(tǒng)個人信息保護指南》作為我國首個個人信息保護的國家標準,雖然不具有法律上的強制約束效力,但具有指南性,亦可作為衡量互聯(lián)網(wǎng)企業(yè)是否有過失的參考性標準;目前,我國正在起草《電子商務(wù)法》,強化對平臺的監(jiān)管。
二、數(shù)據(jù)有效性將直接影響到大數(shù)據(jù)的應用水平。
數(shù)據(jù)的質(zhì)量
大數(shù)據(jù)就像砂金礦,為了開采出金子,人們需要不斷的淘沙,淘出沙金,然后再經(jīng)過冶煉獲得千足金。而數(shù)據(jù)質(zhì)量就相當于砂金礦的含金量和成色,良好的數(shù)據(jù)質(zhì)量是挖掘價值的基本保障。
我們認為,數(shù)據(jù)質(zhì)量主要涵蓋兩個大方面:一是基本質(zhì)量,包含準確性、一致性、容量和更新率4個要點;二是可應用性,包含易識別性、易處理性、獲取及時性、遠程訪問性和智能性5個要點;詳情見下表。

洗數(shù)據(jù)的難度
在大數(shù)據(jù)應用中,有一項極其重要也極其困難的工作,那就是“洗數(shù)據(jù)”。洗數(shù)據(jù)就是把大量包含無效數(shù)據(jù)、分布雜亂無章的原始數(shù)據(jù)進行歸并聚合,通過建立數(shù)據(jù)標準并執(zhí)行來取得我們需要的分析樣本的過程。
正所謂:Garbage In, Garbage Out! 數(shù)據(jù)挖掘的領(lǐng)域內(nèi)有一個觀點:如果數(shù)據(jù)準確度在60%的時候,你干出來的事,一定會被用戶罵;如果數(shù)據(jù)準確度在80%左右,那么用戶會說,還不錯;只有數(shù)據(jù)準確度到了90%的時候,用戶才會覺得真厲害。但是從數(shù)據(jù)準確度從80%到90%要付出的成本要比60%到80%的付出大得多得多。大多數(shù)據(jù)的數(shù)據(jù)挖掘團隊都會止步于70%這個地方,因為再往后,這就是一件相當累的活,絕對少不了大量人力的工作。