現(xiàn)在有一個(gè)大問題,有數(shù)據(jù)的企業(yè)好多商業(yè)模式并不以數(shù)據(jù)為引領(lǐng),比如BAT,三大運(yùn)營(yíng)商,很多人想他們數(shù)據(jù)太有價(jià)值,他們的主業(yè)目前并不是以數(shù)據(jù)模式為引領(lǐng),三大運(yùn)營(yíng)商數(shù)據(jù)所占的收入只有很少的比例。包括征信企業(yè)和大數(shù)據(jù)應(yīng)用企業(yè)以及APP開發(fā)者,他們都想基于某一類數(shù)據(jù)圍繞以數(shù)據(jù)為核心的商業(yè)模式,偏偏這些數(shù)據(jù)沒數(shù)據(jù),這就是擺在今天的現(xiàn)實(shí),盡管近今年的商業(yè)模式出來的不少,這還是一個(gè)主要矛盾,第一個(gè)問題解決數(shù)據(jù)源是唯一的出路,或者你自己有本事自己生產(chǎn)大數(shù)據(jù),BAT也互相用對(duì)方的數(shù)據(jù),除非混合起來。但是把數(shù)據(jù)源流通匯集并不是我們的最終目的,我們的最終目的讓讓這些數(shù)據(jù)實(shí)現(xiàn)變現(xiàn)和價(jià)值增值,這是我們提出的幾個(gè)問題和解決辦法。具體怎么解決,有一個(gè)數(shù)據(jù)銀行的模式?人民幣在哪兒流通,銀行是最主要的流通方式,現(xiàn)在我們看到很多傳統(tǒng)銀行去吸納存款,這有很多種方式,可能政府部門的發(fā)工資,商業(yè)部門的帳款往來,和公司商品交易的流水大家都愿意存在銀行,數(shù)字銀行業(yè)想干這個(gè)事兒,我們想把兩端打通,真正有價(jià)值的數(shù)據(jù)的企業(yè)不以數(shù)據(jù)為主要引領(lǐng)模式,但是想做以數(shù)據(jù)為商業(yè)模式的機(jī)構(gòu)找不到數(shù)據(jù),所以我們?cè)趦啥酥g通過數(shù)據(jù)銀行的模式打通。第一個(gè)要做銀行存款的吸納,數(shù)據(jù)獲取,數(shù)據(jù)堂有一些嘗試跟大家分享一下。
第一是數(shù)據(jù)四大家族,線下的數(shù)據(jù)很難搜集到。比如在天通苑,我想做一個(gè)數(shù)據(jù)分析的項(xiàng)目,我把一個(gè)月的數(shù)據(jù)找出來,但是天通苑菜市場(chǎng)的價(jià)格怎么辦,你只能去那兒記,線下的數(shù)據(jù)非常分散不太容易獲取,我們想一個(gè)辦法用一個(gè)眾包的方式,在移動(dòng)端做了一個(gè)APP叫眾課堂,我們認(rèn)為在大數(shù)據(jù)時(shí)代下人是一種很好的移動(dòng)數(shù)據(jù)傳感器,大家在這個(gè)會(huì)場(chǎng)里,這個(gè)會(huì)場(chǎng)如果夠智能會(huì)分布一些傳感器,他會(huì)記錄這個(gè)會(huì)場(chǎng)的溫度濕度和其他的一些因素。這個(gè)會(huì)場(chǎng)的傳感器是固定的只能記錄這個(gè)地方的數(shù)據(jù),我們?nèi)耸腔顒?dòng)的,今天早晨我們還在天通苑,中午我們已經(jīng)來到這個(gè)地方。你可以感知這個(gè)體系。所以我們利用線下的力量采集這個(gè)數(shù)據(jù),大概采集兩類數(shù)據(jù),一類是超市商品價(jià)格數(shù)據(jù)飯店菜的價(jià)格數(shù)據(jù)我們還可以感知不同商戶的Wifi熱點(diǎn)數(shù)據(jù)。另外一個(gè)是采集人次的數(shù)據(jù),就是采集人的語音數(shù)據(jù),比如四川話方言,這樣通過移動(dòng)眾包的方式把很多線下分散出去,利用大眾的力量搜集上來,我們?cè)谌ツ瓴杉^超市小票的數(shù)據(jù),很多老頭老太收集小票,第一用途是開發(fā)票,第二是拿手機(jī)把小票一拍傳給我們,我們?cè)儆米R(shí)別技術(shù)把商品價(jià)格名稱記錄下來,假如我每天收集兩千張搜集半年,基本上這半年的消費(fèi)頻次營(yíng)業(yè)流水可以估算出來,這對(duì)于超市是很好的競(jìng)爭(zhēng)數(shù)據(jù)。通過移動(dòng)互聯(lián)網(wǎng)端眾包的方式可以把很多線下數(shù)據(jù)吸納到數(shù)據(jù)銀行里。
第二,我們和很多運(yùn)營(yíng)商和很多機(jī)構(gòu)在合作,他們的數(shù)據(jù)我們也會(huì)一起聯(lián)合開發(fā)做相應(yīng)的產(chǎn)品。第三,我們?cè)诤驼献鳎饾u以一種很開放的心態(tài)把政府的數(shù)據(jù)流通起來,目前的步子相對(duì)小一些,因?yàn)樯婕暗桨踩[私的問題,很多政府?dāng)?shù)據(jù)是非常有價(jià)值的比如工商稅務(wù)的數(shù)據(jù),你在民政局結(jié)婚的數(shù)據(jù),包括在公安局的戶口本的數(shù)據(jù),這也是做家庭征信的很好的數(shù)據(jù),還有在稅務(wù)局納稅的情況,這都是很好的個(gè)人信用的數(shù)據(jù),這一塊的數(shù)據(jù)政府已經(jīng)在逐漸開放,應(yīng)該在兩到三年內(nèi)有一個(gè)很好的基于政府?dāng)?shù)據(jù)的征信應(yīng)用出來,這也是我們和政府合作的。通過若干種方式我們可以看到,通過眾包的方式獲取線下數(shù)據(jù),通過行業(yè)合作,把很多行業(yè)數(shù)據(jù)的系統(tǒng)獲取過來,也有一些數(shù)據(jù)不是在本地的只是在合作客戶那兒,我們通過一個(gè)遠(yuǎn)程的訪問機(jī)制使用就可以了。還有互聯(lián)網(wǎng)大數(shù)據(jù),在座的各位都有計(jì)算機(jī)的能力,可能從網(wǎng)上找一個(gè)爬蟲軟件,今天一天可以把微博數(shù)據(jù)弄千萬條?;ヂ?lián)網(wǎng)的數(shù)據(jù)爬只是第一步,你抓了一億條微博推特,你后面怎么用,還是要用自然語言的數(shù)據(jù)進(jìn)行解析,我們把四大家族的數(shù)據(jù)獲取過來,以合作的方式大家去使用。數(shù)據(jù)堂在若干領(lǐng)域積累的數(shù)據(jù)多一些,金融征信、人工智能、精準(zhǔn)營(yíng)銷等等。
后面是數(shù)據(jù)怎么增值,因?yàn)閿?shù)據(jù)不像礦泉水,從A拿過來經(jīng)過物流給B,這個(gè)交易完成了。數(shù)據(jù)這個(gè)東西中間有很重要的環(huán)節(jié),經(jīng)常的數(shù)據(jù)需求方,他要的并不是原始數(shù)據(jù),我們做的精準(zhǔn)廣告營(yíng)銷,并不要很原始的數(shù)據(jù),我要的是這個(gè)人或者企業(yè)的偏好和愛好,我要的是某種結(jié)果或者處理以后的東西,要想把數(shù)據(jù)流通起來,中間有一個(gè)環(huán)節(jié)是數(shù)據(jù)處理,這涉及到幾塊事情,第一個(gè)是數(shù)據(jù)清洗,這是一個(gè)很麻煩的事情,比如我們拿到了政府好幾個(gè)部門的數(shù)據(jù),工商稅務(wù)人口,這里面涉及到大量的數(shù)據(jù)格式種類不一樣,而且是從不同的系統(tǒng)里上來的。甚至這里面有很多的雜志和垃圾,不可用的。甚至我們看到的數(shù)據(jù)是直接給你一個(gè)Word文檔,你要做一個(gè)清洗,這里面包括脫敏去燥去蟲,為什么我們提出大數(shù)據(jù)概念,因?yàn)楝F(xiàn)實(shí)生活中80%的數(shù)據(jù)是非結(jié)構(gòu)化,每天坐公交地鐵,甚至很多人開車都拿著手機(jī)微信,那是傳遞一條語音數(shù)據(jù),可能大家喜歡在群里分享一些視頻數(shù)據(jù),視頻數(shù)據(jù)是非結(jié)構(gòu)化的,這些數(shù)據(jù)你怎么樣利用,這也是大數(shù)據(jù)這幾年提出的重要的原因。這里面用到一些圖像識(shí)別語音識(shí)別的技術(shù),把海量的圖片、文本視頻數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化才能做分析和挖掘;數(shù)據(jù)清洗和非結(jié)構(gòu)化是相對(duì)苦的事兒,但是有一個(gè)事情是做數(shù)據(jù)關(guān)聯(lián),數(shù)據(jù)之和的價(jià)值大于數(shù)據(jù)價(jià)值之和。很多數(shù)據(jù)從A拿來一個(gè)數(shù)據(jù)B那來一個(gè)數(shù)據(jù)C有一個(gè)數(shù)據(jù),三個(gè)數(shù)據(jù)有關(guān)聯(lián),有的是拿人的維度關(guān)聯(lián),有的拿時(shí)間維度或者地方維度關(guān)聯(lián),在數(shù)據(jù)銀行關(guān)聯(lián)以后可以產(chǎn)生更多價(jià)值。