“大數(shù)據(jù)”已經(jīng)成為互聯(lián)網(wǎng)上最熱門的概念之一,我看到許多創(chuàng)業(yè)者都開始談?wù)摯髷?shù)據(jù)的商用價(jià)值,創(chuàng)業(yè)項(xiàng)目一定得和“大數(shù)據(jù)”掛鉤,有些人更是把《大數(shù)據(jù)時(shí)代》一書奉為圣經(jīng),仿佛只要買一本祭在家里的某個(gè)角落,自己就有資格高談?wù)撻煛⒅更c(diǎn)江山了。但實(shí)際上,雖然書中洞見了數(shù)據(jù)分析的趨勢(shì)和隱憂,可由于作者Viktor Mayer Sch nberger是一個(gè)典型的學(xué)術(shù)派,并沒(méi)有什么值得稱耀的實(shí)踐經(jīng)驗(yàn),導(dǎo)致此書缺乏落地感,大數(shù)據(jù)商業(yè)應(yīng)用在沒(méi)有可靠技術(shù)支撐的狀況下也只能是一紙空談。
不可否認(rèn)的是,“大數(shù)據(jù)”確實(shí)擁有十分重要的價(jià)值,如今從傳統(tǒng)行業(yè)到互聯(lián)網(wǎng)行業(yè)的很多產(chǎn)品也需要依靠“大數(shù)據(jù)”來(lái)作為功能支撐和核心競(jìng)爭(zhēng)力,借用阿里巴巴數(shù)據(jù)平臺(tái)與產(chǎn)品部數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師占超群(花名離哲)的概括,目前階段,大數(shù)據(jù)解決的主要問(wèn)題分為3類:
1. 拓展傳統(tǒng)的商業(yè)智能(BI)領(lǐng)域。以前針對(duì)大數(shù)據(jù)量的統(tǒng)計(jì)、關(guān)聯(lián)分析、趨勢(shì)預(yù)測(cè)由抽樣變成全量分析、將數(shù)據(jù)回流到各種報(bào)表。
2. 業(yè)務(wù)流程改。對(duì)各種數(shù)據(jù)進(jìn)行聚合分析,用來(lái)做業(yè)務(wù)流程改進(jìn)和考核的依據(jù)。
3. 數(shù)據(jù)商品和商業(yè)應(yīng)用。通過(guò)對(duì)已有數(shù)據(jù)或數(shù)據(jù)處理能力進(jìn)行服務(wù)化或產(chǎn)品化包裝,形成數(shù)據(jù)產(chǎn)品或數(shù)據(jù)服務(wù)。
其中,我們?cè)诨ヂ?lián)網(wǎng)行業(yè)最常見的就是通過(guò)已有的數(shù)據(jù)來(lái)形成數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù),最典型的應(yīng)用場(chǎng)景就是“個(gè)性化推薦”,但這并非是人人都可以染指的概念——我們知道,行業(yè)內(nèi)依靠四個(gè)特征界定“大數(shù)據(jù)”:
第一,Volume,體量巨大,PB級(jí)別;
第二,Variety,數(shù)據(jù)類型繁多;
第三,Veracity,價(jià)值密度低;
第四,Velocity,處理速度快。簡(jiǎn)而言之,需要從不同維度抓取海量數(shù)據(jù)并將其快速轉(zhuǎn)變?yōu)橛行虻目捎眯畔ⅰ?/p>
實(shí)際上,在中國(guó)互聯(lián)網(wǎng),完全具備以上四點(diǎn)特征也只有騰訊、阿里巴巴、百度等較大型公司,對(duì)于一般公司而言,根本就不可能擁有PB級(jí)別的數(shù)據(jù),也無(wú)法支撐高昂的數(shù)據(jù)存儲(chǔ)成本,而且大數(shù)據(jù)方面的技術(shù)人才十分稀缺。最近就有不少創(chuàng)業(yè)團(tuán)隊(duì)告訴我他們產(chǎn)品的愿景,很多想法都十分新穎,但迫于數(shù)據(jù)處理能力,只好選擇“慢慢來(lái)”或者將產(chǎn)品功能閹割。那么,這類公司該如何在“大數(shù)據(jù)”浪潮中崛起呢?
我首先想到的就是利用第三方的數(shù)據(jù)處理服務(wù)平臺(tái),這是一項(xiàng)在海外已經(jīng)比較成熟的業(yè)務(wù),從字面不難理解,這些公司為那些沒(méi)有大數(shù)據(jù)和大數(shù)據(jù)處理能力的公司提供“數(shù)據(jù)”或“服務(wù)”。
服務(wù)可以分為兩大類:基礎(chǔ)服務(wù)和個(gè)性化服務(wù)。
基礎(chǔ)服務(wù)即幫助公司解決數(shù)據(jù)存儲(chǔ)、框架搭建和管理等大數(shù)據(jù)處理的基礎(chǔ)能力,這類公司的代表有Hadoop(分布式軟件框架)管理軟件與服務(wù)提供商Cloudera、非關(guān)系型數(shù)據(jù)庫(kù)MongoDB開發(fā)商 10gen等。
另一類則直接幫助企業(yè)直接打造個(gè)性化解決方案,我認(rèn)為這類公司更適合大部分從整體上就缺乏數(shù)據(jù)能力的中國(guó)的小型互聯(lián)網(wǎng)公司和希望互聯(lián)網(wǎng)化的傳統(tǒng)企業(yè),譬如幫助電商提供個(gè)性化網(wǎng)上購(gòu)物體驗(yàn)的RichRelevance、個(gè)性化和數(shù)字市場(chǎng)營(yíng)銷優(yōu)化服務(wù)提供商Baynote、為廣告商提供數(shù)據(jù)和分析的eXelate,以及數(shù)據(jù)拍賣平臺(tái)BlueKai等。在國(guó)內(nèi),也有一些不錯(cuò)的平臺(tái)開始涌現(xiàn),例如個(gè)性化推薦引擎服務(wù)商百分點(diǎn)。利用這些第三方的服務(wù)和數(shù)據(jù),可以讓小公司的產(chǎn)品也兼具優(yōu)秀的個(gè)性化能力,融入大數(shù)據(jù)時(shí)代。
但我認(rèn)為,還有另一種應(yīng)對(duì)大數(shù)據(jù)浪潮的做法——逆勢(shì)而為。我并不認(rèn)為大數(shù)據(jù)是解決個(gè)性化的唯一方案,同是它還帶有相當(dāng)強(qiáng)的局限性——基于數(shù)據(jù)意為著用數(shù)據(jù)建立模型,從某種意義上說(shuō),它也像是一個(gè)牢籠:設(shè)想一下,如果你所有的信息全部來(lái)自個(gè)性化推薦,那么你很可能錯(cuò)失那些你從未接觸過(guò)的全新領(lǐng)域,而這些開放的、全新的信息不正是互聯(lián)網(wǎng)最迷人之處么?
事實(shí)上,已經(jīng)有些產(chǎn)品這么做了,唐茶計(jì)劃的李如一就曾表示,不會(huì)受數(shù)據(jù)干擾去決定出售/推薦哪一本電子書,而是完全基于他們的個(gè)人對(duì)內(nèi)容的判斷,還有進(jìn)來(lái)比較受關(guān)注的電臺(tái)Fuzz,完全由人工DJ來(lái)推送音樂(lè)。反過(guò)來(lái)想,如果同一類型的產(chǎn)品都具有精準(zhǔn)的大數(shù)據(jù)處理能力,那么它們?yōu)橛脩籼峁┑膬?nèi)容也很可能是千篇一律的,而這些逆勢(shì)而為的產(chǎn)品,反而更像是真正的“個(gè)性化”服務(wù)。