幾年前,帶領(lǐng)一幫團隊做“信息管家”。想法很簡單,信息爆炸、資訊海量,現(xiàn)代人不堪重負。如何在最短時間內(nèi),最有效率和最具針對性地滿足個體信息需求服務(wù),這就是該項目要做的事。聰明的你們一看便知,它其實就是一項面向個人的信息推送服務(wù),媒介是移動終端(如智能手機),應(yīng)用是移動互聯(lián),賣點是定制、精準和個性化。技術(shù)呢,做起來很復(fù)雜,說起來又簡單,就是任何人看哪些報紙、雜志,或者哪些專業(yè)、領(lǐng)域,甚至先看什么后看什么不想看什么都有一套固定的套路,這些別人不注意當事人又不覺得,但是通過一定的數(shù)據(jù)采集、挖掘和分析之后,會形成一個清晰的“模型”(也可以叫“路線圖”,實際上叫什么不重要)。然后,系統(tǒng)會根據(jù)這個模型,自動抓取個體關(guān)注的信息,然后向每個訂閱者推送。相較于手機報,它更窄眾;相對于RSS訂閱,它很個性。
記得當時在做,自覺得使命偉大、意義深遠;相信它改變的不僅是自媒體形態(tài),也將顛覆傳統(tǒng)信息生產(chǎn)與傳播的體系,當然,以當時的技術(shù)條件尚未真正做好它,原因是困惑和止步于“一切皆要量化”的數(shù)據(jù)分析,這太難了。后來,陸續(xù)讀了一些書和文章,領(lǐng)略了國外前沿思想,并且看到了相關(guān)的先鋒案例,這才恍然大悟,敢情我們想的和做的就是“大數(shù)據(jù)”。
大數(shù)據(jù),和另一個“云計算”,成了時下互聯(lián)網(wǎng)和IT業(yè)界最流行的一組概念,人們都在談?wù)撍鼈?,看起來好像每一個人都身臨其中、親自參與。然而,對于什么是大數(shù)據(jù),又該怎么去理解它,卻出現(xiàn)了不同的分歧或側(cè)重。例如,前段時間讀到涂子沛的《大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活》,雖然也叫大數(shù)據(jù),但它講的實則是信息公開、數(shù)據(jù)公正性和政府管理、社會治理層面的話題。書中特別介紹美國的樣本與經(jīng)驗。另有蘇萌、林森和周濤合著的《個性化:商業(yè)的未來》,該書對互聯(lián)網(wǎng)技術(shù)支撐下的個性化商業(yè)服務(wù)及相關(guān)模式給出了從理念到應(yīng)用的介紹。還有拉賈拉曼、厄爾曼合寫的《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處》。同樣是一個“大數(shù)據(jù)”,但兩位作者關(guān)注的是極大規(guī)模數(shù)據(jù)的挖掘。其內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。這是一本典型的技術(shù)教輔書??偟谜f來,這幾本書都針對“大數(shù)據(jù)”的某一局部給出了較為系統(tǒng)和深刻的介紹,但沒有對大數(shù)據(jù)的全局作出宏大視野的梳理——直到后來讀到維克托·邁爾·舍恩伯格和肯尼斯·庫克耶的作品《大數(shù)據(jù)時代:生活、工作與思維的大變革》,才有所改觀。
這本出自“大數(shù)據(jù)時代的預(yù)言家”維克托·邁爾·舍恩伯格之手的書,其最大貢獻就是在大數(shù)據(jù)方興未艾、眾說紛紜的時刻,進一步厘清了大數(shù)據(jù)的基本概念和特點,這對許多以為大數(shù)據(jù)就是“數(shù)據(jù)大”的人來說很有幫助。謝文,這位前雅虎中國總經(jīng)理、知名IT評論人,在他一次主題為“大數(shù)據(jù)概念混亂,未來或?qū)⒕砣牖鞈?zhàn)”的演講中,就直言不諱地指出:人們在大數(shù)據(jù)的認識上有幾個誤區(qū)。第一,只是從量上說,光看到數(shù)據(jù)的增長,沒法說清楚普通數(shù)據(jù)和大數(shù)據(jù)的區(qū)別。數(shù)據(jù)大絕對不等于大數(shù)據(jù)?,F(xiàn)有的設(shè)備、技術(shù)方法所能處理的多數(shù)是數(shù)據(jù)大,不是大數(shù)據(jù)。第二,數(shù)據(jù)挖掘、精細化運營、精準廣告、個性化服務(wù)、推廣這些不是未來大數(shù)據(jù)服務(wù)商業(yè)模式的主要部分。第三,脫離產(chǎn)業(yè)發(fā)展和社會進步的大背景,單純地鼓勵討論大數(shù)據(jù)無法說明其重要性。
然而,在《大數(shù)據(jù)時代》一書中,維克托·邁爾·舍恩伯格等就清楚地指明“大數(shù)據(jù)并非一個確切的概念”。最初,這個概念是指需要處理的信息量過大,已經(jīng)超出了一般處理數(shù)據(jù)時所能使用的內(nèi)存量,因此工程師必須改進處理數(shù)據(jù)的工具。這導(dǎo)致了新的處理技術(shù)的誕生,例如谷歌的MapReduce和開源Hadoop平臺。這些技術(shù)使得人們可以處理的數(shù)據(jù)量大大增加。更重要的是,這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫表格來整齊地排列。與此同時,因為互聯(lián)網(wǎng)公司可以收集大量有價值的數(shù)據(jù),而且有利用這些數(shù)據(jù)的強烈的利益驅(qū)動力,所以互聯(lián)網(wǎng)公司就順理成章地成為最新處理技術(shù)的領(lǐng)頭實踐者。然而,但維克托筆下的“大數(shù)據(jù)”是一種“人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情”的指代,是“人們獲得新的認知,創(chuàng)造新的價值的源泉;還是改變市場、組織機構(gòu),以及政府與公民關(guān)系的方法”。