這是一個大數(shù)據(jù)的時代,商業(yè)、社會管理、科研、創(chuàng)業(yè),言必稱大數(shù)據(jù)。
大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。“大數(shù)據(jù)”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數(shù)據(jù)時代》中提出,指不用隨機分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進行分析處理。所以,大數(shù)據(jù)區(qū)別于以往的數(shù)據(jù)收集的最本質(zhì)區(qū)別是,拋棄人類之前限于成本的的抽樣分析方法,而是存儲一切,分析一切。
大數(shù)據(jù)的理解
這種“數(shù)據(jù)全存”的收集,在互聯(lián)網(wǎng),甚至是移動互聯(lián)網(wǎng)出現(xiàn)之前的時代是不可想象的?,F(xiàn)在,隨著儲存能力、計算能力、互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)、智能手機的深入生活,收集數(shù)據(jù)的技術(shù)發(fā)達,充滿生活中的各個場景,“把數(shù)據(jù)全部存起來”成為一種可能。
數(shù)據(jù)雖然存起來了,但如何理解數(shù)據(jù),卻成為一個問題。
在大數(shù)據(jù)的熱潮中,人們開始相信,只要足夠好的技術(shù),足夠多的數(shù)據(jù),計算機能夠比人更了解他們的自己。
有一個非常經(jīng)典的例子。一位男性顧客到全美第二大零售商塔吉特店中投訴,聲稱商店竟然給他還在讀書的女兒寄嬰兒用品的優(yōu)惠券。后來發(fā)現(xiàn),女兒真的已經(jīng)懷孕了。這被宣揚成為數(shù)據(jù)比人更理解人的例子。
實際上,情況恰好相反。商場知道女兒懷孕,無非是收集了顧客的消費數(shù)據(jù)發(fā)現(xiàn)規(guī)律。比如,孕婦在懷孕頭三個月過后會購買大量無味的潤膚露;在頭20周,孕婦會補充如鈣、鎂、鋅等營養(yǎng)素;當女性開始大量采購無味肥皂和特大包裝的棉球時,說明她們的預(yù)產(chǎn)期要來了。然后,憑借這些信息,商場提前郵寄相關(guān)促銷信息。
實際上,并不是大數(shù)據(jù)更理解人的例子,甚至反應(yīng)了機器的愚蠢,自作主張,把嬰兒的優(yōu)惠用品寄給了還在讀書的女兒,而且還寄到了她家里。當然,預(yù)測模型可以加入變量,比如年紀、職業(yè)、婚姻狀況來避免尷尬。但是,人是復(fù)雜的,有很多非理性因素,無法加入所有變量。
大數(shù)據(jù)與計算能力的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)無法用單臺的計算機進行處理,必須采用分布式架構(gòu),依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但是,這種模式的計算能力僅是在數(shù)量上的增加。如果仍然是把數(shù)據(jù)放入模型,抽樣雖然并不時髦,但邊際效應(yīng)仍然有效,少量的數(shù)量就能達到與大數(shù)據(jù)差不多的效果。
所以,只有應(yīng)用各種新的數(shù)據(jù)處理方法,“數(shù)據(jù)”才能成為“大數(shù)據(jù)”,才能從中發(fā)掘出新的意義,進而產(chǎn)生新的價值。機器計算相比大腦的優(yōu)勢在與對于巨量數(shù)量的處理,如果機器也同時也能具有大腦的邏輯、分析、判斷、聯(lián)想、想象、情感能力,則可以輕易超越大腦的智能。
目前,依靠神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí),人工智能已經(jīng)初步嶄露頭角。在這種方法之下,隨著數(shù)據(jù)量的積累,系統(tǒng)會越來越好。相比過去人工智能的方法很難受益于數(shù)據(jù)量的提升,新的方法之下,20%的貢獻來自方法的改進,80%來自數(shù)據(jù)量的提升,從而實現(xiàn)依靠數(shù)據(jù)量推動的,系統(tǒng)從量變到質(zhì)變的飛躍。
但是,遺憾的是,機器的自主學(xué)習(xí),自主對數(shù)據(jù)的理解,目前還限定在給定的范圍內(nèi)。目前的機器學(xué)習(xí),基于模仿大腦神經(jīng)的反饋機制,依據(jù)歷史經(jīng)驗,人類的所有仿生工程學(xué)上的成功,取得飛躍,都是在徹底弄清楚生理過程的機制之后,比如,粗淺的模仿鳥的飛翔,可以造出飛行器,但飛機的基礎(chǔ),是空氣動力學(xué)?,F(xiàn)在人類大腦的腦科學(xué)的發(fā)展程度還遠遠不夠,甚至可以說對大腦的運行過程知之甚少。從這個角度看,人工智能理解大數(shù)據(jù)還為時尚早。所以,人類對于大數(shù)據(jù)的利用,目前來看,基本上還是基于收集技術(shù)上的發(fā)展?;诖髷?shù)據(jù)的人工智能,未必有那么樂觀。目前看來,大數(shù)據(jù)還沒有走出數(shù)據(jù)處理能力陰影的跡象。
大數(shù)據(jù)與隱私
不過,即使如此,變化早已發(fā)生。
這是一個大數(shù)據(jù)的時代,人人都在電子空間中留下了自己的痕跡。早上起來,打開手機,手機不斷與基站聯(lián)系,機主大概在什么地方,經(jīng)過了些什么地方,就留下了痕跡;在路上,打開手機瀏覽器又再次留下cookie數(shù)據(jù),瀏覽了些什么網(wǎng)頁,很可能被別有用心者收集;或者交通卡,從哪里進哪里出,也被服務(wù)器記錄;中午,吃了什么,信用卡可以查詢到消費的場所,而飯店的記錄,甚至能精確到吃了什么菜,幾個人;在上班的時候,使用聊天工具,可能留下痕跡,很多單位,也有記錄員工操作的軟件;下班了,打車軟件、聊天軟件都可以上傳GPS數(shù)據(jù);晚上,在哪里開了房,不但有消費數(shù)據(jù),也有攝像頭精確記錄。這些數(shù)據(jù)綜合起來,不但可以清晰的描述一個人的生活軌跡、行為、甚至連愛好,乃至不愿意被人發(fā)現(xiàn)的隱私,在別有用心的收集之下,都是清清楚楚的。