中國IDC圈1月11日報道:大數(shù)據引起了變革
當今社會所獨有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據進行分析,獲得巨大價值的產品和服務,或深刻的洞見。
1、震人心魄的數(shù)據
2003年,人類第一次破譯人體基因密碼的時候,辛苦工作10年才完成了三十億對堿基對的排序;大約10年后,世界范圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是郵件里在數(shù)學模型和算法之上的計算機程序自動完成的。
在2007年,所有數(shù)據中只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數(shù)據,其余全部是數(shù)字數(shù)據;在2000年時,數(shù)字存儲信息仍只占全球數(shù)據量的四分之一;當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。
2、大數(shù)據的精髓
大數(shù)據帶給我們的三個顛覆性觀念轉變:是全部數(shù)據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數(shù)據:在大數(shù)據時代,我們可以分析更多的數(shù)據,有時候甚至可以處理和某個特別現(xiàn)象相關的所有數(shù)據,而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當?shù)南拗?,但高性能的?shù)字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數(shù)據如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數(shù)據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴大,對精確度的癡迷將減弱;擁有了大數(shù)據,我們不再需要對一個現(xiàn)象刨根問底,只要掌握了大體的發(fā)展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,在大數(shù)據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。
3、大數(shù)據的核心是預測
大數(shù)據的核心就是預測,它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。大數(shù)據不是要教機器人像人一樣思考,而是把數(shù)學算法運用到海量的數(shù)據上來預測事情發(fā)生的可能性。
不是隨機樣本,而是全體數(shù)據
歷史上,因為記錄、儲存、分析數(shù)據的工具都不夠好,為了讓分析變得簡單,我們選擇了把數(shù)據量減少,統(tǒng)計學的一個目的就是用盡可能少的數(shù)據來證實盡可能重大的發(fā)現(xiàn)。
1、傳統(tǒng)抽樣的精確性
采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數(shù)量的增加關系不大,大致原因是當樣本數(shù)量達到某個值后,我們從新個體身上得到的信息會越來越少,這與經濟學中的邊際效應類似。
2、 隨機采樣的問題
隨機采樣有一個很大的問題:人們只能從隨機采樣中得出事先設計好的問題的結果,調查得出的數(shù)據不可以重新分析以實現(xiàn)計劃之外的目的,而且一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。
3、樣本=總體
采樣的目的就是用最少的數(shù)據得到最多的信息,當我們可以獲得海量數(shù)據的時候,它就沒有什么意義了;生活中真正有趣的事情經常藏匿在細節(jié)之中,而采樣分析卻無法捕捉到這些細節(jié)(因為采樣不能得到計劃之外的東西);大數(shù)據建立在掌握所有數(shù)據,至少是盡可能多的數(shù)據的基礎上,所以我們就可以正確地考察細節(jié)并進行新的分析。
不是精確性,而是混雜性
執(zhí)迷于精確性是信息缺乏時代和模擬時代的產物,只有5%的數(shù)據是結構化且能適用于傳統(tǒng)數(shù)據庫的,如果不能接受混亂,剩下的95%的非結構化數(shù)據都無法被利用。
1、小數(shù)據時代的精確性
在“小數(shù)據時代”,人們收集、處理數(shù)據的能力有限,對“小數(shù)據”而言,最基本、最重要的要求就是減少錯誤,保證質量(收集信息的有限意味著細微錯誤會被放大,甚至有可能影響整個結果的準確性)。人們創(chuàng)造了很多精確的系統(tǒng),這些系統(tǒng)試圖讓我們接受一個世界困乏而規(guī)整的慘象——假裝世間萬物都是整齊地排列的;事實上現(xiàn)實是紛繁復雜的,天地間存在的事物也遠遠多于系統(tǒng)所設想的。