前兩天老朋友更夫-海鷹兄在微博上問大數(shù)據(jù)問題,聯(lián)想最近很多人都在問我大數(shù)據(jù)分析,或希望培訓大數(shù)據(jù)課程。
說實話,我也沒有見過大數(shù)據(jù),我更愿意說這是大數(shù)據(jù)時代!
或許是大數(shù)據(jù)太熱了,啥學科背景的人都在談論,特別是人文學者、商界人士都在談論,說明大數(shù)據(jù)時代到了,是他們點燃了大數(shù)據(jù)時代,這該感謝!
巴拉巴西的中文版《爆發(fā)》一書出版,俺寫了推薦語:
這是一個令人興奮的時代,也是一個大數(shù)據(jù)的時代,社交媒體讓我們越來越多地從數(shù)據(jù)中觀察到人類社會的復雜行為模式。以數(shù)據(jù)為基礎的技術決定著人類的未來,但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們對可用知識的增加。
1)數(shù)據(jù)有多大——就是用現(xiàn)有的軟件和在可容忍的時間內處理不了的數(shù)據(jù)就是大數(shù)據(jù),一般說來就是:G級或T級數(shù)據(jù);但我處理過2.6億的數(shù)據(jù),可以用時間換空間;大數(shù)據(jù)不僅僅是大,而是邊分析邊生產邊應用;就像微博抓取“春晚”或您的微博,但分析過程中可能又有大量數(shù)據(jù)產生。

2)大數(shù)據(jù)與傳統(tǒng)統(tǒng)計分析完全不同了,不強調抽樣,強調關系不關心因果,解決是什么,不問為什么!特別是:公開易獲得、非結構化、可分析個人,強調關系,解決的是人的數(shù)據(jù)和關系,特別是社會科學領域的數(shù)據(jù)(傳統(tǒng)數(shù)據(jù)都是結構化的商業(yè)數(shù)據(jù)),所以大數(shù)據(jù)更關心對社會情緒、輿情、預測電影票房等,簡單說:有了FB、TW或微博才有了大數(shù)據(jù)的興奮點。

3)大數(shù)據(jù)的興奮落地就是數(shù)據(jù)挖掘、文本挖掘和網絡挖掘,挖掘是發(fā)現(xiàn)知識,不是傳統(tǒng)統(tǒng)計的實證研究,可能沒有假設!不僅有統(tǒng)計分析還要機器學習算法等,當然也涉及數(shù)據(jù)存儲的方式,由此提到Hadoop、MapReduce、NoSQL等IT技術的變革。

4)有了微博,我們說社會科學的研究春天到了,移動應用、LBS、GIS、二維碼等都包含信息數(shù)據(jù),如果能夠集中起來發(fā)現(xiàn)關系規(guī)則就形成了大數(shù)據(jù)時代;而且大數(shù)據(jù)更多分析個人(挖恐怖分析),欺詐、流失、VIP、異常等,與傳統(tǒng)統(tǒng)計的平均不同,產生精準、個性化推薦、協(xié)同推薦等技術。
5)我一般會說是大數(shù)據(jù)時代,或者就是社會網絡微博時代,或者就是數(shù)據(jù)挖掘技術!只是人文社會人士的能力點燃了這個趨勢,強調了商業(yè)趨勢和社會趨勢,這是他們的功勞和忽悠能力。
6)精準營銷,個性化推薦,社會情感,社會預期,挖掘恐怖分子;當然可以用同樣的技術解決傳統(tǒng)數(shù)據(jù)問題,比如更強調可視化(信息可視化、數(shù)據(jù)可視化和互動可視化)等。
7)大數(shù)據(jù)更具預測能力,傳統(tǒng)更強調后見之明;
增加一點大數(shù)據(jù)抽樣問題:
大數(shù)據(jù)要不要抽樣?實踐,如果讀取一千萬數(shù)據(jù)可能需要10分鐘,當你認為抽樣可以得到同樣(統(tǒng)計)意義或預建模處理,是不是該考慮抽樣了!所以建模過程一般都會用到抽樣!另外,大數(shù)據(jù)往往需要過度抽樣,比如放大流失樣本!理論上再大的局部可能不如隨機抽樣有代表性。
如果有10萬記錄,9萬好人,1萬壞人,把壞人樣本放大到9萬也是訓練模型的一種思想!傳統(tǒng)的統(tǒng)計分析一般是不這樣!
理論上再大的局部,不如隨機抽樣有代表性;但大數(shù)據(jù)你可能不知道總體是啥樣子,不知道總體也就無所謂抽樣代表性了!
文章來源于中國傳媒大學沈浩老師的博客.
更多詳細信息,請您微信關注“計算網”公眾號: