3)Instance Selection在很多情況下至關(guān)重要,數(shù)據(jù)不是越多越好,是合適的數(shù)據(jù)越多越好。很多數(shù)據(jù)本身不是噪聲,但和我們要分析的問題不是很相關(guān),在這種情況下需要做合理的數(shù)據(jù)裁剪。其實,說到大數(shù)據(jù)的“大”字有不少誤解。大是個相對的概念,有很多應(yīng)用,只是單位時間內(nèi)要處理的數(shù)據(jù)量超過了現(xiàn)有的計算能力。比如說,高頻交易,我們可能需要在一毫秒處理1M的數(shù)據(jù)。1M并不大,但問題是時間要求realtime。
4)在建模之前還需要了解數(shù)據(jù)的特性,比如噪聲度,稀疏度,和數(shù)據(jù)的分布。這就象醫(yī)生在選取治療手段之前必須要了解病人的病癥。
最后,我想說的是,人生就是個數(shù)據(jù)挖掘過程。人整個的一生由幾個關(guān)鍵點組成,在每個關(guān)鍵點,我們都需要根據(jù)自己掌握的信息進(jìn)行決策。
互動內(nèi)容:
Q1:數(shù)據(jù)去偽存真,在數(shù)據(jù)挖掘中是不是工作占比很高?經(jīng)驗是不是分析能力的決定因素?
A:這個問題好。我們現(xiàn)在各行各業(yè)都在拼命收集數(shù)據(jù),很多的是垃圾數(shù)據(jù),現(xiàn)在數(shù)據(jù)的單位價值密度在不斷下降。數(shù)據(jù)挖掘就象醫(yī)生給病人看病,SAS的病人和普通感冒的病人有很多共同病癥,我們的任務(wù)是要找出可以幫助我們區(qū)分的特征。
關(guān)于未來,我提出一個概念叫做信息階級論。因為大數(shù)據(jù)意識和數(shù)據(jù)挖掘技術(shù)的普及,會造成人類社會更大的信息不對稱。未來階層(貧富差距)很大一部分因素是因為對信息資源掌握的不同造成的。在很多領(lǐng)域,對信息資源的掌握可以造成高維打低維的局面。就好象有武器代差的二戰(zhàn),勇敢的波蘭騎兵對德國坦克集群,會是簡單的屠殺。
Q2:怎么鑒別什么數(shù)據(jù)是真數(shù)據(jù)什么數(shù)據(jù)是偽數(shù)據(jù)呢? By 劉東華
A:和具體應(yīng)用相關(guān),比如,做具體的市場預(yù)測問題,你可能有很多數(shù)據(jù),來源不同,質(zhì)量不同,我的經(jīng)驗是,當(dāng)數(shù)據(jù)量充分的時候,質(zhì)量不高的數(shù)據(jù)寧可舍棄不用。
Q3:在中國,傳統(tǒng)制造企業(yè)占比很高,也是重要經(jīng)濟支柱,數(shù)據(jù)挖掘?qū)鹘y(tǒng)制造業(yè)會有什么大的價值牽引?熊老師有什么好的建議? By 邢艷凱:
A:人類整個的歷史發(fā)展都在追求標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化可以提高生產(chǎn)效率,對傳統(tǒng)制造業(yè)供應(yīng)鏈管理是數(shù)據(jù)挖掘可以大力幫助的領(lǐng)域。題外化,人類在追求標(biāo)準(zhǔn)化,任何被標(biāo)準(zhǔn)化的行業(yè)都被夕陽化,工作機會就會減少
@邢艷凱:認(rèn)同熊老師的觀點,中國制造業(yè)最缺乏的就是標(biāo)準(zhǔn)!
@柚子:還有經(jīng)濟預(yù)測領(lǐng)域
A:經(jīng)濟預(yù)測是個好例子,表面看很多數(shù)據(jù)都可以用來預(yù)測經(jīng)濟,但對中國的數(shù)據(jù),可能只有發(fā)電量,鋼產(chǎn)量,鐵路運輸?shù)壬倭恐笜?biāo)是質(zhì)量可靠的數(shù)據(jù),所以用克強指數(shù)看經(jīng)濟更靠譜。
大數(shù)據(jù)的發(fā)展還帶來了人類解決問題方式的重心轉(zhuǎn)移。東方長期以歸納法為見長,也就是一種BOTTOM-UP的解決問題方式,西方長期以演繹推理見長,是一種TOP-DOWN的方式。在近代至現(xiàn)代,演繹推理占了上風(fēng),所以西方文明高度發(fā)展。但是數(shù)據(jù)驅(qū)動解決問題方式的產(chǎn)生,讓歸納法思維又有機會走在前面。
Q4: 國內(nèi)哪些組織在數(shù)據(jù)挖掘方面比較強? By趙國棟
A:數(shù)據(jù)挖掘充滿dynamics,目前中國的暴富機會還是比美國多不少,隨著以后制度越來越完善,中國的暴富機會越來越少。很多的暴富都是因為信息不對稱造成的。中國現(xiàn)階段存在很多制度性信息不對稱,每一次制度的制定或變化,都催生出一批暴富的點子和機會。美國更多是技術(shù)性信息不對稱,就是通過數(shù)據(jù)挖掘的手段形成信息不對稱,從而在競爭中產(chǎn)生勢能差,可以形成以絕對優(yōu)勢打擊絕對劣勢的局面。當(dāng)然,中國在朝技術(shù)性信息不對稱大步前進(jìn)。
因為信息平臺和信息意識的城鄉(xiāng)差別,農(nóng)村的孩子在信息化這塊被甩開大了,在競爭中的劣勢越來越大,最可怕的是農(nóng)村的信息意識完全沒跟上。所以未來的階層客觀上會是由于對信息資源的掌握不同而造成的。所以,在教育層面應(yīng)該努力縮小城鄉(xiāng)的信息鴻溝。
未來社會的發(fā)展趨勢在加快,財富輪轉(zhuǎn)速度在加快,從富到貧,從貧到富,從弱到強,從強到弱都比以前更快速轉(zhuǎn)化。會是一種螺旋式上升,后面新城代謝越來越加速,hold不住的都會被甩出去。富過三代的一定要培養(yǎng)好的家族信息制度。
評論:現(xiàn)在是企業(yè)信息重置的時代,挖掘運營數(shù)據(jù)水平的高低將拉開企業(yè)的差距,而且一旦有了大哥,可能就會變成獨生子!By 邢艷凱: