我對數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是新手,從去年7月份在Amazon才開始接觸,而且還是因?yàn)楣ぷ餍枰粍?dòng)接觸的,以前都沒有接觸過,做的是需求預(yù)測機(jī)器學(xué)習(xí)相關(guān)的。后來,到了淘寶后,自己憑興趣主動(dòng)地做了幾個(gè)月的和用戶地址相關(guān)數(shù)據(jù)挖掘上的工作,有一些淺薄的心得。下面這篇文章主要是我做為一個(gè)新人僅從事數(shù)據(jù)方面技術(shù)不到10個(gè)月的一些心得,也許對你有用,也許很傻,不管怎么樣,歡迎指教和討論。
另外,注明一下,這篇文章的標(biāo)題模仿了一個(gè)美劇《權(quán)力的游戲:冰與火之歌》。在數(shù)據(jù)的世界里,我們看到了很多很牛,很強(qiáng)大也很有趣的案例。但是,數(shù)據(jù)就像一個(gè)王座一樣,像征著一種權(quán)力和征服,但登上去的路途一樣令人膽顫。
數(shù)據(jù)挖掘中的三種角色
在Amazon里從事機(jī)器學(xué)習(xí)的工作時(shí),我注意到了Amazon玩數(shù)據(jù)的三種角色。
- Data Analyzer:數(shù)據(jù)分析員。這類人的人主要是分析數(shù)據(jù)的,從數(shù)據(jù)中找到一些規(guī)則,并且為了數(shù)據(jù)模型的找不同場景的Training Data。另外,這些人也是把一些臟數(shù)據(jù)洗干凈的的人。
- Research Scientist:研究科學(xué)家。這種角色主要是根據(jù)不同的需求來建立數(shù)據(jù)模型的。他們把自己戲稱為不近人間煙火的奇異性物種,就像《生活大爆炸》里的 那個(gè)Sheldon一樣。這些人基本上玩的是數(shù)據(jù)上的科學(xué)
- Software Developer :軟件開發(fā)工程師。主要是把 Scientist 建立的數(shù)據(jù)模型給實(shí)現(xiàn)出來,交給Data Analyzer去玩。這些人通常更懂的各種機(jī)器學(xué)習(xí)的算法。
我相信其它公司的做數(shù)據(jù)挖掘或是機(jī)器學(xué)習(xí)的也就這三種工作,或者說這三種人,對于我來說,
最有技術(shù)含量的是 Scientist,因?yàn)閿?shù)據(jù)建模和抽取最有意義的向量,以及選取不同的方法都是這類人來決定的。這類人,我覺得在國內(nèi)是找不到的。
最苦逼,也最累,但也最重要的是Data Analyzer,他們的活也是這三個(gè)角色中最最最重要的(注意:我用了三個(gè)最)。因?yàn)?,無論你的模型你的算法再怎么牛,在一堆爛數(shù)據(jù)上也只能干出一堆垃圾的活來。正所謂:Garbage In, Garbage Out !但是這個(gè)活是最臟最累的活,也是讓人最容易退縮的活。
最沒技術(shù)含量的是Software Developer。現(xiàn)在國內(nèi)很多玩數(shù)據(jù)的都以為算法最重要,并且,很多技術(shù)人員都在研究機(jī)器學(xué)習(xí)的算法。錯(cuò)了,最重要的是上面兩個(gè)人,一個(gè)是苦逼地洗數(shù)據(jù)的Data Analyzer,另一個(gè)是真正懂得數(shù)據(jù)建模的Scientist!而像什么K-Means,K Nearest Neighbor,或是別的什么貝葉斯、回歸、決策樹、隨機(jī)森林等這些玩法,都很成熟了,而且又不是人工智能,說白了,這些算法在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中,似乎就像Quick Sort之類的算法在軟件設(shè)計(jì)中基本沒什么技術(shù)含量。當(dāng)然,我不是說算法不重要,我只想說這些算法在整個(gè)數(shù)據(jù)處理中是最不重要的。
數(shù)據(jù)的質(zhì)量
目前所流行的Buzz Word——大數(shù)據(jù)是相當(dāng)誤導(dǎo)人的。在我眼中,數(shù)據(jù)不分大小,只分好壞。
在處理數(shù)據(jù)的過程中,我第一個(gè)感受最大的就是數(shù)據(jù)質(zhì)量。下面我分幾個(gè)案例來說明:
案例一:數(shù)據(jù)的標(biāo)準(zhǔn)
在Amazon里,所有的商品都有一個(gè)唯一的ID,叫ASIN——Amazon Single Identify Number,這個(gè)ID是用來標(biāo)識商品的唯一性的(來自于條形碼)。也就是說,無論是你把商品描述成什么樣,只要ASIN一樣,這就是完完全全一模一樣的商品。
這樣,就不像淘寶一樣,當(dāng)你搜索一個(gè)iPhone,你會出現(xiàn)一堆各種各樣的iPhone,有的叫“超值iPhone”,有的叫“蘋果iPhone”,有的叫“智能手機(jī)iPhone”,有的叫“iPhone 白色/黑色”……,這些同一個(gè)商品不同的描述是商家為了吸引用戶。但是帶來的問題有兩點(diǎn):
- 用戶體驗(yàn)不好。以商品為中心的業(yè)務(wù)模型,對于消費(fèi)者來說,體驗(yàn)明顯好于以商家為中心的業(yè)務(wù)模型。
- 只要你不能正確讀懂(識別)數(shù)據(jù),你后面的什么算法,什么模型統(tǒng)統(tǒng)沒用。
所以,只要你玩數(shù)據(jù),你就會發(fā)現(xiàn),如果數(shù)據(jù)的標(biāo)準(zhǔn)沒有建立起來,干什么都沒用。數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)質(zhì)量的第一道關(guān)卡,沒這個(gè)玩意,你就什么也別玩了。所謂數(shù)據(jù)的標(biāo)準(zhǔn),為數(shù)據(jù)做唯一標(biāo)識只是其中最最基礎(chǔ)的一步,數(shù)據(jù)的標(biāo)準(zhǔn)還單單只是這個(gè),更重要的是把數(shù)據(jù)的標(biāo)準(zhǔn)抽象成數(shù)學(xué)向量,沒有數(shù)學(xué)向量,后面也無法挖掘。
更多詳細(xì)信息,請您微信關(guān)注“計(jì)算網(wǎng)”公眾號: