五、算法
隨著面向?qū)ο螅∣rient Object)編程方法興起,“程序=數(shù)據(jù)結(jié)構(gòu)+算法”的光榮時代似乎已經(jīng)一去不復(fù)返。如今許多分析人員也不曾聽過Knuth和他的The Art of Computer Programming。有一種觀點是,在各工具將算法封裝得很好的情況下,深入了解算法似乎是沒必要的——Just run it。的確,如果你只想做到中級分析師,可以不去理會。但是要成為一名高級分析師,那肯定得有一定深度的研究。一是為了知道針對特定的數(shù)據(jù)集,選用什么樣 的算法,如何抽取樣本,抽取多大量的樣本(樣本出問題,整個項目都完蛋),算法適用條件是什么,比如線性回歸的:獨立性、常方差、正態(tài)性,怎么理解,哪些 必須滿足。這些使用如果不熟悉的話,很容易導(dǎo)致分析出問題。一些做這方面工作的BIer,不求甚解,做出來的東西是錯的,做分析最可怕的是錯了還沒意識! 二是客戶問到一些問題,知道如何去解釋,比如用決策樹計算出來的得分,為什么很多樣本得分是一樣的?客戶細(xì)分中,有沒有算法可以使得同一個客戶細(xì)分至兩個 不同的客戶群?沒有的話,如何用現(xiàn)有算法解決該客戶既有A群屬性又有B群屬性的問題?三是你能寫出針對特定問題的算法,現(xiàn)實中許多問題擁有其他問題一樣的 共性,也有它自己的個性,某些時候針對個性的東西越強,分析效果越好,這就需要你手寫算法解決。獲得Netflix 100萬推薦算法大獎的絕不可能是封裝好的現(xiàn)成算法不是么。另外還有一類商業(yè)智能問題,是封裝算法解決不了的,這類問題大多見于與地理結(jié)合的GIS決策系 統(tǒng),這類系統(tǒng)就要求分析人員有圖形算法功底。可見如果你想成為頂級的數(shù)據(jù)分析師,算法與數(shù)據(jù)結(jié)構(gòu)的知識必不可少。搜索,排序,樹,圖之所以經(jīng)典,是因為它 們簡單有效而且通用。如果你能把這些算法在數(shù)據(jù)庫里實現(xiàn),那么你分析技術(shù)這方面,確實達(dá)到很高的境界了。
六、統(tǒng)計學(xué)與其中的分析邏輯問題
商業(yè)分析中應(yīng)用統(tǒng)計學(xué)的好處在于,你可以不知道兩者的因果而只分析兩者的聯(lián)系,并且在環(huán)境沒有太多改變的情況下,分析結(jié)果都是適用的(更復(fù)雜的需要使用微分 方程或其他,但提升度未必高)。關(guān)于邏輯,我們來看一個例子:據(jù)科學(xué)家研究,肥胖的人在社交關(guān)系上會聚集在一起。如圖3,如果你的朋友肥胖,則你肥胖的概 率比別人高45%(紫柱),如果你朋友的朋友肥胖,則比平均高出25%(紅柱),如果你朋友的朋友的朋友肥胖,則比平均高出10%(橙柱)。事實上,這些 都是數(shù)據(jù)和統(tǒng)計,只能說明肥胖的人可能會聚集到一塊兒,因為從數(shù)據(jù)上你無法分辨出你們是因為肥胖而成為朋友(比如因肥胖到健身房認(rèn)識)還是因為成為朋友而 肥胖(吃貨朋友一起去吃東西),或者互為因果。實際分析中,我們經(jīng)常發(fā)現(xiàn)兩樣事物是互為因果互相加強的,“事物有普遍聯(lián)系”和“作用與反作用”的哲學(xué)原理 在此體現(xiàn)得淋漓盡致。業(yè)務(wù)經(jīng)驗在此時顯得尤為重要!它能告訴我們哪件因素更重要,一般對于業(yè)務(wù)人員來說更好實現(xiàn)的過程,更好掌控的因素,就是原因,是我們 后續(xù)操作的引線和突破口。
圖3 相關(guān)關(guān)系 VS 因果關(guān)系(編者注)
關(guān)于商業(yè),筆者是技術(shù)出身,也處于摸爬階段。但可以推薦兩本書,這兩本書是都是國外的,較厚易懂:菲利普科特勒《市場營銷》,斯蒂芬魯賓斯的《管理學(xué)》。商業(yè)與技術(shù)是存在聯(lián)系的。其實細(xì)心的讀者會發(fā)現(xiàn),光是有上面的知識還是不夠的,紙上得來終覺淺,絕知要做項目呀:)
增值知識
作為分析師寬廣的知識面必不可少,沒事看看心理學(xué)、歷史、地理、人口統(tǒng)計學(xué)(demography),瀏覽一下知乎,F(xiàn)T中文網(wǎng)什么的,也是不錯的。 更多詳細(xì)信息,請您微信關(guān)注“計算網(wǎng)”公眾號:
很多優(yōu)秀的數(shù)據(jù)信息圖、資料、報告只有英文的,例如:
數(shù)據(jù)信息圖: http://infosthetics.com/、http://flowingdata.com/、http://visual.ly/
資料: http://radar.oreilly.com/、http://www.businessinsider.com/