9. Naive Bayes
在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。 樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨(dú)立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。
10. CART: 分類與回歸樹
CART, Classification and Regression Trees。 在分類樹下面有兩個關(guān)鍵的思想。第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進(jìn)行剪枝。
大數(shù)據(jù)泡沫有哪些?
(1)這幾年社會上關(guān)于大數(shù)據(jù)的宣傳,媒體人的引進(jìn)和炒作,有部分內(nèi)容是在誤導(dǎo)大家,主要原因還是很多人在盲人摸象,少有系統(tǒng)的研究和理解。
(2)只知其然不知其所以然,導(dǎo)致對大數(shù)據(jù)應(yīng)用的期望太高,大數(shù)據(jù)技術(shù)不是萬金油,在新的技術(shù)泛型和技術(shù)生態(tài)下,現(xiàn)階段技術(shù)的穩(wěn)定性、成熟性和有效性還待進(jìn)一步發(fā)展。
(3)關(guān)注重點(diǎn)有問題,導(dǎo)致目前的很多大數(shù)據(jù)應(yīng)用并未涉及到核心業(yè)務(wù)和計算模型,多是數(shù)據(jù)的采集和存儲管理,這也是造成行業(yè)整體門檻還不夠高,同質(zhì)化競爭激烈,沒有發(fā)揮出應(yīng)有價值的原因。大數(shù)據(jù)泡沫顯然是客觀存在的,但其長期的應(yīng)用價值卻不容小覷,泡沫不代表沒有價值,就像2000年的互聯(lián)網(wǎng)泡沫,泡沫破滅之后的涅磐,讓人類真正跨入了互聯(lián)網(wǎng)時代。大數(shù)據(jù)泡沫的價值就是讓全民認(rèn)識到大數(shù)據(jù)時代數(shù)據(jù)分析和數(shù)據(jù)決策的重要性,這波泡沫過去,也許我們能正式跨入人工智能時代。
大數(shù)據(jù)需要哪些人才?
大數(shù)據(jù)主要職位:首席數(shù)據(jù)官,數(shù)據(jù)規(guī)劃師,數(shù)據(jù)工程師,數(shù)據(jù)架構(gòu)師,數(shù)據(jù)分析師,數(shù)據(jù)應(yīng)用師,數(shù)據(jù)科學(xué)家
素質(zhì)要求:專業(yè)技能,業(yè)務(wù)理解能力,學(xué)習(xí)能力,數(shù)據(jù)信仰,創(chuàng)新精神
企業(yè)要活用大數(shù)據(jù),需要3種人才:第一是數(shù)據(jù)的IT專家;其二是分析數(shù)據(jù)的資料分析人員;其叁是活用數(shù)據(jù)的經(jīng)理人。
什么數(shù)據(jù)科學(xué)家?
數(shù)據(jù)科學(xué)家是運(yùn)用統(tǒng)計分析、機(jī)器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對業(yè)務(wù)有意義的信息,以易懂的形式傳達(dá)給決策者,并創(chuàng)造出新的數(shù)據(jù)運(yùn)用服務(wù)的人才。
數(shù)據(jù)科學(xué)家有哪幾種類別?
理論數(shù)據(jù)科學(xué)家致力于數(shù)據(jù)科學(xué)的理論研究,為其他的數(shù)據(jù)科學(xué)家創(chuàng)造框架和工具。本質(zhì)上是將統(tǒng)計數(shù)據(jù)、數(shù)據(jù)存儲和計算機(jī)科學(xué)在理論層面應(yīng)用于大數(shù)據(jù)的學(xué)者。
應(yīng)用數(shù)據(jù)科學(xué)家對于如何運(yùn)用大數(shù)據(jù)有更好的理解。科學(xué)需要嚴(yán)謹(jǐn),我認(rèn)為數(shù)據(jù)應(yīng)用植根于學(xué)術(shù)嚴(yán)謹(jǐn),但是在應(yīng)用層面工作。應(yīng)用數(shù)據(jù)科學(xué)家的工作是先進(jìn)行架設(shè),再用大數(shù)據(jù)進(jìn)行驗證。每個人都會受惠于他們的研究發(fā)現(xiàn)和工具。
行業(yè)數(shù)據(jù)科學(xué)家用應(yīng)用數(shù)據(jù)科學(xué)地解決某個具體的市場問題、行業(yè)、生意,實現(xiàn)利益最大化的單一目的。行業(yè)數(shù)據(jù)科學(xué)家得擅長溝通,能夠讓他們的發(fā)現(xiàn)應(yīng)用于商業(yè)。將工商、經(jīng)濟(jì)和會計方面的經(jīng)驗應(yīng)用在商業(yè)領(lǐng)域是他的價值所在。與商業(yè)分析師和商業(yè)顧問的角色有點(diǎn)相似。
要成為一名數(shù)據(jù)科學(xué)家,需要掌握哪些核心技能?
作為一名數(shù)據(jù)科學(xué)家,一般需要編程和數(shù)據(jù)庫、數(shù)學(xué)&統(tǒng)計、交流和可視化、領(lǐng)導(dǎo)力和軟技能:四個方面的技能。
1、編程和數(shù)據(jù)庫
一般來說,數(shù)據(jù)科學(xué)家大多要求具備編程、計算機(jī)科學(xué)相關(guān)的專業(yè)背景,掌握對處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能。一般能利用python熟練的獲取數(shù)據(jù),整理數(shù)據(jù),并會使用matplotlib展現(xiàn)數(shù)據(jù)。
2、數(shù)學(xué)、統(tǒng)計和數(shù)據(jù)挖掘
除了數(shù)學(xué)、統(tǒng)計方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計分析軟件的技能。其中,面向統(tǒng)計分析的開源編程語言及其運(yùn)行環(huán)境「R」最近備受矚目。R的強(qiáng)項不僅在于其包含了豐富的統(tǒng)計分析庫,而且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,并可以通過簡單的命令來運(yùn)行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴(kuò)展機(jī)制,通過導(dǎo)入擴(kuò)展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。