隨著對(duì)機(jī)器學(xué)習(xí)的興趣的加深,它的定義已經(jīng)擴(kuò)展到包括自動(dòng)化知識(shí)和模式一整套技術(shù)以及從最新數(shù)據(jù)獲得的發(fā)現(xiàn)模式。
數(shù)據(jù)科學(xué)家是利用最合適的工具和方法來(lái)完成他們的工作的專(zhuān)業(yè)人士。最好的數(shù)據(jù)科學(xué)家利用成套涉及統(tǒng)計(jì)分析的“知識(shí)-圖案-發(fā)現(xiàn)”的方法去揭示其本身。
我們應(yīng)該如何參考數(shù)據(jù)科學(xué)技術(shù)?通常情況下,它們?cè)陂L(zhǎng)期集中在“高級(jí)分析”。這句話是故意含糊的,因?yàn)樗哪繕?biāo)是作為一個(gè)包羅萬(wàn)象的一切,從統(tǒng)計(jì)分析和數(shù)據(jù)挖掘預(yù)測(cè)模型、自然語(yǔ)言處理、支持向量機(jī)等。
在大眾心目中,這一領(lǐng)域的大部分被稱(chēng)為“數(shù)據(jù)挖掘”,并往往帶有貶義的意味,因?yàn)槠鋵?zhuān)注于侵犯隱私和監(jiān)控應(yīng)用。在我看來(lái),這是一個(gè)有點(diǎn)像把每一個(gè)種鳥(niǎo)類(lèi)稱(chēng)之為“禿鷲”。其原因是,數(shù)據(jù)挖掘只應(yīng)用到結(jié)構(gòu)化數(shù)據(jù),并且通常涉及特定技術(shù),如回歸分析和決策樹(shù),被分析的內(nèi)容是非結(jié)構(gòu)化的時(shí)候,通常是不使用它的。
逐漸的,“機(jī)器學(xué)習(xí)”一詞也開(kāi)始獲得一個(gè)包羅萬(wàn)象的地位?;蛘?,最起碼,機(jī)器學(xué)習(xí)已經(jīng)成為今天的數(shù)據(jù)科學(xué)家用來(lái)指用來(lái)從大部分非結(jié)構(gòu)化的最新數(shù)據(jù)獲取自動(dòng)化知識(shí)和發(fā)現(xiàn)模式的一系列領(lǐng)先的技術(shù)的代名詞。人們對(duì)機(jī)器學(xué)習(xí)工作定義似乎蔓延到更廣泛、模糊的領(lǐng)土。
最近讀的一篇文章“學(xué)習(xí)和教授機(jī)器學(xué)習(xí):一個(gè)個(gè)人的旅程”,給我留下了一些印象。在這里面,在圣迭戈州立大學(xué)的作者約瑟夫?R?巴爾和真方位分析討論機(jī)器學(xué)習(xí)的歷史和自己的教育話題。他說(shuō),“把機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、預(yù)測(cè)分析和高級(jí)分析作為同義詞是可以的?!?/p>
我不確定該結(jié)塊機(jī)器學(xué)習(xí)與所有這些技術(shù)是不是有意義的。如上所述,機(jī)器學(xué)習(xí)主要適用于非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)挖掘是特定于結(jié)構(gòu)化數(shù)據(jù)集。此外,機(jī)器學(xué)習(xí),像數(shù)據(jù)挖掘,主要涉及尋找不同模式的歷史數(shù)據(jù),而預(yù)測(cè)分析特別側(cè)重于尋找那些能夠通過(guò)在未來(lái)的新數(shù)據(jù)聚合中進(jìn)行測(cè)試的預(yù)測(cè)模式。而機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和預(yù)測(cè)分析都是狹義的范圍,高級(jí)分析是一個(gè)更廣泛的范圍,包括它們所有。
在我看來(lái),機(jī)器學(xué)習(xí)的一只腳站在數(shù)據(jù)科學(xué)紅,另一只腳站在計(jì)算機(jī)科學(xué)中。這就是我理解的為什么巴爾這么說(shuō):“機(jī)器學(xué)習(xí)成長(zhǎng)于幾個(gè)不必然相交的數(shù)學(xué)科目之間,其中值得注意的是數(shù)理統(tǒng)計(jì)、計(jì)算和算法、信息理論和數(shù)學(xué)優(yōu)化….在古代,機(jī)器學(xué)習(xí)和下面大部分主題捆綁在一起,包括概率、組合、凸性和優(yōu)化、統(tǒng)計(jì)、信息和計(jì)算。我會(huì)給這個(gè)名單添加三個(gè)額外的維度:?jiǎn)l(fā),經(jīng)驗(yàn)和應(yīng)用。
路漫漫其修遠(yuǎn)兮!由于這種討論表明,機(jī)器學(xué)習(xí)有著強(qiáng)大的學(xué)習(xí)曲線,因?yàn)樵诖髮W(xué)中幾年的教室和實(shí)驗(yàn)室工作,可能被證明是必不可少的。而這其實(shí)是巴爾的文章的癥結(jié)所在:他自己的機(jī)器學(xué)習(xí)學(xué)校教育作為一個(gè)專(zhuān)業(yè)的數(shù)據(jù)科學(xué)家,再加上他現(xiàn)在面臨的挑戰(zhàn),將給未來(lái)的數(shù)據(jù)科學(xué)家確定合適的機(jī)器學(xué)習(xí)課程。
在定義上的范圍蔓延困擾著機(jī)器學(xué)習(xí)反映了這些挑戰(zhàn)。這把傘下的不同學(xué)科將繼續(xù)以創(chuàng)新的方式相互支持,這將舒展每一個(gè)數(shù)據(jù)科學(xué)家的思維,以及他們用來(lái)定義機(jī)器學(xué)習(xí)的術(shù)語(yǔ)。
英語(yǔ)原文:
What’s machine learning? It depends on who you ask
As interest in machine learning has grown, its definition has expanded to include a panoply of techniques for automating knowledge and pattern discovery from fresh data
Data scientists are professionals who use the most appropriate tools and methodologies to get their jobs done. The best data scientists avail themselves of the complete set of knowledge- and pattern-discovery approaches that involve statistical analysis.
How should we refer to the sum total of data science techniques? Often, they are lumped under the term “advanced analytics.” This phrase is deliberately vague in that it is intended as a catch-all for everything from statistical analysis and data mining to predictive modeling, natural language processing, support vector machines, and so on.
n the popular mind, most of this scope is known as “data mining,” often with a pejorative spin that focuses on privacy violation and surveillance applications. To my mind, that’s a bit like calling every species of bird a “vulture.” The reason is that data mining is applied to structured data only and typically involves specific techniques, such as regression analysis and decision trees, that are not typically used when the content being analyzed is unstructured.