傻瓜式操作的優(yōu)點(diǎn)就是使得數(shù)據(jù)挖掘,入手非???,較為簡單。但是,也存在一些缺陷,即,使得這個(gè)挖掘過程變得有點(diǎn)單調(diào)和無趣。沒辦法批量運(yùn)算模型,也沒辦法開發(fā)一些個(gè)性化的算法和應(yīng)用。用的比較熟練,并且想要進(jìn)一步提升的時(shí)候,建議把這兩者拋棄。
(三)較為自由的挖掘工具
較為典型的就是R語言和Python。這兩個(gè)挖掘工具是開源的,前者是統(tǒng)計(jì)學(xué)家開發(fā)的,后者是計(jì)算機(jī)學(xué)家開發(fā)的。
一方面,可以有很多成熟的、前沿的算法包調(diào)用,另外一方面,還可以根據(jù)自己的需求,對既有的算法包進(jìn)行修改調(diào)整,適應(yīng)自己的分析需求,較為靈活。此外,Python在文本、非結(jié)構(gòu)化數(shù)據(jù)、社會(huì)網(wǎng)絡(luò)方面的處理,功能比較強(qiáng)大。
(四)算法拆解和自行開發(fā)
一般會(huì)利用python、c、c++,自己重新編寫算法代碼。例如,通過自己的代碼實(shí)現(xiàn)邏輯回歸運(yùn)算過程。甚至,根據(jù)自己的業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn),更改其中一些假定和條件,以便提高模型運(yùn)算的擬合效果。尤其,在生產(chǎn)系統(tǒng)上,通過C編寫的代碼,運(yùn)行速度比較快,較易部署,能夠滿足實(shí)時(shí)的運(yùn)算需求。
一般來說,從互聯(lián)網(wǎng)的招聘和對技能的需求來說,一般JD里面要求了前三種,這樣的職位會(huì)被稱為“建模分析師”。但是如果增加上了最后一條,這樣的職位或許就改稱為“算法工程師”。
二、模型的理解:傳統(tǒng)的和時(shí)髦的
據(jù)理解,模型應(yīng)該包括兩種類型。一類是傳統(tǒng)的較為成熟的模型,另外一類是較為時(shí)髦有趣的模型。對于后者,大家會(huì)表現(xiàn)出更多的興趣,一般是代表著新技術(shù)、新方法和新思路。