在方程式的右邊,對(duì)于所有的自變量,我們有什么方法處理?傳統(tǒng)意義上來(lái)講,我們獲得所有的變量之后,第一步是變量選取或者整合。而變量選取和整合,在統(tǒng)計(jì)和初步機(jī)器學(xué)習(xí)過(guò)程當(dāng)中最常用的是stepwise (逐步回歸),它分為forward stepwise(前進(jìn)逐步回歸) 和backward stepwise(逐步后向算法)。顧名思義,stepwise就是通過(guò)一個(gè)一個(gè)把變量拿出來(lái)和放進(jìn)去的方式來(lái)決定哪個(gè)變量比較重要。
比如,現(xiàn)在我一共有10個(gè)變量,我并不知道哪一個(gè)好哪一個(gè)壞。最常用的方法是,我把10變量都留在里面做一個(gè)模型,然后扔掉一個(gè)變量再做一個(gè)模型,然后再扔掉一個(gè)變量做一個(gè)模型,以此類(lèi)推。大家就能看到,10個(gè)變量做的模型和9個(gè)變量做的模型相比較結(jié)果差異到底有多大。那么以此類(lèi)推,8個(gè),7個(gè)都是一樣的。我們就能判斷每個(gè)扔掉的變量扮演的角色到底有多重要,從而判斷這是不是一個(gè)該留在模型的變量。
那么問(wèn)題來(lái)了,10個(gè)變量到底該先扔誰(shuí)呢?
那么在機(jī)器學(xué)習(xí)的過(guò)程中我們有一個(gè)新的方法叫l(wèi)asso的方法來(lái)處理這個(gè)問(wèn)題,它可以在多維度空間的方向中進(jìn)行搜索,選擇哪些是重要的哪些是不重要的。
在我講的這些對(duì)于數(shù)據(jù)清洗的過(guò)程,某種程度應(yīng)該都是比較小的壁壘,能夠慢慢積累起來(lái)。實(shí)際上,還有很多方方面面的工作要做,(都可以形成壁壘)。