所以,你會(huì)看到,洗數(shù)據(jù)的大量的工作就是在把雜亂無章的數(shù)據(jù)歸并聚合,這就是在建立數(shù)據(jù)標(biāo)準(zhǔn)。這里面絕對(duì)少不了人肉的工作。無非就是:
聰明的人在數(shù)據(jù)產(chǎn)生之前就定義好標(biāo)準(zhǔn),并在數(shù)據(jù)產(chǎn)生之時(shí)就在干數(shù)據(jù)清洗的工作。
一般的人是在數(shù)據(jù)產(chǎn)生并大量堆積之后,才來干這個(gè)事。
另外,說一下Amazon的ASIN,這個(gè)事從十多年前就開始了,我在Amazon的內(nèi)網(wǎng)里看到的資料并沒有說為什么搞了個(gè)這樣一個(gè)ID,我倒覺得這并不是因?yàn)锳mazon因?yàn)橥鏀?shù)據(jù)發(fā)現(xiàn)必需建議個(gè)商品ID,也許因?yàn)锳mazon的業(yè)務(wù)模型就是設(shè)計(jì)成以“商品為中心”的。今天,這個(gè)ASIN依然有很多很多的問題,ASIN一樣不能完全保證商品就是一樣的,ASIN不一樣也不代表商品不一樣,不過90%以上的商品是保證的。Amazon有專門的團(tuán)隊(duì)Category Team,里面有很多業(yè)務(wù)人員天天都在拼命地在對(duì)ASIN的數(shù)據(jù)進(jìn)行更正。
案例二:數(shù)據(jù)的準(zhǔn)確
用戶地址是我從事過數(shù)據(jù)分析的另一個(gè)事情。我還記得當(dāng)時(shí)看到那數(shù)以億計(jì)的用戶地址的數(shù)據(jù)的那種興奮。但是隨后我就興奮不起來了。因?yàn)榈刂肥怯脩糇约禾顚懙?,這里面有很多的坑,都不是很容易做的。
第一個(gè)是假/錯(cuò)地址,因?yàn)橛械纳碳易鞅谆蚴怯脩糇鰷y(cè)試。所以地址是錯(cuò)的,
比如,直接就輸入“該地址不存在”,“13243234asdfasdi”之類的。這類的地址是可以被我的程序識(shí)別出來的。
還有很難被我的程序所識(shí)別出來的。比如:“宇宙路地球小區(qū)”之類的。但這類地址可以被人識(shí)別出來。
還有連人都識(shí)別不出來的,比如:“北京市東四環(huán)中路23號(hào)南航大廈5樓540室”,這個(gè)地址根本不存在。
第二個(gè)是真地址,但是因?yàn)橛脩魧懙牟粯?biāo)準(zhǔn),所以很難處理,比如:
- 縮寫:“建國(guó)門外大街” 和 “建外大街”,“中國(guó)工商銀行”和“工行”……
- 錯(cuò)別字:“潮陽門”,“通慧河”……
- 顛倒:“東四環(huán)中路朝陽公園” 和 “朝陽公園 (靠東四環(huán))” ……
- 別名:有的人寫的是開發(fā)商的小區(qū)名“東恒國(guó)際”,有的則是寫行政的地名“八里莊東里”……
這樣的例子多得不能再多了??梢姅?shù)據(jù)如果不準(zhǔn)確,會(huì)增加你處理的難度。有個(gè)比喻非常好,玩數(shù)據(jù)的就像是在挖金礦一樣,如果含金量高,那么,挖掘的難度就小,也就容易出效果,如果含金量低,那么挖掘的難度就大,效果就差。
上面,我給了兩個(gè)案例,旨在說明——
1)數(shù)據(jù)沒有大小之分,只有含金量大的數(shù)據(jù)和垃圾量大的數(shù)據(jù)之分。
2)數(shù)據(jù)清洗是一件多么重要的工作,這也是一件人肉工作量很大的工作。
所以,這個(gè)工作最好是在數(shù)據(jù)產(chǎn)生的時(shí)候就一點(diǎn)一滴的完成。
有一個(gè)觀點(diǎn):如果數(shù)據(jù)準(zhǔn)確度在60%的時(shí)候,你干出來的事,一定會(huì)被用戶罵!如果數(shù)據(jù)準(zhǔn)確度在80%左右,那么用戶會(huì)說,還不錯(cuò)!只有數(shù)據(jù)準(zhǔn)確度到了90%的時(shí)候,用戶才會(huì)覺得真牛B。但是從數(shù)據(jù)準(zhǔn)確度從80%到90%要付出的成本要比60% 到 80%的付出大得多得多。大多數(shù)據(jù)的數(shù)據(jù)挖掘團(tuán)隊(duì)都會(huì)止步于70%這個(gè)地方。因?yàn)?,再往后,這就是一件相當(dāng)累的活。
數(shù)據(jù)的業(yè)務(wù)場(chǎng)景
我不知道有多少數(shù)據(jù)挖掘團(tuán)隊(duì)真正意識(shí)到了業(yè)務(wù)場(chǎng)景和數(shù)據(jù)挖掘的重要關(guān)系?我們需要知道,根本不可能做出能夠滿足所有業(yè)務(wù)的數(shù)據(jù)挖掘和分析模型。
推薦音樂視頻,和電子商務(wù)中的推薦商品的場(chǎng)景完全不一樣。電商中,只要你買了一個(gè)東西沒有退貨,那么,有很大的概率我可以相信你是喜歡這個(gè)東西的,然后,對(duì)于音樂和視頻,你完全不能通過用戶聽了這首歌或是看了這個(gè)視頻就武斷地覺得用戶是喜歡這首歌和這個(gè)視頻的,所以,我們可以看到,推薦算法在不同的業(yè)務(wù)場(chǎng)景下的實(shí)現(xiàn)難度也完全不一樣。
說到推薦算法,你是不是和我一樣,有時(shí)候會(huì)對(duì)推薦有一種感覺——推薦就是一種按不同維度的排序的算法。我個(gè)人以為,就提一下推薦這個(gè)東西在某些業(yè)務(wù)場(chǎng)景下是比較Tricky的,比如,推薦有兩種(不是按用戶關(guān)系和按物品關(guān)系這兩種),
更多詳細(xì)信息,請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào):