大部分不落地的分析都是偽分析,有一些探索性的可行性研究可以不考慮落地,但是其他的特定業(yè)務(wù)需求的分析都需要考慮落地,然后通過(guò)實(shí)踐來(lái)反推你的作用,如此反復(fù),才能慢慢的給你價(jià)值的肯定,同時(shí)提升你的分析技能,也只有這樣才能證明你作為分析師、數(shù)據(jù)落地者的價(jià)值。
5、數(shù)據(jù)挖掘/算法
這塊的話,經(jīng)過(guò)這三年的摸爬滾打,感觸蠻多的。體會(huì)比較深的吐槽主要有以下幾點(diǎn):
一個(gè)規(guī)則搞定了,還用什么算法。
·你的準(zhǔn)確率怎么這么低?!
·你的準(zhǔn)確率可以到99%嗎?
·你的推薦有價(jià)值嗎?你不推薦客人也會(huì)下那個(gè)產(chǎn)品的訂單的。
·幫我做個(gè)大數(shù)據(jù)預(yù)測(cè)他想要什么?
很多時(shí)候,不同的場(chǎng)景對(duì)準(zhǔn)確率的要求是不同的,所以在一定合理的場(chǎng)景下和業(yè)務(wù)進(jìn)行據(jù)理力爭(zhēng)是必要,不要害怕讓業(yè)務(wù)吐槽,更多的時(shí)候管理好他們的預(yù)期。
有些場(chǎng)景下,推薦的價(jià)值在于『長(zhǎng)期復(fù)購(gòu)率』,所以不要每次都盯著ABTest的轉(zhuǎn)化率來(lái)說(shuō)事,讓客人的費(fèi)力度降低也是很有前途和前景的。一個(gè)智能的產(chǎn)品會(huì)讓客人用起來(lái)愛(ài)不釋手,雖然在這一次的轉(zhuǎn)化中沒(méi)有明顯的差別,但是觀察長(zhǎng)期復(fù)購(gòu)率才能體現(xiàn)價(jià)值。特別是要區(qū)分:高頻和低頻產(chǎn)品。頻次比較低的產(chǎn)品就特別難體現(xiàn)出短期價(jià)值。
對(duì)于這個(gè)崗位的技能要求來(lái)說(shuō),沒(méi)有要求你一定要從零開始實(shí)現(xiàn)所有的算法,現(xiàn)在有很多現(xiàn)成的算法包進(jìn)行調(diào)用。最基本的要求是,你要知道每個(gè)場(chǎng)景會(huì)用到哪個(gè)算法,比如分類場(chǎng)景,常用的分類算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個(gè)算法的有效優(yōu)化參數(shù)是什么、模型效果不好的時(shí)候怎么優(yōu)化。還需要有算法的實(shí)現(xiàn)能力,語(yǔ)言方面可以用Scala/python/R/Java等。我們常說(shuō):工具不重要,重要的是你玩工具,不是工具玩你。
另外針對(duì)有監(jiān)督式學(xué)習(xí)算法,算法工程師最好有很好的業(yè)務(wù)sense,這樣在feature設(shè)計(jì)的時(shí)候才能更有針對(duì)性,設(shè)計(jì)的feature才有可能有很好的先驗(yàn)性。
6、深度學(xué)習(xí)(NLP,CNN,語(yǔ)音識(shí)別)
這塊我沒(méi)具體商用過(guò),只是動(dòng)手實(shí)踐過(guò)。個(gè)人感覺(jué)商業(yè)化是重點(diǎn)吧,特別是大家都在觀望說(shuō)你的chatbot很有用啊,可是siri做了這么久,最后反響也一般。
現(xiàn)在客服機(jī)器人又很火,大家又在一通吐槽說(shuō),這個(gè)上下文理解的太差了,機(jī)器人的語(yǔ)義識(shí)別做的怎么這么差。誰(shuí)做誰(shuí)知道,對(duì)于中文的語(yǔ)義識(shí)別,難度比國(guó)外的難多了,因?yàn)橹形牡囊环N否定說(shuō)法有太多種變體,你不知道我們會(huì)說(shuō)哪種。
另外,常常有人吐槽說(shuō),你這個(gè)CNN這么復(fù)雜,我線上需要滿足100ms內(nèi)返回,搞的這么復(fù)雜,實(shí)時(shí)調(diào)用怎么整,肯定來(lái)不及了,最后只能考慮offline預(yù)測(cè)了。常常說(shuō)這話的人,是不會(huì)自己寫底層代碼的,很多時(shí)候我覺(jué)得:不是你沒(méi)有解決問(wèn)題的辦法,而是你沒(méi)有去思考怎么解決問(wèn)題,心智決定了你的產(chǎn)出。
整體來(lái)說(shuō),這塊對(duì)個(gè)人的綜合素質(zhì)要求是很高的。如果你只是想簡(jiǎn)單利用現(xiàn)成的Model,提取中間層的特征,然后再套用其他的機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)的話,倒也能很好的解決一些現(xiàn)實(shí)中的公司應(yīng)用,比如yelp的圖片分類。
不過(guò),嚴(yán)格來(lái)說(shuō),這個(gè)不算是做深度學(xué)習(xí)的人,因?yàn)檎嬲鍰L的人,是需要自己動(dòng)手建模型,調(diào)參數(shù),改symbol的,所以他們的編程能力是很強(qiáng)的,這點(diǎn)上,我一直都高山仰止。特別是一些創(chuàng)業(yè)公司,對(duì)于這個(gè)崗位的編程能力要求很高。如果你面試創(chuàng)業(yè)公司后沒(méi)有下文了那就表示:你很優(yōu)秀,但是不一定適合我們公司,因?yàn)槲覀円业木幊棠芰軓?qiáng)的人。
這塊我不專業(yè),所以就點(diǎn)到為止,不說(shuō)太多。個(gè)人認(rèn)為,在這塊上需要有比較強(qiáng)的算法改造和優(yōu)化能力,盡量的提高算法預(yù)測(cè)的速度,同時(shí)不斷的提高算法的外延性提高精度,目前整個(gè)行業(yè)也都是朝著好的方向在發(fā)展。如果有很多人看到這塊行業(yè)開出來(lái)的高工資,記得和招聘上的要求核對(duì)一下,自己哪塊技能需要補(bǔ)充。這樣你才能成為人中之鳳。
對(duì)于未來(lái),一片光明,對(duì)于未來(lái),甚是期待,對(duì)于未來(lái),一切可能。
做個(gè)總結(jié):
以上說(shuō)了這么多,嘮叨了這么多,其實(shí)核心就是:如何用數(shù)據(jù)創(chuàng)造價(jià)值,如果你沒(méi)有用數(shù)據(jù)創(chuàng)造價(jià)值的能力,那么就只能等著被數(shù)據(jù)淹沒(méi),被數(shù)據(jù)拍死在職場(chǎng)上,早早到達(dá)職業(yè)的天花板。