我們現(xiàn)如今已經(jīng)使用的算法包括了 GBDT、隨機(jī)森林、Hedonic、神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、邏輯回歸、SVM、HMM、ItemCF、UserCF、聚類(lèi)算法等。
GBDT、隨機(jī)森林、Hedonic、神經(jīng)網(wǎng)絡(luò)是我們?cè)诠纼r(jià)中使用的。卷積神經(jīng)網(wǎng)絡(luò)是我們?cè)趹?hù)型圖識(shí)別中使用的, 邏輯回歸、SVM則是在用戶(hù)畫(huà)像中判別同一用戶(hù)、和判別用戶(hù)是否是買(mǎi)家還是賣(mài)家使用。HMM是我們用來(lái)描述用戶(hù)買(mǎi)賣(mài)行為階段的算法。 聚類(lèi)則是用在相似的樓盤(pán)識(shí)別,也用在了房源推薦和小區(qū)推薦當(dāng)中。
InfoQ:接下來(lái),鏈家對(duì)大數(shù)據(jù)的利用,關(guān)注點(diǎn)會(huì)放在哪兒?有什么計(jì)劃嗎?
蔡白銀: 鏈家對(duì)大數(shù)據(jù)的使用依舊會(huì)集中在如何更好的服務(wù)用戶(hù),如何提高買(mǎi)賣(mài)體驗(yàn)上。
我們會(huì)繼續(xù)完善用戶(hù)畫(huà)像、房屋畫(huà)像/樓盤(pán)畫(huà)像、經(jīng)紀(jì)人畫(huà)像, 增加畫(huà)像數(shù)據(jù)的更新頻率、畫(huà)像數(shù)據(jù)的豐富維度等。同時(shí)也會(huì)用更多更好的數(shù)據(jù)產(chǎn)品滿(mǎn)足大家對(duì)于房產(chǎn)數(shù)據(jù)的更深層次的需求,例如估價(jià)的準(zhǔn)確率的進(jìn)一步提升, 估價(jià)對(duì)資產(chǎn)評(píng)估的數(shù)據(jù)支撐等, 或者幫助用戶(hù)如何更好的找到合適的房子等等。
InofQ:能介紹下鏈家大數(shù)據(jù)團(tuán)隊(duì)的情況嗎?你們看重團(tuán)隊(duì)成員什么方面的背景?哪些數(shù)據(jù)科學(xué)技能?
蔡白銀: 鏈家的大數(shù)據(jù)團(tuán)隊(duì)有60多人,分為四個(gè)子方向,分別為基礎(chǔ)數(shù)據(jù)建設(shè)方向、數(shù)據(jù)開(kāi)發(fā)方向、數(shù)據(jù)分析方向和數(shù)據(jù)挖掘方向。 我們看重的是大家對(duì)數(shù)據(jù)的熱情、對(duì)數(shù)據(jù)的敏感度和做事的靠譜度,以及對(duì)于數(shù)據(jù)價(jià)值的深度思考。
技能上,希望數(shù)據(jù)開(kāi)發(fā)能夠有統(tǒng)計(jì)學(xué)知識(shí), 掌握1-2種通用編程語(yǔ)言,布式計(jì)算知識(shí)(Hadoop,Spark等)、SQL語(yǔ)句,以及網(wǎng)絡(luò)爬蟲(chóng)技能等。數(shù)據(jù)挖掘人員需要掌握數(shù)據(jù)開(kāi)發(fā)相關(guān)的知識(shí)和技能,也需要有數(shù)據(jù)結(jié)構(gòu)和算法知識(shí),概率統(tǒng)計(jì)和線(xiàn)性代數(shù)等數(shù)學(xué)知識(shí),數(shù)據(jù)可視化,還需要熟悉常用的機(jī)器學(xué)習(xí)算法,了解和使用過(guò)機(jī)器學(xué)習(xí)常用的庫(kù)。數(shù)據(jù)分析人員要有業(yè)務(wù)數(shù)據(jù)抽象能力,需求分解能力,需要精通常用的excel技巧,知道數(shù)據(jù)埋點(diǎn)知識(shí)。
InfoQ:如何成為一名數(shù)據(jù)科學(xué)家?您能根據(jù)您的經(jīng)驗(yàn)給大家說(shuō)說(shuō)自己的看法嗎?
蔡白銀: 這個(gè)問(wèn)題好大。 回答起來(lái)頗有壓力。 我只能根據(jù)我自己的理解給大家拋磚引玉了。數(shù)學(xué)科學(xué)是從數(shù)據(jù)中提取知識(shí)的研究,數(shù)學(xué)科學(xué)的從業(yè)者被稱(chēng)為數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家需要精通一門(mén)、兩門(mén)、甚至是多門(mén)學(xué)科,同時(shí)使用數(shù)學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的知識(shí)和技能來(lái)展開(kāi)工作?!簲?shù)據(jù)科學(xué)家一個(gè)人就像一支隊(duì)伍』。要成為一名數(shù)據(jù)科學(xué)從業(yè)者,需要具備如下技能:
(1) 計(jì)算機(jī)科學(xué)
數(shù)據(jù)科學(xué)家大多要求具備計(jì)算機(jī)專(zhuān)業(yè)知識(shí),要求具備編程能力。除了一般的腳本編程語(yǔ)言, 知道常用的數(shù)據(jù)庫(kù)知識(shí)外, 最好具備處理大數(shù)據(jù)所必需的Hadoop、Mahout,spark等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能。
(2) 數(shù)學(xué)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘
數(shù)學(xué)統(tǒng)計(jì)學(xué)的知識(shí)能夠讓我們對(duì)數(shù)據(jù)更具有把控,同時(shí)也能更好的對(duì)數(shù)據(jù)的結(jié)果進(jìn)行解釋。當(dāng)然工具的使用也是必不可少,例如SPSS、SAS等主流統(tǒng)計(jì)分析軟件的技能,尤其推薦對(duì)R的學(xué)習(xí)。R包含了豐富的統(tǒng)計(jì)分析庫(kù),且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,可以通過(guò)簡(jiǎn)單的命令來(lái)運(yùn)行。
個(gè)人建議最好也要會(huì)python。python學(xué)習(xí)起來(lái)簡(jiǎn)單方便,能夠快速上手,且擁有豐富的統(tǒng)計(jì)學(xué)習(xí)包和機(jī)器學(xué)習(xí)的包和數(shù)據(jù)可視化的包,NumPy ,SciPy ,Scikit-learn,matplotlib, pandas等。
(3) 數(shù)據(jù)可視化
大數(shù)據(jù)時(shí)代,數(shù)據(jù)紛繁復(fù)雜,信息海量而多變。信息的質(zhì)量和能否被接受很大程度上依賴(lài)于其表達(dá)方式。對(duì)數(shù)據(jù)中所包含的意義進(jìn)行分析,開(kāi)發(fā)Web頁(yè)面,使用外部API將圖表、地圖、Dashboard等其他服務(wù)統(tǒng)一起來(lái),從而使分析結(jié)果可視化,這是對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)十分重要的技能。
(4) 精通業(yè)務(wù)
數(shù)據(jù)是和具體的業(yè)務(wù)緊密相關(guān)的,沒(méi)有業(yè)務(wù)場(chǎng)景的數(shù)據(jù)是價(jià)值寥寥的。所以數(shù)據(jù)從業(yè)者需要對(duì)業(yè)務(wù)知識(shí)盡可能深入掌握,從而做到數(shù)據(jù)取之于業(yè)務(wù),也用于業(yè)務(wù)。
(5) 貢獻(xiàn)社區(qū)、多讀論文和博客
社區(qū)里臥虎藏龍,且大神們都樂(lè)于分享自己掌握的經(jīng)驗(yàn)和知識(shí),例如infoq里的很多文章中就飽含了獨(dú)到的見(jiàn)解。另外,想要知道其它數(shù)據(jù)科學(xué)家在做些啥,目前領(lǐng)域內(nèi)有哪些新的技術(shù),新的想法這些都需要多關(guān)注論文和博客。