每個人都需要住房,房地產(chǎn)行業(yè)歷史悠久,數(shù)據(jù)積累下來是非??捎^的。鏈家成立了15年,這15年里積累了百萬級別的成交數(shù)據(jù),用戶畫像數(shù)量超過2000萬,日志數(shù)據(jù)6T。鏈家依托房地產(chǎn)行業(yè)累積的海量數(shù)據(jù),從中挖掘出最有價值的數(shù)據(jù),進(jìn)行房屋估價、房源推薦等等,從而改善行業(yè)體驗,推動行業(yè)進(jìn)步。
受訪嘉賓介紹
受訪嘉賓介紹:蔡白銀 ,畢業(yè)于北京大學(xué)。目前任 鏈家網(wǎng)大數(shù)據(jù)架構(gòu)師 ,負(fù)責(zé)鏈家網(wǎng)大數(shù)據(jù)體系的建設(shè),運(yùn)用大數(shù)據(jù)挖掘技術(shù)助力房產(chǎn)領(lǐng)域的O2O,提升房屋買賣體驗;在大數(shù)據(jù)數(shù)據(jù)挖掘領(lǐng)域有多年的經(jīng)驗。加入鏈家網(wǎng)之前就職于百度,負(fù)責(zé)百度口碑后端策略架構(gòu),使得口碑的污染率低于2%,有效的保證了內(nèi)容的準(zhǔn)確性和公正性。
InfoQ:請問您能給InfoQ的讀者們介紹下您的背景經(jīng)歷嗎?百度口碑如何利用大數(shù)據(jù)?和鏈家的業(yè)務(wù)有類似的地方嗎?為什么選擇了鏈家?
蔡白銀: 我畢業(yè)于北京大學(xué)物理學(xué)院, 原來學(xué)的是理論物理的分支——宇宙學(xué)。 畢業(yè)之后先在nvidia做了一年多基于cuda的高性能計算,然后加入到百度,從事算法策略, 如今在鏈家網(wǎng)從事大數(shù)據(jù)相關(guān)工作。 這項工作,本身對于數(shù)學(xué)的要求略高,這一點(diǎn)理論物理的數(shù)學(xué)訓(xùn)練還是頗有幫助的。
在百度時作為百度口碑的策略負(fù)責(zé)人,帶領(lǐng)7個小伙伴搭建了百度口碑的策略體系。百度口碑是個ugc產(chǎn)品,用戶可以在口碑中點(diǎn)評自己所知曉或者接觸過的商家,我們需要使用百度的海量用戶行為數(shù)據(jù)來讓用戶快速觸達(dá)評論實體 ,然后通過算法對評論內(nèi)容進(jìn)行排序和反作弊。
從業(yè)務(wù)上來說,口碑和鏈家的業(yè)務(wù)沒有很相似的地方。
至于為何選擇鏈家。之前一直在純互聯(lián)網(wǎng)行業(yè)工作,對于傳統(tǒng)行業(yè)和互聯(lián)網(wǎng)密切聯(lián)系的垂直領(lǐng)域O2O一直很感興趣,同時也知道自己的幾個非常優(yōu)秀的同事加入了鏈家, 仔細(xì)了解了鏈家的規(guī)劃和愿景后,就毫不猶豫的加入鏈家了。目前很慶幸自己當(dāng)初的選擇,深感當(dāng)前的平臺寬廣而深遠(yuǎn),工作內(nèi)容能夠帶來助力行業(yè)進(jìn)步的成就感,也充滿挑戰(zhàn)性。加之周圍同事都很優(yōu)秀,『每個人都像一支隊伍』,這種感覺我很喜歡。
InfoQ:鏈家的數(shù)據(jù)源如何獲取的?如何保證數(shù)據(jù)的實時性?
蔡白銀: 鏈家的數(shù)據(jù)來源于線下和線上兩個渠道。線下渠道包括經(jīng)紀(jì)人錄入的數(shù)據(jù),例如用戶的帶看行為,帶看反饋等等,還不得不說的是鏈家網(wǎng)的6000萬樓盤字典數(shù)據(jù), 是我們的工作人員一棟一棟梳理出來的第一手的房屋數(shù)據(jù), 十分珍貴。
線上數(shù)據(jù)包括在掌上鏈家app,鏈家網(wǎng)web端和鏈家網(wǎng)m站的各種行為數(shù)據(jù),以及經(jīng)紀(jì)人在link作業(yè)app上的行為數(shù)據(jù)等。
線下渠道的數(shù)據(jù),在link上線前,經(jīng)紀(jì)人是每天晚上必須要將今天自己涉及到的全部用戶的線下行為數(shù)據(jù)錄入進(jìn)SE體系; link上線后, 這些行為數(shù)據(jù)也已經(jīng)全部線上化,實時性進(jìn)一步得到了保證。 至于用戶的線上行為,通過日志流,這些數(shù)據(jù)實時的進(jìn)入大數(shù)據(jù)倉庫,實時性自是有保障的。
InfoQ:如果靠爬蟲爬取鏈家網(wǎng)上的數(shù)據(jù),這些數(shù)據(jù)是否可有效利用?有什么反爬措施沒?
蔡白銀: 鏈家網(wǎng)的數(shù)據(jù)都是真實的房源數(shù)據(jù)、成交數(shù)據(jù)和掛牌數(shù)據(jù),所以這些數(shù)據(jù)都是可以拿來做分析使用的。 鏈家集團(tuán)和其他地產(chǎn)公司的一些對數(shù)據(jù)比較敏感的經(jīng)紀(jì)人,會持續(xù)收集鏈家的數(shù)據(jù),形成自己的分析知識體系。
目前鏈家網(wǎng)做了一些簡單的反爬措施,例如針對ip的訪問頻次限制。整個反爬系統(tǒng)正在建立中。
InfoQ:大數(shù)據(jù)能幫助鏈家解決哪些房地產(chǎn)方面的痛點(diǎn)?
蔡白銀: 上次在Qcon2016北京全球軟件開發(fā)者大會的分享中有提到,房地產(chǎn)行業(yè)自古而今,一直存在的痛點(diǎn)可以總結(jié)為:
房源真假如何判斷
用戶如何找到合適自己的房源,用合適的價格,從而高效率的成交
對于賣房者同樣如此
經(jīng)紀(jì)人如何才能更好的了解客戶的真實需求,從而提升服務(wù)體驗。
這幾個問題的解決都仰賴于大數(shù)據(jù)。 樓盤字典的7000萬數(shù)據(jù)解決了房源真假的問題;基于大數(shù)據(jù)的房屋估價可以供用戶和賣家定出合適的價格;房源和小區(qū)推薦,讓用戶快速觸達(dá)適合自己的房屋;基于用戶畫像的房客圖譜和客源解讀,讓經(jīng)紀(jì)人的服務(wù)能力得到更好的體現(xiàn),讓用戶感知到越來越好的服務(wù)體驗??偨Y(jié)一句話就是:技術(shù)推動行業(yè)進(jìn)步,讓買賣房屋不再難。