InfoQ:如何避免虛假房源?安全上有哪些措施保障?
蔡白銀: 虛假房源中影響最大的就是那些價(jià)格虛假的房源,這個(gè)時(shí)候,大家可以使用下我們掌上鏈家的估價(jià)功能,預(yù)估下這個(gè)房子當(dāng)前的價(jià)格到底如何,從而有個(gè)明確的認(rèn)知。
和虛假房源對(duì)應(yīng)的就是真實(shí)房源,所以這個(gè)問題也可以翻譯成鏈家在保障房源真實(shí)性上做了哪些保障。 那么,如何定義“真房源”?俠義上來說,“真房源”的4個(gè)標(biāo)準(zhǔn):
房源“真實(shí)存在”,不是虛構(gòu)或虛擬房源;
“真實(shí)價(jià)格”,在各渠道發(fā)布房源價(jià)格以業(yè)主委托報(bào)價(jià)為基準(zhǔn);
“真實(shí)在售”,房源的在租在售狀態(tài)均反映業(yè)主真實(shí)意愿;
“真實(shí)圖片”,房源圖片與真實(shí)房屋一對(duì)一匹配
基于此, 鏈家在真房源的保障上,做了如下幾件事:
從技術(shù)和數(shù)據(jù)上來說:鏈家首先建立了一個(gè)樓盤字典。這個(gè)字典里包含有30多個(gè)城市,近7000萬套房屋的關(guān)鍵信息,除此之外還采集了小區(qū)物業(yè)費(fèi)、采暖設(shè)施和配套設(shè)施等大家公認(rèn)的信息
管理范圍上,實(shí)現(xiàn)了房源的全生命周期管理,實(shí)現(xiàn)了房源的新增錄入、庫存、核銷的全鏈條管理。
從機(jī)制上說,品控檢查,內(nèi)部經(jīng)紀(jì)人監(jiān)督檢舉以及消費(fèi)者監(jiān)督。鏈家承諾假一賠百。
三管齊下,保證了房源的真實(shí)性。
InfoQ:針對(duì)不同地域、不同房型、政策等,如何自動(dòng)制定一個(gè)買方和賣方都認(rèn)可的價(jià)格?
蔡白銀: 分別回答如下:
地域的考慮是這樣的:我們的估價(jià)是分城市做的,在同一個(gè)城市內(nèi),每個(gè)商圈有自己的單獨(dú)的模型,同時(shí)我們正在做不同地鐵線路沿線的估價(jià)模型,也考慮針對(duì)準(zhǔn)確率偏低的商圈交界處單獨(dú)做模型。
至于房型,極端的例子是同一個(gè)商圈里既有別墅,又有普通戶型。由于鏈家的樓盤字典里,將房屋類型都做了明確的標(biāo)記,因此基于我們的歷史成交數(shù)據(jù)有豐富的房源類型和成交價(jià)格之間的關(guān)系。建模時(shí),我們的樣本里將房源類別特征做了離散化,因此模型能夠很好的判斷出房型對(duì)價(jià)格的影響
至于政策,政策的影響對(duì)價(jià)格的影響是很大的,未來會(huì)有什么樣的政策出臺(tái)以及會(huì)帶來多少影響,也不能盡知。政策的影響也不太容易做特征化。 因此,我們?cè)诠纼r(jià)模型的訓(xùn)練樣本的選擇上,我們只選擇了近半年的成交房源,同時(shí)樣本特征里加入時(shí)間因子,把政策的影響放在時(shí)間因子中,讓非線性模型自己去學(xué)習(xí)政策對(duì)價(jià)格帶來的持續(xù)性影響。
InfoQ:能講一下鏈家大數(shù)據(jù)架構(gòu)是怎么樣的嗎?
蔡白銀: 鏈家的大數(shù)據(jù)架構(gòu)目前如下圖所示:從下往上依次是數(shù)據(jù)采集層、存儲(chǔ)計(jì)算層、DW層、分析計(jì)算層和應(yīng)用挖掘?qū)印?/p>
數(shù)據(jù)采集層包括了線下和線上兩個(gè)層面?;趌ink系統(tǒng)的上線,現(xiàn)在很多的線下數(shù)據(jù)也已經(jīng)實(shí)現(xiàn)了線上采集,所以數(shù)據(jù)的實(shí)時(shí)性變得越來越得到了保障;日志流使用kafka進(jìn)行實(shí)時(shí)采集,經(jīng)過Flume后存儲(chǔ)至存儲(chǔ)層;
存儲(chǔ)計(jì)算層我們采用的是業(yè)界一直使用的HDFS和Hadoop體系。
DW層則是對(duì)原有的表進(jìn)行業(yè)務(wù)層面的聚合,使得產(chǎn)生的數(shù)據(jù)表結(jié)構(gòu)更清晰,更容易被使用;
在應(yīng)用挖掘?qū)?,為了?shí)時(shí)的update用戶畫像以及房源推薦,我們還引入了spark streaming 和 Elastic search,關(guān)于這點(diǎn),可以參見之前在大數(shù)據(jù)雜談上的分享。貫穿始終的是認(rèn)證權(quán)限安全系統(tǒng)和調(diào)度系統(tǒng)。

目前大數(shù)據(jù)的整體架構(gòu)在做一次大的重新調(diào)整,以適應(yīng)數(shù)據(jù)規(guī)模和業(yè)務(wù)需求的迅速擴(kuò)大。調(diào)整后的框架如下圖所示:

調(diào)整后的大數(shù)據(jù)架構(gòu)分三層,上層展示層,包括BI與數(shù)據(jù)API;中層工具鏈,含adhoc、olap、調(diào)度系統(tǒng);底層集群,關(guān)注數(shù)據(jù)安全與集群調(diào)度??v向有元數(shù)據(jù)、指標(biāo)管理,權(quán)限控制等。
InfoQ:房地產(chǎn)數(shù)據(jù)挖掘會(huì)用到哪些算法?
蔡白銀: 房產(chǎn)領(lǐng)域的數(shù)據(jù)挖掘用到的算法和平常大家用到的算法并不會(huì)有什么類別的不同,只是數(shù)據(jù)挖掘本身需要和業(yè)務(wù)緊密關(guān)聯(lián),所以這些算法在房產(chǎn)領(lǐng)域的使用細(xì)節(jié)上會(huì)有不同。