1)數(shù)據(jù)源,我們的數(shù)據(jù)源分結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)主要是指攜程各產(chǎn)線的產(chǎn)品維表和訂單數(shù)據(jù),有酒店、景酒、團(tuán)隊(duì)游、門票、景點(diǎn)等,還有一些基礎(chǔ)數(shù)據(jù),比如城市表、車站等,這類數(shù)據(jù)基本上都是T+1,每天會(huì)有流程去各BU的生產(chǎn)表拉取數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù)是指,攜程用戶的訪問行為數(shù)據(jù),例如瀏覽、搜索、預(yù)訂、反饋等,這邊順便提一下,這些數(shù)據(jù)這些是由前端采集框架實(shí)時(shí)采集,然后下發(fā)到后端的收集服務(wù),由收集服務(wù)在寫入到Hermes消息隊(duì)列,一路會(huì)落地到Hadoop上面做長期存儲(chǔ),另一路近線層可以通過訂閱Hermes此類數(shù)據(jù)Topic進(jìn)行近實(shí)時(shí)的計(jì)算工作。
我們還用到外部合作渠道的數(shù)據(jù),還有一些評(píng)論數(shù)據(jù),評(píng)論屬于非結(jié)構(gòu)化的,也是T+1更新。