中國IDC圈5月5日報道,信息化程度很低的旅游行業(yè)意味著,數(shù)據(jù)不是一種 “大宗商品”。
一段時間之前,多如牛毛的游記,大部分時候只是滿足了分享者快感的文字,而沒有變成數(shù)據(jù)。后來沉淀了大量游記的平臺如窮游、螞蜂窩都開始想辦法把游記 “結(jié)構(gòu)化”,變成能夠更廣泛應(yīng)用的數(shù)據(jù)。
在旅游行業(yè),可能最核心的數(shù)據(jù)就是 POI(興趣點),具有極強規(guī)則的、完整的、標(biāo)簽極度碎片化的 POI 信息是這個行業(yè)里非常值錢的東西,也成為了諸如 TripAdvisor(貓途鷹)的核心競爭力。貓途鷹的 POI 信息幾乎是不可能對外大規(guī)模釋放的,第三方無論是購買、還是數(shù)據(jù)交換,都很難拿到完整的 TripAdvisor 的 POI 數(shù)據(jù)。TripAdvisor 開放的 API 接口,只能夠為第三方提供所有 POI 的評論信息。
境內(nèi)在線旅游行業(yè),持有境外 POI 信息主要有三撥(如有遺漏歡迎補充,大眾點評之類暫不考慮):
擅長以抓取方式收集并整理信息的一些創(chuàng)業(yè)公司,如口碑旅行、夢想旅行,妙計旅行;
基于 UGC 內(nèi)容整理的 POI 信息:主要就是窮游;
自采 POI 信息的創(chuàng)業(yè)公司:游譜旅行、四萬公里。
之前我們和窮游負(fù)責(zé)大數(shù)據(jù)的 VP 張棋就這件事聊了聊,張棋坦言這是一個龐大的工程,迄今為止窮游覆蓋了 300 多個國家和地區(qū),7000 多個城市和區(qū)域,包括了景點、美食等 POI 的數(shù)量已經(jīng)達(dá)到了百萬量級。而隨著目的地信息的變化,這些 POI 必須持續(xù)更新,除了基礎(chǔ)信息之外,評論也在隨之更新。
張棋介紹,最初做 POI 的方式是通過 “網(wǎng)友貢獻(xiàn) + 編輯審核” 的方式,以比較粗的維度劃分國家、地區(qū)、城市,然后盡量保證各個維度下面都有相應(yīng)的 POI 信息做到 “該有的地方都有”。而第二期的做法是 “掘金”,一直持續(xù)到現(xiàn)在,通過 “運營編輯 + 算法支持” 的方式:編輯給大致的框架,例如什么算是優(yōu)秀內(nèi)容,以人工做范例(在長游記中找到幾張圖和一段話),然后技術(shù)團(tuán)隊通過數(shù)據(jù)建模和算法,用文本挖掘的手段覆蓋所有內(nèi)容,把結(jié)果填充到 POI 和目的地的架構(gòu)中。
在整個窮游收集 POI 的過程中,除了根據(jù)論壇的內(nèi)容做篩選和挖掘以及用戶主動提交之外,也有一些外部數(shù)據(jù)源做實時不斷的更新,例如大巴車的時刻表。這一點上,妙計也用的相應(yīng)的方式,從而保證動態(tài)的行程規(guī)劃是可行的——如果行程助手讓你去搭乘巴士,而巴士停運了會怎么樣?
在這里張棋分享了一些窮游的做法,工作節(jié)奏上他們會每一段時間重點攻克一個主題,先是酒店,然后是餐廳。在文本挖掘上,窮游除了抓取文字之外還會抓取相應(yīng)的圖片,張棋坦言這里沒有通用且完美的解決方案,只能不斷的通過運營編輯反饋機器的抓取結(jié)果,不斷提高覆蓋度,爭取少漏掉一些重點信息。
通過不斷的外部數(shù)據(jù)源更新、用戶提交和內(nèi)部挖掘,窮游的 POI 信息維度已經(jīng)超過了 100 個,主要可以分為兩類,一類是屬性維度,以清邁女子監(jiān)獄按摩店為例,包括了中文名、當(dāng)?shù)卦Q、英文名、地址、經(jīng)緯度坐標(biāo)、平均價位等;另一類是標(biāo)簽屬性,也可以理解為 “屬于哪一類”,休閑、刺激、適合什么人群、親子或單身等等。
在保證 POI 覆蓋度之后,POI 的另外一個要點是標(biāo)簽體系:一個 POI 都需要標(biāo)簽?標(biāo)簽需要多細(xì)化的顆粒度?這都是需要考慮的問題。一套成熟的標(biāo)簽體系能夠極大的提高用戶篩選的效率,自然也會提高轉(zhuǎn)化率。
以酒店為例,窮游的運營編輯會提供諸如 “交通”、“設(shè)施”、“餐飲”、“服務(wù)”、“干凈衛(wèi)生”、“漢語” 等維度,然后機器根據(jù)這些語義做抽象出相關(guān)內(nèi)容,做主題挖掘。當(dāng)用戶評論或游記中有描述命中了這個主題,機器就會放進(jìn) “池子” 做第一輪的篩選。在這個 “初選” 的池子中,機器會為每個話術(shù)賦值,然后根據(jù)權(quán)重得出最終結(jié)果。當(dāng)然,餐廳就會有不同的維度,景點也有不同。
POI 的價值毋庸置疑,如上面所說,妙計和窮游都在多個維度豐富自己的 POI 信息,尤其是動態(tài)更新的信息,以保證智能生成的行程規(guī)劃是切實可行的。張棋說,行程助手就是 POI 信息的串聯(lián),一天可能就涉及 50-70 個 POI。如果不能夠保證豐富度和準(zhǔn)確度,整個行程助手是缺乏價值的。