Hadoop是數(shù)據(jù)科學家分析數(shù)據(jù)的利器,但是對于完全不了解SQL的銷售和客服人員來說Hadoop就像天書,一位TripAdvisor的工程師找到了改變這一局面的方法。
最近幾個月來,全球最大旅游點評網(wǎng)站TripAdvisor(中國官網(wǎng)是daodao.com)的業(yè)務分析師們經(jīng)常往開發(fā)部門跑,因為他們聽說在Hadoop集群中有大量有價值的數(shù)據(jù),但卻不知如何查詢。
如何幫這些業(yè)務人員無需學習類SQL的HQL查詢語言就能使用Hive查詢Hadoop數(shù)據(jù)呢?TripAdvisor的攻擊軟件開發(fā)人員Stephen Scaffidi利用業(yè)余時間想出了一個辦法。
Scaffidi開發(fā)了一個Hive查詢工具并開源到Github上,這樣很多部門的人員都可以借助這個工具使用Hive查詢Hadoop數(shù)據(jù)。業(yè)務人員登錄這個工具的界面后可以請求Hive查詢,當任務完成時該工具會給用戶發(fā)送一封電子郵件,內(nèi)容包括一個web網(wǎng)頁鏈接,顯示工作的進度,還提供數(shù)據(jù)下載。整個過程非常簡單,非數(shù)據(jù)科學家也能用上Hive。
在本周圣何塞的Hadoop峰會上,Scaffidi說道:
我們需要能讓用戶快速用起來的工具,而不是在繁冗的安裝、配置后依然無法使用。目前我們的員工對這個工具很滿意,而且要求增加更多功能。
下一步,Scaffidi打算改進后臺代碼,并開發(fā)一個系統(tǒng)讓用戶能夠調(diào)用重復的查詢?nèi)蝿?,這里有一個Scaffidi介紹Hive查詢工具的演講稿。
Scaffidi的Hadoop查詢工具大大推動了TripAdvisor公司內(nèi)部的大數(shù)據(jù)民主化進程,而開源后更多的企業(yè)也將從中獲益。
來源:ctocio
更多詳細信息,請您微信關注“計算網(wǎng)”公眾號: