【摘 要】當Hadoop進入企業(yè),必須面對一個問題,那就是怎樣解決和應對傳統(tǒng)并成熟的IT信息架構。以往MapReduce主要用來解決日志文件分析、互聯(lián)網(wǎng)點擊流、互聯(lián)網(wǎng)索引、機器學習、金融分析、科學模擬、影像存儲、矩陣計算等非結構化數(shù)據(jù)。但在企業(yè)內部,如何處理原有的結構化數(shù)據(jù)是企業(yè)進入大數(shù)據(jù)領域所面對的難題。企業(yè)需要既能處理非結構化數(shù)據(jù),又能處理結構化數(shù)據(jù)的大數(shù)據(jù)技術。
在大數(shù)據(jù)時代,Hadoop主要用來處理非結構化數(shù)據(jù),而如何處理傳統(tǒng)IOE架構的結構化數(shù)據(jù)則成為企業(yè)面臨的一個難題。在此背景下,既能處理結構化數(shù)據(jù)又能處理非結構化數(shù)據(jù)的SQL>
圖1、Hadapt
DB on Top 方式是業(yè)內同事解決結構化與非結構化數(shù)據(jù)的最初嘗試,最早由Hadapt公司在2010年提出,也就緒了能夠跑在Amazon EMR上的社區(qū)版。但是,其本質是數(shù)據(jù)在兩種計算框架中分別存放,如圖1所示,結構化數(shù)據(jù)存儲于高性能關系型數(shù)據(jù)引擎(High-Performance Relational Engine for Structured Data),非結構化數(shù)據(jù)存儲于Hadoop分布文件系統(tǒng)(Hadoop Distributed File System for Unstructured Data),對兩種類型的數(shù)據(jù)交互依靠查詢的切片執(zhí)行,元數(shù)據(jù)的組織控制必然是系統(tǒng)擴展演變中的過度技術。