如今數(shù)據(jù)的產(chǎn)生速度比幾年以前已經(jīng)有了迅猛的增長,隨著全球化步伐加快,這個增長速度只會越來越迅猛,由此所產(chǎn)生的數(shù)據(jù)處理問題也會越來越嚴(yán)峻。像Google、Amazon、eBay和Facebook這樣網(wǎng)站的用戶已經(jīng)覆蓋到了地球上的絕大多數(shù)人。全球化網(wǎng)絡(luò)應(yīng)用 (planet-size web application)的概念已經(jīng)形成,在這種背景下,企業(yè)使用HBase更合適。
舉例來說,F(xiàn)acebook每天增量存儲到它們Hadoop集群的數(shù)據(jù)量超過15 TB ④ ,并且隨后會對所有這些數(shù)據(jù)進(jìn)行處理。這些數(shù)據(jù)一部分是點(diǎn)擊流日志,用戶點(diǎn)擊了它們的網(wǎng)站或點(diǎn)擊了使用Facebook提供的社交插件的網(wǎng)站,每一步點(diǎn)擊操作都會被記錄并保存,這非常適合以批處理的模式,為預(yù)測和推薦系統(tǒng)構(gòu)建機(jī)器學(xué)習(xí)模型。
Facebook還有一個實(shí)時組件,就是它們的消息系統(tǒng),其中包括聊天、涂鴉墻和電子郵件,每個月會產(chǎn)生超過1350億條數(shù)據(jù) ⑤ ,存儲幾個月之后便會產(chǎn)生一個量級龐大的尾部數(shù)據(jù),并且這些尾部數(shù)據(jù)需要被有效地處理。盡管電子郵件中占用存儲量較大的部分(如附件)通常存儲在二級系統(tǒng)中 ⑥ ,但這些消息產(chǎn)生的數(shù)據(jù)量還是令人難以置信的。以Facebook的數(shù)據(jù)產(chǎn)生條目為基礎(chǔ),假如按Twitter中的每條數(shù)據(jù)占用140字節(jié)來計算,F(xiàn)acebook每個月將會產(chǎn)生超過17 TB的數(shù)據(jù),在將這些數(shù)據(jù)導(dǎo)入到HBase之前,現(xiàn)存的系統(tǒng)每個月也要處理超過25 TB的數(shù)據(jù)。 ⑦
目前在少數(shù)的重點(diǎn)行業(yè)中,面向Web業(yè)務(wù)的公司收集的數(shù)據(jù)量也在不斷增長。
金融
如股票漲跌產(chǎn)生的數(shù)據(jù)。
生物信息學(xué)
如全球生物多樣性信息機(jī)構(gòu)(Global Biodiversity Information Facility, http://www.gbif.org/ )。
智能電網(wǎng)
如OpenPDC( http://openpdc.codeplex.com/ )項(xiàng)目。
銷售
如銷售終端(POS機(jī))產(chǎn)生的數(shù)據(jù),或者是股票系統(tǒng)、庫存系統(tǒng)。
基因組學(xué)
如Crossbow( http://bowtie-bio.sourceforge.net/crossbow/index.shtml )項(xiàng)目。
移動電話服務(wù)、軍事、環(huán)境工程
也產(chǎn)生了海量的數(shù)據(jù)。

海量數(shù)據(jù)領(lǐng)域越來越被重視,且該領(lǐng)域涌現(xiàn)出了非常多的新技術(shù)。技術(shù)的發(fā)展和時間的沉淀使得HBase開始被大家廣泛認(rèn)可,成為海量數(shù)據(jù)在線存儲領(lǐng)域的首選。
?、傧嚓P(guān)信息可以在Hadoop的官方網(wǎng)站 http://hadoop.apache.org/ 中找到。也可以到Tom White編寫的《Hadoop權(quán)威指南(第2版)》(原出版社為O’Reilly)一書中查閱你想了解的Hadoop知識。
?、诖颂幰玫氖荎imball集團(tuán)的Ralph Kimball博士的一篇題為“Rethinking EDW in the Era of Expansive Information Management”的演講( http://www.informatica.com/campaigns/rethink_edw_kimball.pdf ),這個演講討論了一個不斷發(fā)展的企業(yè)數(shù)據(jù)倉庫市場的需求。
?、跡dgar F. Codd定義了13個規(guī)則(編號為0~12),這些規(guī)則促使數(shù)據(jù)庫管理系統(tǒng)(Datebase Management System,DBMS)被考慮為RDBMS。HBase需要滿足更多的通用規(guī)則,但也有一些規(guī)則沒有滿足,最重要的是規(guī)則5:全面的數(shù)據(jù)子語言規(guī)則,這個規(guī)則定義了至少需要支持一種關(guān)系型語言。詳情見維基百科關(guān)于科德十二定律的鏈接 http://en.wikipedia.org/wiki/Codd's_12_rules 。
?、芤奆acebook提供的信息 http://www.facebook.com/note.php?note_id=89508453919 。
?、菡埧床┪?http://www.facebook.com/note.php?note_id=454991608919 ,這篇博文來自Facebook的工程團(tuán)隊(duì)。150億條墻消息和1200億條聊天消息,共計1350億條消息一個月。此外,F(xiàn)acebook還添加了SMS和其他一些應(yīng)用,這些都會使數(shù)據(jù)量變得更為龐大。
?、轋acebook使用了Haystack,Haystack優(yōu)化了二進(jìn)制大對象的存儲結(jié)構(gòu),提供了二進(jìn)制小對象存儲,例如圖片。
⑦見 http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase ,這是Facebook的員工Nicolas Spiegelberg寫的,他也是HBase的committer。
本文節(jié)選自《HBase權(quán)威指南》

內(nèi)容簡介
本書探討了如何通過使用與HBase高度集成的Hadoop將HBase的可伸縮性變得簡單;把大型數(shù)據(jù)集分布到相對廉價的商業(yè)服務(wù)器集群中;使用本地Java客戶端,或者通過提供了REST、Avro和Thrift應(yīng)用編程接口的網(wǎng)關(guān)服務(wù)器來訪問HBase;了解HBase架構(gòu)的細(xì)節(jié),包括存儲格式、預(yù)寫日志、后臺進(jìn)程等;在HBase中集成MapReduce框架;了解如何調(diào)節(jié)集群、設(shè)計模式、拷貝表、導(dǎo)入批量數(shù)據(jù)和刪除節(jié)點(diǎn)等。