不過(guò)無(wú)論采取哪種方式,Twitter項(xiàng)目中那碩大無(wú)朋的數(shù)據(jù)總量仍然難以攻克。不過(guò)Phillips的態(tài)度給了我們一定信心。他指出,雖然Twitter目前的數(shù)據(jù)量已經(jīng)達(dá)到133TB且仍處于快速增長(zhǎng)之中,但Basho公司已經(jīng)接觸過(guò)數(shù)據(jù)量達(dá)到PB級(jí)別的客戶(hù),并且在自己的平臺(tái)上順利完成了任務(wù)。只要國(guó)會(huì)圖書(shū)館能夠追蹤并總結(jié)出數(shù)據(jù)庫(kù)容量每個(gè)月或每個(gè)季度的增長(zhǎng)幅度,并根據(jù)結(jié)果為數(shù)據(jù)存儲(chǔ)配備充足的硬件資源,那么Basho的數(shù)據(jù)庫(kù)軟件將有能力解決館方的難題。
那么使用云方案可不可行呢?從理論上講,國(guó)會(huì)圖書(shū)館可以采用以Amazon Web Services為代表的公共云資源保存這些數(shù)據(jù),而且隨著Twitter信息總量的不斷增長(zhǎng),AWS會(huì)自動(dòng)處理必要的硬件擴(kuò)容工作。然而在Basho公司工程師Seth Thomas看來(lái),這種方案的長(zhǎng)期性?xún)r(jià)比值得商榷。由于館方顯然打算永久保存這些數(shù)據(jù),所以混合式架構(gòu)可能更具經(jīng)濟(jì)效益。也許更好的辦法是將數(shù)據(jù)保存在本地,然后利用云服務(wù)實(shí)現(xiàn)分析功能。如此一來(lái),館方只需根據(jù)搜索量為響應(yīng)請(qǐng)求所投入的動(dòng)態(tài)資源支付費(fèi)用即可,而終端系統(tǒng)也只需處理與請(qǐng)求量相對(duì)應(yīng)的工作負(fù)載。
無(wú)論如何,國(guó)會(huì)圖書(shū)館已經(jīng)下決心將這些Twitter信息納入檢索體系。而身為普通用戶(hù),我們要注意的則是--只要更新Twitter,信息就會(huì)被記錄下來(lái)。
原文鏈接:http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn