很多大數(shù)據(jù)可視化工具都是在Hadoop的平臺(tái)上運(yùn)行的。該平臺(tái)里的常用模塊有:Hadoop Common, HDFS(Hadoop Distributed File System),Hadoop YARN和Hadoop MapReduce。這些模塊能夠高效地分析大數(shù)據(jù)信息,但是卻缺乏足夠的可視化過程。下面將介紹一些具備可視化功能并實(shí)現(xiàn)交互式數(shù)據(jù)可視化的軟件:
Pentaho:一款支持商業(yè)智能(BI)功能的軟件,如分析、控制面板、企業(yè)級(jí)報(bào)表以及數(shù)據(jù)挖掘;
Flare:實(shí)現(xiàn)在Adobe視頻播放器中運(yùn)行的數(shù)據(jù)可視化;
JasperReports:擁有能夠從大數(shù)據(jù)庫(kù)中生成報(bào)告的全新軟件層;
Dygraphs:快速?gòu)椥缘拈_放源Java描述語言圖表集合,能發(fā)現(xiàn)并處理不透明數(shù)據(jù)。
Datameer Analytics Solution and Cloudera:同時(shí)使用Datameer和Cloudera兩個(gè)軟件能使我們?cè)贖adoop平臺(tái)時(shí)更快捷、更容易。
Platfora:將Hadoop中的原始大數(shù)據(jù)轉(zhuǎn)換成交互式數(shù)據(jù)處理引擎。Platfora還有把內(nèi)存數(shù)據(jù)引擎模塊化的功能。
ManyEyes:IBM公司開發(fā)的可視化工具。它可供用戶上傳數(shù)據(jù)并實(shí)現(xiàn)交互式可視化的公共網(wǎng)站。
Tableau:一款商業(yè)智能(BI)軟件,支持交互式和直觀數(shù)據(jù)分析,內(nèi)置內(nèi)存數(shù)據(jù)引擎來加速可視化處理。
Tableau系列軟件在處理大規(guī)模數(shù)據(jù)集時(shí)主要是依靠以下三種產(chǎn)品:Tableau Desktop,Tableau Sever和Tableau Pubilc。此外,Tableau還能內(nèi)嵌入Hadoop的基礎(chǔ)設(shè)備之中,利用Hive(基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具)將查詢結(jié)構(gòu)化并為內(nèi)存分析緩存信息。通過緩存信息,Hadoop集群延遲的可能性會(huì)大大減小。因此,Tableau軟件為用戶與大數(shù)據(jù)應(yīng)用提供了一個(gè)交互互動(dòng)機(jī)制。
大數(shù)據(jù)分析工具可以輕而易舉地處理ZB(十萬億億字節(jié))和PB(千萬億字節(jié))數(shù)據(jù),但它們往往不能將這些數(shù)據(jù)可視化。如今,主要大數(shù)據(jù)處理工具有Hadoop,High Performance Computing and Communications,Storm,ApacheDrill,RapidMiner和 Pentaho BI。數(shù)據(jù)可視化工具有NodeBox,R,Weka,Gephi,Google Chart API,F(xiàn)lot,D3,and http://Visual.ly等等。一種在RHadoop基礎(chǔ)上形成的大數(shù)據(jù)可視化算法分析整合模型已經(jīng)被提出,用來處理ZB和PB數(shù)據(jù)并以可視化的方式為我們提供較高價(jià)值的分析結(jié)果。它還與ZB和PB數(shù)據(jù)并行算法的設(shè)計(jì)相切合。
交互式可視化集群分析是我們用來探尋集群模式最直接的方法。其中最具有挑戰(zhàn)性的一點(diǎn)是可視化多維數(shù)據(jù),以便用戶交互式分析數(shù)據(jù)和認(rèn)識(shí)集群結(jié)構(gòu)。如今我們已經(jīng)開發(fā)出優(yōu)化的星型坐標(biāo)可視化模型,來有效分析大數(shù)據(jù)交互集群,它與其他多維可視化方法(如平行坐標(biāo)和散點(diǎn)圖矩陣)相比,極可能是最具備擴(kuò)展性的大數(shù)據(jù)可視化技術(shù):
平行坐標(biāo)和散點(diǎn)圖矩陣通常被用來分析十個(gè)維度以內(nèi)的數(shù)據(jù),而星型坐標(biāo)則可以處理數(shù)十個(gè)維度。
在基于密度代表的幫助下,星型坐標(biāo)式可視化自身得以擴(kuò)展。
基于星型坐標(biāo)的集群可視化并非是用于計(jì)算數(shù)據(jù)記錄中的兩兩距離;而是利用潛在映射模型的性能部分地保持這個(gè)位置關(guān)系。這一點(diǎn)在處理大數(shù)據(jù)上十分有用。
將大數(shù)據(jù)源直接可視化既不可能也不有效,因此通過分析數(shù)據(jù)減少大數(shù)據(jù)的量和降低其復(fù)雜程度就顯得十分重要。所以將可視化和分析相互整合才能使效能最大化。IBM公司開發(fā)的RAVE軟件已經(jīng)能夠?qū)⒖梢暬\(yùn)用到商業(yè)分析領(lǐng)域去分析并解決問題。RAVE和可拓展的可視化性能讓我們能夠利用有效的可視化更好地理解大數(shù)據(jù)。同時(shí),其他的一些IBM產(chǎn)品,例如IBM® InfoSphere® BigInsights?和IBM SPSS® Analytic Catalyst,也同RAVE一起,利用交互可視化豐富用戶對(duì)大數(shù)據(jù)的洞察。例如InfoSphere BigInsights能夠幫助分析并發(fā)現(xiàn)隱藏在大數(shù)據(jù)中的商業(yè)信息,SPSS Analytic Catalyst使得大數(shù)據(jù)的準(zhǔn)備工作自動(dòng)化,加之選取合適的分析過程,最后通過交互式可視化呈現(xiàn)最終結(jié)果。
在沉浸式VR(虛擬現(xiàn)實(shí))平臺(tái)上進(jìn)行科學(xué)數(shù)據(jù)可視化當(dāng)下還在研究階段,其中包括軟件和便宜的商品硬件也在研究階段。這些具備潛在價(jià)值和創(chuàng)新力的多維數(shù)據(jù)可視化工具無疑為合作式數(shù)據(jù)可視化提供了便利。沉浸式可視化與傳統(tǒng)的“桌面式”可視化相比具備明顯的優(yōu)勢(shì),因?yàn)樗梢愿玫卣宫F(xiàn)數(shù)據(jù)景觀結(jié)構(gòu)并進(jìn)行更直觀的數(shù)據(jù)分析。它還應(yīng)是我們探索更高維度、更抽象大數(shù)據(jù)的基點(diǎn)之一。人類固有的認(rèn)知模式(或者說是視覺認(rèn)知)技能能夠通過使用與沉浸式VR相關(guān)的新型數(shù)據(jù)實(shí)現(xiàn)最大化。