我們需要收集數(shù)據(jù)、處理數(shù)據(jù)、存儲(chǔ)數(shù)據(jù),并最終將數(shù)據(jù)用于分析,機(jī)器學(xué)習(xí)和數(shù)據(jù)表盤(pán)。

數(shù)據(jù)擷取:NFS
通過(guò)網(wǎng)絡(luò)文件系統(tǒng)(NFS)協(xié)議可遠(yuǎn)程訪問(wèn)網(wǎng)絡(luò)共享磁盤(pán)。啟用NFS服務(wù)器后,可與客戶共享目錄和文件,讓用戶和程序像訪問(wèn)存儲(chǔ)在本地的文件一樣訪問(wèn)遠(yuǎn)程系統(tǒng)上的文件。
與只允許集群數(shù)據(jù)導(dǎo)入或批量導(dǎo)入的其它版本的Hadoop不同,MapR允許通過(guò)NFS直接掛載群集本身,讓您的應(yīng)用程序直接讀取、寫(xiě)入數(shù)據(jù)。通過(guò)POSIX語(yǔ)義,該MapR文件系統(tǒng)允許直接修改文件和多個(gè)并發(fā)讀取寫(xiě)入操作。掛裝NFS的集群可實(shí)現(xiàn)對(duì)數(shù)據(jù)源的簡(jiǎn)單數(shù)據(jù)擷取,比如說(shuō)從其他應(yīng)用標(biāo)準(zhǔn)Linux命令、實(shí)用程序、應(yīng)用程序和腳本的設(shè)備上擷取文件、圖片等。

通過(guò)使用NFS可從MapR集群移出移入數(shù)據(jù)至更昂貴的存儲(chǔ)空間。例如,您可以將處理過(guò)的熱數(shù)據(jù)轉(zhuǎn)移到關(guān)系數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),您也可以將冷數(shù)據(jù)轉(zhuǎn)移到成本更低的Hadoop存儲(chǔ)中。
流數(shù)據(jù)擷?。篕AFKA API
由于越來(lái)越多的醫(yī)療方案需要實(shí)時(shí)分析和動(dòng)態(tài)數(shù)據(jù),使用事件流擷取數(shù)據(jù)到系統(tǒng)中則將成為關(guān)鍵。 MapR流是一種新型的分布式通信系統(tǒng),通過(guò)Apache Kafka 0.9 API可使得生產(chǎn)者和消費(fèi)者之間實(shí)現(xiàn)實(shí)時(shí)交流事件動(dòng)態(tài)。主題是信息的邏輯化集合,可依據(jù)其將事件分門(mén)別類(lèi)。
主題分區(qū)域放置。主題將并行數(shù)據(jù)負(fù)載傳遍多個(gè)服務(wù)器,這保證了更高的吞吐量和可擴(kuò)展性。
讀取后消息并不會(huì)從主題中刪除,而且主題可以有多個(gè)不同的消費(fèi)者,這使得抱有不同目的不同消費(fèi)者處理可以處理同一消息。