隨著物聯(lián)網(wǎng)和大數(shù)據(jù)的應用與發(fā)展,企業(yè)中的數(shù)據(jù)量每天都在增加,因此需要了解如何滿足這些新的IT計劃的存儲需求。
從冰箱到汽車,物聯(lián)網(wǎng)涉及幾乎所有配置傳感器的所有設(shè)備,并通過互聯(lián)網(wǎng)連接將數(shù)據(jù)傳輸?shù)街醒氪鎯爝M行存儲。一旦存在,它就成為大數(shù)據(jù)的一部分,這是對所有信息的分析。
然而,大數(shù)據(jù)的應用遠遠超出了物聯(lián)網(wǎng)(IoT)。大數(shù)據(jù)項目可以分析來自傳統(tǒng)或現(xiàn)代數(shù)據(jù)庫甚至非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)。大數(shù)據(jù)還可以將傳感器收集的看似無關(guān)的信息與傳統(tǒng)數(shù)據(jù)庫中的信息相關(guān)聯(lián),以提高組織效率。例如,交通運輸公司可以在其車輛中使用傳感器來引導駕駛員選擇提高運輸效率和降低燃料成本的路線。
采用大數(shù)據(jù)或物聯(lián)網(wǎng)項目的好處可以提高生產(chǎn)力,更好的健康或更加愉快的生活。隨著用戶對這一概念越來越適應,這些技術(shù)允許安裝越來越少的設(shè)備,數(shù)據(jù)組織的收集量呈指數(shù)增長。人們面臨的挑戰(zhàn)是如何存儲這種數(shù)據(jù),因為其在類型和數(shù)量上與傳統(tǒng)存儲數(shù)據(jù)明顯不同。
存儲需要一個大數(shù)據(jù)和物聯(lián)網(wǎng)項目
從存儲的角度來看,物聯(lián)網(wǎng)和大數(shù)據(jù)是相似的,但他們有不同的需求。物聯(lián)網(wǎng)項目的存儲響應取決于用例。對于傳感器,物聯(lián)網(wǎng)存儲系統(tǒng)需要同時處理來自數(shù)百萬個傳感器的快速輸入。因為這些傳感器產(chǎn)生的數(shù)據(jù)通常很小,所以目標存儲系統(tǒng)需要存儲可能達到數(shù)萬億個小文件,而不會影響性能。
但物聯(lián)網(wǎng)項目的數(shù)據(jù)還可以包括來自攝像機或無人機的監(jiān)視圖像。此數(shù)據(jù)類型通常是連續(xù)流,因此其存儲取決于高帶寬和存儲,這需要比傳感器用例更少但卻大得多的大容量文件的能力。而這種挑戰(zhàn)更加令人生畏的是,組織為這兩種物聯(lián)網(wǎng)用例都需要提供更大的存儲空間。
從大數(shù)據(jù)的角度來看,存儲系統(tǒng)需要訪問物聯(lián)網(wǎng)項目創(chuàng)建的所有或至少大部分數(shù)據(jù)。組織還可以使用大數(shù)據(jù)項目來分析現(xiàn)有數(shù)據(jù)庫和其他非結(jié)構(gòu)化數(shù)據(jù),以及關(guān)聯(lián)不同的數(shù)據(jù)集。
到目前為止,大數(shù)據(jù)最常見的基礎(chǔ)是Hadoop文件系統(tǒng)。Hadoop文件系統(tǒng)(HDFS)創(chuàng)建處理服務器集群,并將分析作業(yè)分配給集群中任務量最少的節(jié)點。其意圖是節(jié)點需要分析的數(shù)據(jù)在該節(jié)點上都是本地數(shù)據(jù)。這種情況消除了對昂貴的網(wǎng)絡基礎(chǔ)設(shè)施的需要,并能夠使用低成本的服務器級存儲設(shè)備,而不是昂貴的共享企業(yè)級存儲設(shè)備。
物聯(lián)網(wǎng)和大數(shù)據(jù)的數(shù)據(jù)占用和存儲I/O的要求與傳統(tǒng)數(shù)據(jù)中心應用并不相同。首先,物聯(lián)網(wǎng)數(shù)據(jù)通常是連續(xù)饋送。數(shù)據(jù)大小可以從小到大,而所需要存儲的文件數(shù)量可以達到數(shù)萬億。這使其更容易快速創(chuàng)建大量的數(shù)據(jù),其結(jié)果是存在對容量增長的持續(xù)需求。
這種增長必須快速擴張,并且不會造成破壞。物聯(lián)網(wǎng)項目的存儲系統(tǒng)還需要成本有效地擴展,以便組織能夠長時間存儲PB級數(shù)據(jù)。這需要更低的管理成本和負擔。大多數(shù)IT人員根本無法管理來自六個不同供應商的十幾個存儲系統(tǒng)。IT專業(yè)人員需要將其存儲硬件要求推廣到一至三個涵蓋一級和二級應用程序的存儲系統(tǒng),以及物聯(lián)網(wǎng)和大數(shù)據(jù)創(chuàng)建的大量非結(jié)構(gòu)化數(shù)據(jù)。
尋找到物聯(lián)網(wǎng)項目挑戰(zhàn)的答案
物聯(lián)網(wǎng)和大數(shù)據(jù)的應用為IT專業(yè)人員帶來了一系列挑戰(zhàn)。物聯(lián)網(wǎng)有兩種不同的文件存儲需求,大多數(shù)組織最終都需要這兩者。第一個需要隨機攝取數(shù)萬億的小文件。第二個需要高得多的帶寬流的文件,只是數(shù)量少得多,但卻大得多。單個存儲系統(tǒng)極少提供這兩種功能。通常,它們被調(diào)整為處理數(shù)萬億的小文件或調(diào)整為大型的流文件。
從大數(shù)據(jù)的角度來看,存儲系統(tǒng)需要訪問物聯(lián)網(wǎng)項目創(chuàng)建的所有或至少大部分數(shù)據(jù)。
大數(shù)據(jù)項目帶來了另一組挑戰(zhàn)。首先,來自物聯(lián)網(wǎng)項目的大部分(如果不是全部)數(shù)據(jù)需要轉(zhuǎn)移到Hadoop集群進行分析。第二,Hadoop集群必須能夠訪問業(yè)務中的傳統(tǒng)數(shù)據(jù),例如數(shù)據(jù)庫和用戶數(shù)據(jù)。此外,HDFS本身也有挑戰(zhàn)。例如,單個節(jié)點負責分析作業(yè)分配。它還存儲群集的所有元數(shù)據(jù)。如果該節(jié)點關(guān)閉,整個集群可能會失敗。
組織還面臨Hadoop的本地存儲設(shè)計的挑戰(zhàn)。通過在節(jié)點之間復制數(shù)據(jù)副本來進行數(shù)據(jù)保護。大多數(shù)組織將選擇三方復制作為默認值。這意味著從容量角度看,這些挑戰(zhàn)將會乘以三倍,再加上已經(jīng)駐留在物聯(lián)網(wǎng)存儲系統(tǒng)上的數(shù)據(jù),這對容量提出了更高的要求。
Hadoop設(shè)計中的另一個挑戰(zhàn)是,集群中處理作業(yè)的最可用節(jié)點實際上可能不會在其上存儲數(shù)據(jù)。這意味著作業(yè)將具有處理其能力較差的節(jié)點,或者該作業(yè)需要將數(shù)據(jù)傳送到最有能力的節(jié)點。