數(shù)據(jù)提供系統(tǒng)是怎么工作的呢?它通常把數(shù)據(jù)提供到其它地方進(jìn)行進(jìn)一步的處理,首先可以把數(shù)據(jù)提供到存儲的機(jī)制當(dāng)中,存儲機(jī)制只是數(shù)據(jù)庫,會(huì)存儲數(shù)據(jù),也可以從這里調(diào)用數(shù)據(jù)。然而現(xiàn)在更普遍的情況是一種專門的儲存數(shù)據(jù)庫,可以看到很多的專門的存儲數(shù)據(jù)的系統(tǒng)。
現(xiàn)在最普遍的存儲方式是分布式數(shù)據(jù)存儲系統(tǒng),也就是說把這些數(shù)據(jù)無限制地放到HDFS系統(tǒng)當(dāng)中,隨時(shí)進(jìn)行提取數(shù)據(jù)。文件系統(tǒng)和數(shù)據(jù)提交系統(tǒng)有一些重疊的地方,如果你在Kafka里長時(shí)間存儲數(shù)據(jù)的話,你會(huì)考慮它是一種存儲的方式。但是有些時(shí)候這種數(shù)據(jù)推送,數(shù)據(jù)提供需要同樣的技術(shù)。
4.Processing
數(shù)據(jù)處理的技術(shù)是做什么的呢?也就是說它把數(shù)據(jù)進(jìn)行變化,讓它更簡潔,或者把數(shù)據(jù)進(jìn)行變形,以便于更容易的處理。在查詢和數(shù)據(jù)處理方面也有一些重合。我們應(yīng)該這么理解,處理過程是把數(shù)據(jù)進(jìn)行變形,輸出的數(shù)據(jù)和輸入的數(shù)據(jù)量是一樣大的,查詢系統(tǒng)的輸出數(shù)據(jù)比輸入數(shù)據(jù)比較小一些,這在很多的系統(tǒng)里都是這樣的。在大數(shù)據(jù)系統(tǒng)方面你可以看到這些系統(tǒng)不斷來增強(qiáng)處理的性能。另外一些系統(tǒng)重點(diǎn)放到查詢方面技術(shù)的提高。
5.Stream Processing
有兩種子類型,關(guān)于處理的,第一個(gè)流處理,流處理也就是把數(shù)據(jù)放到一個(gè)流的程序當(dāng)中進(jìn)行連續(xù)處理。首先數(shù)據(jù)提供到Kafka里,需要先進(jìn)行流處理,之后才進(jìn)入存儲器進(jìn)行存儲。還有一種就是直接放到查詢系統(tǒng)當(dāng)中,這是兩種不同流處理的流程。
有很多不同的流處理的處理器,有很多的開源的流處理的程序,下面這三種是非常流行的處理方式。