7. 根據(jù)WebDB得到的網(wǎng)頁評分和links更新segments (updatesegs).
8. 對所抓取的網(wǎng)頁進(jìn)行索引(index).
9. 在索引中丟棄有重復(fù)內(nèi)容的網(wǎng)頁和重復(fù)的URLs (dedup).
10. 將segments中的索引進(jìn)行合并生成用于檢索的最終index(merge).
2009年,加州大學(xué)伯克利分校的研究人員開發(fā)了Apache Spark作為MapReduce的替代品。 由于Spark使用內(nèi)存存儲(chǔ)并行執(zhí)行計(jì)算,因此可以比MapReduce快100倍。 Spark可以作為獨(dú)立框架或Hadoop內(nèi)部工作。
使用Hadoop,仍然需要一種存儲(chǔ)和訪問數(shù)據(jù)的方法。 這通常通過諸如MongoDB之類的NoSQL數(shù)據(jù)庫(如CouchDB或Cassandra)完成,該數(shù)據(jù)庫專門處理分布在多臺(tái)計(jì)算機(jī)上的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。與在數(shù)據(jù)倉庫中不同的是,大量數(shù)據(jù)和類型的數(shù)據(jù)融合成統(tǒng)一格式并存儲(chǔ)在單個(gè)數(shù)據(jù)存儲(chǔ)中,這些工具不會(huì)改變數(shù)據(jù)的底層性質(zhì)或位置 – 電子郵件仍然是電子郵件,傳感器數(shù)據(jù)仍然是 傳感器數(shù)據(jù) – 可以幾乎存儲(chǔ)在任何地方。
盡管如此,在使用多臺(tái)機(jī)器的數(shù)據(jù)庫中存儲(chǔ)大量的數(shù)據(jù)并不是很好,直到你做了一些事情。 這就是大數(shù)據(jù)分析的原理。像Tableau,Splunk和Jasper BI這樣的工具可以讓您解析這些數(shù)據(jù),以識(shí)別模式,提取意義并揭示新的見解。 你所做的事情會(huì)因你的需要而有所不同。