heyzo高清中文字幕在线,国产欧美色一区二区三区,极品少妇午夜福利视频

問(wèn)題實(shí)例：

1)已知某個(gè)文件內(nèi)包含一些電話號(hào)碼，每個(gè)號(hào)碼為8位數(shù)字，統(tǒng)計(jì)不同號(hào)碼的個(gè)數(shù)。

8位最多99 999 999，大概需要99m個(gè)bit，大概10幾m字節(jié)的內(nèi)存即可。

2)2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù)，內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

將bit-map擴(kuò)展一下，用2bit表示一個(gè)數(shù)即可，0表示未出現(xiàn)，1表示出現(xiàn)一次，2表示出現(xiàn)2次及以上?；蛘呶覀儾挥?bit來(lái)進(jìn)行表示，我們用兩個(gè)bit-map即可模擬實(shí)現(xiàn)這個(gè)2bit-map。

四、堆

適用范圍：海量數(shù)據(jù)前n大，并且n比較小，堆可以放入內(nèi)存

基本原理及要點(diǎn)：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我們比較當(dāng)前元素與最大堆里的最大元素，如果它小于最大元素，則應(yīng)該替換那個(gè)最大元素。這樣最后得到的n個(gè)元素就是最小的n個(gè)。適合大數(shù)據(jù)量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。

擴(kuò)展：雙堆，一個(gè)最大堆與一個(gè)最小堆結(jié)合，可以用來(lái)維護(hù)中位數(shù)。

問(wèn)題實(shí)例：

1)100w個(gè)數(shù)中找最大的前100個(gè)數(shù)。

用一個(gè)100個(gè)元素大小的最小堆即可。

五、雙層桶劃分-—其實(shí)本質(zhì)上就是【分而治之】的思想，重在分的技巧上！

適用范圍：第k大，中位數(shù)，不重復(fù)或重復(fù)的數(shù)字

基本原理及要點(diǎn)：因?yàn)樵胤秶艽?，不能利用直接尋址表，所以通過(guò)多次劃分，逐步確定范圍，然后最后在一個(gè)可以接受的范圍內(nèi)進(jìn)行?？梢酝ㄟ^(guò)多次縮小，雙層只是一個(gè)例子。

擴(kuò)展：

問(wèn)題實(shí)例：

1).2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù)，內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

有點(diǎn)像鴿巢原理，整數(shù)個(gè)數(shù)為2^32,也就是，我們可以將這2^32個(gè)數(shù)，劃分為2^8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域)，然后將數(shù)據(jù)分離到不同的區(qū)域，然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說(shuō)只要有足夠的磁盤空間，就可以很方便的解決。

2).5億個(gè)int找它們的中位數(shù)。

這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2^16個(gè)區(qū)域，然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù)，之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域，同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。

實(shí)際上，如果不是int是int64，我們可以經(jīng)過(guò)3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個(gè)區(qū)域，然后確定區(qū)域的第幾大數(shù)，在將該區(qū)域分成2^20個(gè)子區(qū)域，然后確定是子區(qū)域的第幾大數(shù)，然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2^20，就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。

六、數(shù)據(jù)庫(kù)索引

適用范圍：大數(shù)據(jù)量的增刪改查

基本原理及要點(diǎn)：利用數(shù)據(jù)的設(shè)計(jì)實(shí)現(xiàn)方法，對(duì)海量數(shù)據(jù)的增刪改查進(jìn)行處理。

七、倒排索引(Inverted index)

適用范圍：搜索引擎，關(guān)鍵字查詢

基本原理及要點(diǎn)：為何叫倒排索引？一種索引方法，被用來(lái)存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射。

以英文為例，下面是要被索引的文本： T0 = “it is what it is” T1 = “what is it” T2 = “it is a banana”

我們就能得到下面的反向文件索引：

“a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}

檢索的條件”what”,”is”和”it”將對(duì)應(yīng)集合的交集。

正向索引開(kāi)發(fā)出來(lái)用來(lái)存儲(chǔ)每個(gè)文檔的單詞的列表。正向索引的查詢往往滿足每個(gè)文檔有序頻繁的全文查詢和每個(gè)單詞在校驗(yàn)文檔中的驗(yàn)證這樣的查詢。在正向索引中，文檔占據(jù)了中心的位置，每個(gè)文檔指向了一個(gè)它所包含的索引項(xiàng)的序列。也就是說(shuō)文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個(gè)反向的關(guān)系。

擴(kuò)展：

問(wèn)題實(shí)例：文檔檢索系統(tǒng)，查詢那些文件包含了某單詞，比如常見(jiàn)的學(xué)術(shù)論文的關(guān)鍵字搜索。

2/4 首頁(yè) 上一頁(yè) 1 2 3 4 下一頁(yè) 尾頁(yè)

更多詳細(xì)信息，請(qǐng)您微信關(guān)注“計(jì)算網(wǎng)”公眾號(hào)：

總結(jié)：海量數(shù)據(jù)分析處理的十個(gè)方法