而外排序的方法會消耗大量的IO,效率不會很高。而上面的分布式方法,也可以用于單機版本,也就是將總的數(shù)據(jù)根據(jù)值的范圍,劃分成多個不同的子文件,然后逐個處理。處理完畢之后再對這些單詞的及其出現(xiàn)頻率進行一個歸并。實際上就可以利用一個外排序的歸并過程。
另外還可以考慮近似計算,也就是我們可以通過結(jié)合自然語言屬性,只將那些真正實際中出現(xiàn)最多的那些詞作為一個字典,使得這個規(guī)??梢苑湃雰?nèi)存。
更多詳細信息,請您微信關(guān)注“計算網(wǎng)”公眾號: