導(dǎo)讀:Google搜索引擎已經(jīng)贏得全球范圍的贊譽(yù),而這一切都要?dú)w功于Google開(kāi)創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺(tái)支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬(wàn)臺(tái)普通服務(wù)器。MapReduce的成功也直接推動(dòng)了Hadoop的發(fā)展?,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時(shí)代的浪潮他們必須有進(jìn)一步的舉措。
Harry Shum已經(jīng)在Microsoft研究院工作了11年,現(xiàn)在他負(fù)責(zé)研發(fā)Microsoft Bing搜索引擎,以對(duì)抗Google 搜索。(圖片來(lái)自Microsoft)
在2010年,Google搜索引擎發(fā)生了重大變革。Google將其搜索遷移到新的軟件平臺(tái),他們稱(chēng)之為“Caffeine”。Caffeine是Google出自自身的設(shè)計(jì),Caffeine使Google能夠更迅速的添加新的鏈接(包括新聞報(bào)道以及博客文章等)到自身大規(guī)模的網(wǎng)站索引系統(tǒng)中,相比于以往的系統(tǒng),新系統(tǒng)可提供“50%新生”的搜索結(jié)果。
而這一切都要?dú)w功于Google開(kāi)創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺(tái)支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬(wàn)臺(tái)普通服務(wù)器。MapReduce的成功也直接推動(dòng)了Hadoop的發(fā)展?,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時(shí)代的浪潮他們必須有進(jìn)一步的舉措。
Google在基于Web的分布式計(jì)算系統(tǒng)領(lǐng)域已經(jīng)贏得了贊譽(yù)。而Microsoft Bing搜索引擎的負(fù)責(zé)人Harry Shum認(rèn)為Microsoft雖然沒(méi)有“Caffeine”的支持,但Bing搜索(利用數(shù)以萬(wàn)計(jì)的服務(wù)器軟件平臺(tái)處理數(shù)據(jù))的能力絲毫不輸給Google。Google Caffeine的優(yōu)勢(shì)在于快速抓取、編制索引和服務(wù)器文檔。而B(niǎo)ing在這方面也是非常出色的。但這一切都需要基礎(chǔ)設(shè)施的支持。
Harry Shum于2007年加入Bing團(tuán)隊(duì),Harry Shum已經(jīng)在Microsoft研究院工作了11年。Harry Shum的目標(biāo)就是讓Bing在搜索引擎領(lǐng)域技術(shù)趕上Google。在過(guò)去五年中,Google仍舊是全球最出色的搜索引擎,有人預(yù)計(jì)其市場(chǎng)占有率可能高達(dá)85%或90%。但Harry Shum深信Bing終將在技術(shù)水平上趕超Google。多年來(lái),我們一直在努力完善,在經(jīng)過(guò)持之以恒的努力后,Bing的搜索質(zhì)量已經(jīng)接近Google的水平。Harry Shum說(shuō)到。
毫無(wú)疑問(wèn),Google不會(huì)贊同Harry Shum的說(shuō)法,Google的工程師認(rèn)為Caffeine是非常重要的。Caffeine索引覆蓋1億GB數(shù)據(jù)。Caffeine可在幾秒或幾分鐘的時(shí)間從新聞網(wǎng)站或博客中添加內(nèi)容。
Harry Shum認(rèn)為Bing索引系統(tǒng)與Caffeine不同。他表示雖然Google聲稱(chēng)他們一些重大的技術(shù)是最新的。但Caffeine的一些功能Bing已經(jīng)在內(nèi)部運(yùn)行了。但同時(shí)我們也要構(gòu)建新的技術(shù),以完善我們的系統(tǒng),我們也在這樣做著。