在將近六年等待之后,Google的一個(gè)專利申請近日終于獲得批準(zhǔn)。這個(gè)編號為7 650 331,名為 System and method for efficient large-scale data processing(高效大規(guī)模數(shù)據(jù)處理)的專利可是非同小可。它所指的是Google最引為自豪的成果之一,也是云計(jì)算最重要的核心技術(shù)之一:MapReduce。專利的摘要是這一重要技術(shù)不錯(cuò)的定義,我們不妨來學(xué)習(xí)一下:
A large-scale data processing system and method includes one or more application-independent map modules configured to read input data and to apply at least one application-specific map operation to the input data to produce intermediate data values, wherein the map operation is automatically parallelized across multiple processors in the parallel processing environment. A plurality of intermediate data structures are used to store the intermediate data values. One or more application-independent reduce modules are configured to retrieve the intermediate data values and to apply at least one application-specific reduce operation to the intermediate data values to provide output data. |
【譯文】一種大規(guī)模數(shù)據(jù)處理系統(tǒng)和方法。其中包括一個(gè)或者多個(gè)獨(dú)立于應(yīng)用的Map模塊和一個(gè)或者多個(gè)獨(dú)立于應(yīng)用的Reduce模塊。 Map模塊是這樣配置的,它們讀取輸入數(shù)據(jù),并對此數(shù)據(jù)進(jìn)行至少一個(gè)特定于應(yīng)用的Map操作,以生成中間數(shù)據(jù)值,其中Map操作將在并行處理環(huán)境中的多個(gè)處理器實(shí)現(xiàn)自動(dòng)并行化。存儲這些中間數(shù)據(jù)值將使用許多中間數(shù)據(jù)結(jié)構(gòu)。而Reduce模塊是這樣配置的,它們獲取這些中間數(shù)據(jù)值,并對此數(shù)據(jù)應(yīng)用至少一個(gè)特定于應(yīng)用的Reduce操作,以提供輸出數(shù)據(jù)。
眾所周知,MapReduce廣泛用于各種數(shù)據(jù)挖掘應(yīng)用中,除了Google自己,還有Yahoo的搜索基礎(chǔ)設(shè)施,Amazon的Elastic MapReduce服務(wù),IBM的M2平臺,等等。當(dāng)然,最重要的實(shí)現(xiàn)應(yīng)該是開源項(xiàng)目Apache Hadoop。事實(shí)上,Hadoop已經(jīng)成為Yahoo整個(gè)Web基礎(chǔ)設(shè)施的核心,用戶還包括Facebook、Last.fm、Joost、 Meebo、Ning等2.0新貴和《紐約時(shí)報(bào)》網(wǎng)站、Rackspace等云計(jì)算公司。
那么,問題出來了:首先,Google是否應(yīng)該獲得這項(xiàng)技術(shù)的專利呢?
的確,回顧歷史,Map和Reduce函數(shù)是Lisp和其他函數(shù)式語言非常常見的特性。而Lisp語言誕生于上世紀(jì)50年代。事實(shí)上MapReduce的發(fā)明者也不諱言這一點(diǎn)。在2004年操作系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)學(xué)術(shù)會(huì)議上發(fā)表的開創(chuàng)性論文《MapReduce: Simplified Data Processing on Large Clusters》(MapReduce:大型群集上的數(shù)據(jù)處理簡化)中,除了Lisp語言之外,Jeffrey Dean和Sanjay Ghemawat還提到了Bulk Synchronous Programming、MPI、Active Disk、Condor系統(tǒng)、NOW-Sort算法、River系統(tǒng)、BAD-FS、TACC等等。但是,任何創(chuàng)新都不是從無到有的,這些相關(guān)工作總體上只是相關(guān)而已,將MapReduce思想應(yīng)用于大型群集上的數(shù)據(jù)處理,并形成完整的框架,有大量成功的應(yīng)用,的確是Google的獨(dú)門武功。
其次,這樣一個(gè)應(yīng)用廣泛的技術(shù)成為專利,影響如何呢?
必須承認(rèn),在專利糾紛滿天飛的今天,使用其他人的專利,總是存在訴訟風(fēng)險(xiǎn)。對此,Google的發(fā)言人用了法律味道很重的措辭回復(fù):
與其他負(fù)責(zé)任的創(chuàng)新公司一樣,Google會(huì)對自己開發(fā)的各種技術(shù)申請專利。雖然我們不會(huì)對這項(xiàng)專利以及我們其他的專利技術(shù)的使用進(jìn)行評論,但是我們感到迄今為止Google的表現(xiàn)與公司的價(jià)值觀和優(yōu)先級是相符的。
聽其言,觀其行,我們也許有理由對Google放心。畢竟,在可見的未來,它不會(huì)指望靠這種專利掙錢。此外,Google對Hadoop項(xiàng)目一貫支持,將其作為大學(xué)推廣項(xiàng)目的重要組成部分,使大學(xué)生也能在不涉及Google專有技術(shù)的情況下,學(xué)習(xí)Web規(guī)模的編程。
微信關(guān)注公眾號“cncompute_com ”,為您奉上最新最熱的計(jì)算頭條資訊,干貨滿滿。