本周我在納帕參加了HotOS 2011年會(huì)--關(guān)于操作系統(tǒng)的最高級(jí)研討會(huì)。本次年會(huì)是第24次--它開(kāi)始于1987年的關(guān)于工作站操作系統(tǒng)的研討。關(guān)于年會(huì)的更多的信息可在即將提交的博客中獲得,此時(shí)此刻,我想就昨天分組會(huì)議上充滿活力的討論發(fā)表一點(diǎn)看法。
這個(gè)分組由以下成員組成:斯坦福大學(xué)的孟德?tīng)?羅森布拉姆(虛擬機(jī)),微軟研究院的麗貝卡.艾薩克,谷歌的約翰.威爾克斯,加州伯克利分校的艾恩.史杜爾卡。這個(gè)分組的指定討論主題是關(guān)于云計(jì)算理論研究與面臨的工業(yè)現(xiàn)實(shí)之間的差距。這個(gè)討論的產(chǎn)生部分地緣于關(guān)于云計(jì)算的理論研究團(tuán)體向年會(huì)提交的大量論文。討論組感到有些論文正嘗試解決錯(cuò)誤的問(wèn)題,或者對(duì)于現(xiàn)實(shí)世界里的云計(jì)算做出了不正確的假定。我們想,假定大學(xué)無(wú)法建造一定規(guī)模和復(fù)雜度的真實(shí)世界的云計(jì)算平臺(tái)前提下,聽(tīng)聽(tīng)理論研究者和工業(yè)的代表來(lái)談?wù)摾碚撗芯空呦M鯓尤パ芯吭朴?jì)算,這會(huì)是很有趣的事情。令人擔(dān)心的是,理論研究將會(huì)降低去解決外圍的細(xì)小問(wèn)題,或者提出玩具解決方案。
如我所見(jiàn),最大的挑戰(zhàn)是,在大學(xué)環(huán)境中幾乎不可能建造關(guān)于云計(jì)算的基礎(chǔ)設(shè)施情況下,如何去鼓勵(lì)勵(lì)理論研究者去做關(guān)于云計(jì)算的有趣和相關(guān)的工作。約翰.威爾克斯表達(dá)了一個(gè)觀點(diǎn),他不想再看到有一篇論文闡釋在集群測(cè)試上的10%的性能改進(jìn),他是對(duì)的----對(duì)于理論研究來(lái)說(shuō)這是一個(gè)錯(cuò)誤的問(wèn)題。不是因?yàn)?0%的改進(jìn)毫無(wú)用處,也不是集群測(cè)試是一個(gè)糟糕的平臺(tái),而是因?yàn)檫@些問(wèn)題工業(yè)制造方面正在得以解決。我的觀點(diǎn)看來(lái),理論研究最好的角色是開(kāi)啟新的領(lǐng)域和比當(dāng)前產(chǎn)業(yè)看得更遠(yuǎn)。但是這經(jīng)常與關(guān)于“工業(yè)相關(guān)”理論研究的渴望格格不入,這和從工業(yè)獲取贊助一樣。我常常覺(jué)得學(xué)者陷入了做事情的陷阱中,就像在一家公司中會(huì)步入的一樣。
HotOS辯論大部分是圍繞產(chǎn)業(yè)的。理論劃分和它的大部分是目標(biāo),這在我前期的提交的關(guān)于的這個(gè)主題的博客中已經(jīng)提到。提摩太.羅斯科認(rèn)為,學(xué)術(shù)界的作用是揭示復(fù)雜的問(wèn)題,獲得理解之光,而不僅僅是工程師的解決方案。我同意這一點(diǎn)。有時(shí)在谷歌,我覺(jué)得我們這么匆忙地執(zhí)行,以致我們不花時(shí)間去深入的理解問(wèn)題:建立一些能工作的事物,然后轉(zhuǎn)移到下一個(gè)問(wèn)題。當(dāng)然,你必須在產(chǎn)業(yè)中快速移動(dòng)。這個(gè)步伐和理論是不一樣的,一個(gè)博士學(xué)位的學(xué)生要花費(fèi)多年的時(shí)間集中在一個(gè)問(wèn)題,才能寫(xiě)出論文來(lái)。
我們現(xiàn)在還沒(méi)有,但正在努力開(kāi)拓云計(jì)算的基礎(chǔ)設(shè)施,來(lái)進(jìn)行理論研究。OpenCirrus是一個(gè)測(cè)試平臺(tái),由惠普支持,英特爾和雅虎擁有超過(guò)10,000個(gè)內(nèi)核,學(xué)者可以利用,進(jìn)行系統(tǒng)的研究。微軟已經(jīng)開(kāi)放了Azure的云計(jì)算平臺(tái)進(jìn)行理論研究。在HotOS研討會(huì)上,當(dāng)被問(wèn)及是否有人利用這一點(diǎn),只有一個(gè)人舉手 -- 這實(shí)在是不幸的。 (我的理論是,學(xué)術(shù)界在規(guī)劃C#和Visual Studio有過(guò)敏反應(yīng),這是太糟糕了,因?yàn)檫@是一個(gè)真正偉大的平臺(tái),如果你可以克服的工具鏈的話。)谷歌將通過(guò)其Exacycle方案提供一億核心工作時(shí)間,以及和亞馬遜有一個(gè)研究資助計(jì)劃。
提供基礎(chǔ)設(shè)施,只有一個(gè)解決方案的一部分。知道要致力于什么問(wèn)題,是另一部分。在HotOS,很多人感嘆的是,像谷歌這樣的公司,他們是多么神秘,這很難學(xué)習(xí)什么是來(lái)自外部的“真正的”挑戰(zhàn)。我的答案是花時(shí)間在谷歌作為訪問(wèn)學(xué)者,并派送您的學(xué)生做實(shí)習(xí)。盡管它可能不會(huì)導(dǎo)致論文的出版,我可以保證,您將在云計(jì)算的難題中學(xué)習(xí)到很多,對(duì)理論工作來(lái)說(shuō),那里存在巨大的機(jī)會(huì)。(該死,在谷歌的頭幾天,我的心快被爆炸了。這就像服用紅色藥丸似的。)
在云計(jì)算的理論研究的成熟領(lǐng)域,有幾件事情起跳入我的腦海:
·理解和預(yù)測(cè)不同規(guī)模上的性能,伴隨著不確定性的工作量和頻繁的節(jié)點(diǎn)故障。
·管理能力差異很大、偶爾中斷,限制跨數(shù)據(jù)中心的鏈接在網(wǎng)絡(luò)上的多個(gè)數(shù)據(jù)中心的工作量。
·建立故障恢復(fù)機(jī)制,這對(duì)大規(guī)模的相關(guān)的故障是健壯的。(這就是幾個(gè)星期前擊垮在亞馬遜EC2的。)
·調(diào)試大規(guī)模的云計(jì)算應(yīng)用:工具收集,可視化,并檢查各地成千上萬(wàn)的內(nèi)核正在運(yùn)行的作業(yè)狀態(tài)。
·管理對(duì)一個(gè)大型的代碼庫(kù)的依賴,這個(gè)代碼庫(kù)依靠廣泛的分布式服務(wù),如Chubby和GFS。
·處理大規(guī)模的計(jì)算能力的升級(jí)以及持續(xù)大規(guī)模故障,而無(wú)需完全關(guān)閉您服務(wù),一切都依賴于它。