2011年5月18日,應(yīng)用與創(chuàng)新第三屆中國云計算大會云基地專場在北京云基地二層舉辦。中云網(wǎng)作為本屆云計算大會云基地專場官方指定戰(zhàn)略合作門戶網(wǎng)站和官方指定的合作新聞中心,進行全方位的視頻、圖文采訪與直播。
19日下午,“應(yīng)用高峰論壇”在云基地召開,Mellanox楊智雷出席大會并發(fā)表主題演講。
Mellanox楊智雷(中云網(wǎng)攝)
以下是Mellanox楊智雷的演講全文:
楊智雷:
大家好!
我叫楊智雷,大家可能聽到一些消息,就是幾乎所有做高性能計算的廠商有另外一塊新業(yè)務(wù),就是我們今天講的炙手可熱的云計算,因為有很多云計算的平臺是源自于以前高性能計算領(lǐng)域?,F(xiàn)在Mellanox能給各位提供的是從芯片到卡、到交換機、軟件是一個端到端的解決方案供應(yīng)商。我們下面有一張表可以看到,所以在高性能計算,在云計算現(xiàn)在需要大帶寬的虛擬化服務(wù)器環(huán)境里面會有很多客戶會選擇Mellanox。
今天我用很短的時間給各位介紹一下Mellanox在WEB2.0有哪些技術(shù)和新的方案幫助各位。在這里我們有趨勢的分析,簡單講目前在WEB2.0市場里面,我們能看到的基本架構(gòu)是前端的WEB服務(wù)器和中間的服務(wù)器和后面的存儲服務(wù)器,這需要一個很大的帶寬做支撐才可以。我們前端可能有很多互聯(lián)網(wǎng)的個人用戶通過WEB2.0或者是未來WEB3.0的服務(wù)獲得一些相應(yīng)的知識和服務(wù)。所以在整個市場里面,我們能看到比如說在互聯(lián)網(wǎng)的很多客戶,他們在使用的架構(gòu),現(xiàn)在我們聽說的開原軟件,我們在前端可能有很多客戶端應(yīng)用WEB Servers,通常情況下我們都會有很大量的中間緩存服務(wù)器。所以在這個中間架構(gòu)里面我們看到它的網(wǎng)絡(luò)實際上是非常大的瓶頸,目前我們能看到所有WEB2.0的互聯(lián)網(wǎng)公司,幾乎都有部署MemCached的服務(wù)器,我們在海外有很多像亞馬遜、FaceBook等等都是Mellanox的客戶,相對于以太網(wǎng)來說是延遲差不多是以太網(wǎng)的百分之一到千分之一。我們今天在國內(nèi)的中國移動、百度、阿里巴巴,這些都在使用做數(shù)據(jù)挖掘的工作,當你使用類似于分布式計算的平臺去做數(shù)據(jù)挖掘工作的時候,他有兩個瓶頸,現(xiàn)在我們通常會看到WEB2.0客戶,服務(wù)器相互之間通訊的帶寬,當我們看到每個服務(wù)器CPU的核數(shù)越來越大單節(jié)點的計算能力已經(jīng)很強了,所以它要求的數(shù)據(jù)吞吐量也越來越高,這個時候千兆網(wǎng)已經(jīng)遠遠不能滿足這個需求了,所以未來得需求就是換成其他的網(wǎng)絡(luò)技術(shù)能夠做系統(tǒng)的提升。
所以在WEB2.0領(lǐng)域里面,Mellanox能做的事情,我們能看到前端的WEB Servers到數(shù)據(jù)分析,我們通常用Mellanox的解決方案,我們差不多提高至少兩倍的性能,在存儲這個地方MemCacheD會有一些提升。為什么今天講WEB2.0這個市場比較大呢?今天跟云計算相關(guān)的更多的應(yīng)用都會未來部署在互聯(lián)網(wǎng)上,會基于WEB2.0的應(yīng)用平臺上做。
這里面有一些測試的數(shù)據(jù),舉個例子我有一個TB的數(shù)據(jù)做排序,他用209秒的時間做數(shù)據(jù)排序,當時奠定了我們做WEB2.0應(yīng)用客戶里面它是基礎(chǔ)架構(gòu)軟件,所以這里面使用萬兆以太網(wǎng)我們做了評測,測試的平臺很小,所以我們看到取得的成績并不是非常明顯,但是已經(jīng)足夠說明問題了,我們可以提高整個網(wǎng)絡(luò)利用效率。我們把千兆網(wǎng)、萬兆網(wǎng)使用了傳統(tǒng)的千兆網(wǎng)和傳統(tǒng)的以太網(wǎng),相互之間我們做了評測,所以大家可以看到在基于WEB2.0應(yīng)用的時候,能夠?qū)崿F(xiàn)更高帶寬的通訊,能進一步縮減每一個排序作業(yè)和數(shù)據(jù)分析作業(yè)的時間,這是可以直接看到的結(jié)果。
在Memcached Test作業(yè)里面我們可以看的更明顯,我們發(fā)現(xiàn)它的性能非常的客觀,當你有更多的訪問請求的時候,他會給各位提供更好的通訊帶寬,也可以提供更好的效率。
這是在不同的平臺上面我們做的測試結(jié)果,傳統(tǒng)的萬兆以太網(wǎng)和千兆網(wǎng),我們看到千兆網(wǎng)的效率是很有限的。尤其當你交易的數(shù)據(jù)量上來的時候,你會發(fā)現(xiàn)帶寬和數(shù)據(jù)的處理能力會非??斓南陆?。
簡單介紹一下我們在做的一片網(wǎng)卡的技術(shù)叫做ConnectX,我們Mellanox提供的做出來的卡有兩種功能,一種功能你可以拿這個卡裝帶寬,端到端的延遲是小于1.5微妙的延遲。另外一個就是它可以支持所有的數(shù)據(jù)中心的應(yīng)用,可以支持FCoE和RDMA,大家可能會看,所有Mellanox的網(wǎng)卡,今天你能通過超云實際上它的端口可能有兩種類型。在以太網(wǎng)領(lǐng)域里面,我們引入了RDMA的技術(shù),叫做遠程直接內(nèi)存訪問,這個技術(shù)基本上把所有服務(wù)器跟服務(wù)器通訊的瓶頸徹底打破了,邏輯上邏輯就是服務(wù)器A的CPU可以直接訪問CPU的B內(nèi)存,無論是傳統(tǒng)的千兆網(wǎng)或者是現(xiàn)在的萬兆以太網(wǎng),你所有的數(shù)據(jù)包先封包傳過去,這個過程要CPU參與,要有大量的握手協(xié)議做通訊。在這個領(lǐng)域里面我們使用RDMA技術(shù),有點類似于以前小型計算的架構(gòu),這也是我們?yōu)槭裁绰犝f過一個號稱全球最快的服務(wù)器,他最核心的地方有兩個,就是所有的服務(wù)器是用X86架構(gòu),都是基于六核的CPU去實現(xiàn)的,他要解決內(nèi)部的瓶頸就是通過這個來實現(xiàn)的。所以我相信在未來會有很多的應(yīng)用軟件,依據(jù)這個協(xié)議會做一下編譯可以提高很大的性能。RoCEE是標準管理,我們看到它的QoS的管理,包括地址的解析,它都可以用標準的以太網(wǎng)來實現(xiàn)。這是redhat發(fā)布的測試結(jié)果,使用了ConnectX它的處理時間是非常短的,另外我們之前跟IBM也做了WebSphere,在傳統(tǒng)的以太網(wǎng)里面我們可以更好的實現(xiàn)性能。所以現(xiàn)在在我們的客戶里面,像FaceBook、亞馬遜、微軟等等。
剛才講到了這里面所有的網(wǎng)絡(luò)全部都是來自于網(wǎng)卡、交換機、管理軟件,它還有存儲,它號稱最快,一個是對外的響應(yīng),另外一個是對內(nèi)的存儲。比如說今天我們墻上掛的超云,它所有其他的服務(wù)器和存儲服務(wù)器借助高速通道來實現(xiàn)高速互聯(lián)通信,所以保證它所有的通道和平面都能達到水平線,所以這是能做到的。包括還有IBM的DB2,IBM在全球致力于推廣這些都是我們的客戶。
我在這里特意把這張表列出來,微軟用880個節(jié)點做成一組,跟另外880個通過網(wǎng)絡(luò)互聯(lián)起來,所以是以880為一個規(guī)模的節(jié)點。這里面所有的交換機都是這樣的,平均一個服務(wù)器獲得的端口帶寬是8GB,這是根據(jù)微軟的設(shè)計需要,我們看這種架構(gòu),如果你想用思科、華為這些以太網(wǎng)交換機搭建架構(gòu)的時候,全線速需要三層架構(gòu),兩層以太網(wǎng)交換機,所以我的核心交換機只能有兩臺,你的核心層可以根據(jù)你的需要是十臺或者是一百臺,所以可以有很多小交換機去實現(xiàn)。以這樣的架構(gòu)去規(guī)劃880節(jié)點,我只需要買一堆小交換機,因為每一個小交換機的成本是非常低的,現(xiàn)在我只需要用標準的邊緣交換去實現(xiàn),我們微軟的客戶也想到了服務(wù)器連起來,這些跟筆記本怎么連,你可以根據(jù)實際的以太網(wǎng)線纜可以去鏈接。所以它是一個非常標準的通信協(xié)議,這是我們在海外非常成功的案例,有很多WEB2.0的客戶都在使用這樣的案例,這是其中的一個。現(xiàn)在已經(jīng)建了很多套了,大概有6000多個節(jié)點在后臺運行。
這是eBay,這是純粹的全線速萬兆以太網(wǎng)的解決方案,這個規(guī)模只能做到576個節(jié)點,任何兩個節(jié)點的帶寬都能獲得萬兆的帶寬,所以我們的核心層有兩臺288口的萬兆交換機,小個是24口的交換機,拿出12個端口相連,這是最大規(guī)模的。如果用更大規(guī)模的以太網(wǎng),我們Mellanox會有下一代產(chǎn)品,我相信在七八月份的時候可以看到,我們自己也可以做到幾千個甚至上萬個節(jié)點。
這里面提到另外一個概念,在數(shù)據(jù)庫層面可以提高一百倍的性能,為什么可以做到這點呢?其實就是Storage Servers,我們通過Mellanox自己的一個軟件,這是我們跟天云、超云未來合作很重要的方面,這是我們的配制,前面我們有超云的服務(wù)器,這個很貴了上TB的存儲的時候我們怎么做,我們做整合配制的時候是這樣一個設(shè)備,我們在海外有很多成功案例,因為時間比較有限所以能給各位匯報的就是這么多。還有一個話題,大家可能聽說過Mellanox的公司并不是很多,我們在國內(nèi)所有的科研院所,我們能聽說過的曙光的千萬次、百萬次計算機,在國內(nèi)我們基本上能在中央電視臺看到的新聞里面,我們做的銀河,包括之前做的天河,內(nèi)部的網(wǎng)絡(luò)設(shè)備全部都是Mellanox的,所以目前全球做HPC里面我們差不多占了90%的市場份額,但是在很多Servers廠商里面都是我們的合作伙伴,大家能看到未來有很多云的解決方案里面,內(nèi)部的網(wǎng)絡(luò)我相信有兩種選擇,一個是40GB的以太網(wǎng),當你在一個Servers里面有很多虛擬機的時候,在虛擬機虛擬化云的平臺里面,你會發(fā)現(xiàn)另外一個瓶頸,就是存儲的瓶頸,當你在一個物理層面運行的時候,你會發(fā)現(xiàn)你的IO的瓶頸會非??斓倪_到峰值,借助于這種高速的網(wǎng)絡(luò),你會發(fā)現(xiàn)用40GB的以太網(wǎng)在短期內(nèi)會把這個問題解決掉,所以這應(yīng)該是個趨勢,尤其是在云時代,大家會看到越來越多的服務(wù)器要連起來協(xié)同工作,這個時候服務(wù)器之間通訊的延遲和服務(wù)器帶寬之間的需求會越來越大,這是我們未來的使命,Mellanox要做的事情就是提供高帶寬低延遲的網(wǎng)絡(luò)系統(tǒng),謝謝大家!