機(jī)會(huì)與挑戰(zhàn)往往并存
在講華為關(guān)鍵業(yè)務(wù)服務(wù)器的RAS特性之前,在此有必要明確一點(diǎn),那就是一般x86服務(wù)器廠商所生產(chǎn)服務(wù)器的RAS特性如何。用通俗的話解釋,一般的x86服務(wù)器,其RAS特性主要依賴于處理器的RAS特性。什么意思呢?就是處理器有的特性,你這服務(wù)器可能有,處理器沒(méi)有的,你這服務(wù)器基本就沒(méi)有。在這里筆者特別強(qiáng)調(diào)了“可能”和“基本”兩個(gè)詞,“可能”意味著即便處理器有這項(xiàng)特性,但廠商不一定有能力把它用起來(lái),而“基本”則意味著如果處理器沒(méi)這項(xiàng)特性,廠商幾乎也沒(méi)能力通過(guò)其他方面做彌補(bǔ)。
其實(shí),“可能”和“基本”兩個(gè)詞也是在筆者看來(lái)做x86關(guān)鍵業(yè)務(wù)服務(wù)器的兩個(gè)層面,第一個(gè)層面是你有能力實(shí)現(xiàn)x86處理器原有的特性,二是在基礎(chǔ)上還能做進(jìn)一步的深化。做個(gè)形象的比喻,第一個(gè)層面好比考試時(shí)的必答題,第二個(gè)層面則是加分題,能完成必答題說(shuō)明你已經(jīng)有一定的實(shí)力,而只有答完加分題才能脫穎而出。
因此,之所以說(shuō)華為走在了關(guān)鍵業(yè)務(wù)服務(wù)器的前列,也是因?yàn)槠洳粌H能夠完成必答題,而且加分題做的也不錯(cuò)。比如,在必答題項(xiàng),華為能夠100%實(shí)現(xiàn)英特爾至強(qiáng)E7系列處理器的RAS特性;而在加分題項(xiàng),華為深入每一個(gè)器件,以保證最終產(chǎn)品的可靠性。
華為自研的BMC(板載管理芯片)
具體而言,以必答題為例,為實(shí)現(xiàn)100%的Intel Run Sure RAS特性,華為從底層芯片(包括板載管理芯片BMC、存儲(chǔ)控制芯片等)到操作系統(tǒng)(華為Euler OS)均考慮到了可靠性設(shè)計(jì)。舉個(gè)例子,其自研的BMC和BIOS憑借固件優(yōu)先模式能夠先于操作系統(tǒng)發(fā)現(xiàn)并處理故障,通過(guò)此項(xiàng)技術(shù)可屏蔽60%的可能引發(fā)操作系統(tǒng)宕機(jī)的故障;再比如,在存儲(chǔ)控制芯片中,華為利用自研的均衡型讀寫磨損算法,可有效避免存儲(chǔ)顆粒高頻度非均衡讀寫導(dǎo)致的存儲(chǔ)設(shè)備壽命提前結(jié)束、數(shù)據(jù)丟失等問(wèn)題,實(shí)現(xiàn)5個(gè)9的數(shù)據(jù)可靠性。更多華為獨(dú)有的創(chuàng)新之處這里不再一一列舉,就像前文所講從底層芯片到操作系統(tǒng)每個(gè)細(xì)節(jié)都體現(xiàn)著華為的創(chuàng)新精神。
RAS2.0,加出來(lái)的1.0體現(xiàn)在哪?
說(shuō)完了必答題,我們?cè)僦v講加分題。如果說(shuō)能夠100%實(shí)現(xiàn)處理器本身RAS特性所生產(chǎn)的服務(wù)器我們稱其RAS特性為1.0水平的話,那華為關(guān)鍵業(yè)務(wù)服務(wù)器儼然就是2.0的標(biāo)準(zhǔn)。下面我們看看華為是如何深入每個(gè)器件保證系統(tǒng)可靠性的。簡(jiǎn)單來(lái)說(shuō),就是兩個(gè)原則,使用正確的器件和正確的使用器件,這不是繞口令,前者代表會(huì)選,后者意味著會(huì)用。這么聽起來(lái)可能比較抽象,下面通過(guò)一個(gè)較為完整的流程,帶你大致了解下華為對(duì)于器件的選擇和使用。
首先,在器件供應(yīng)商的選擇上,華為會(huì)采用TQRDC-ES原則,分別從技術(shù)、質(zhì)量、響應(yīng)、供貨表現(xiàn)、社會(huì)責(zé)任、環(huán)境保護(hù)等多個(gè)層面進(jìn)行嚴(yán)格篩選。其次,器件選定后,華為會(huì)100%采用降額設(shè)計(jì),也就是使器件工作中所承受的壓力(主要是電應(yīng)力和溫度應(yīng)力)低于額定值,以達(dá)到降低器件故障率,提升可靠性的目的,而且在此基礎(chǔ)上,華為還設(shè)有專門的器件中心對(duì)器件進(jìn)行工藝剖析、失效分析,以確定器件能夠滿足華為的要求。
隨后進(jìn)入下一階段,F(xiàn)MEA:failure mode and effect analysis(失效模式和影響分析)。在該階段,華為會(huì)分析所有故障影響,優(yōu)化故障管理能力。對(duì)于嚴(yán)重故障,要求避免;對(duì)于需要處理的故障,要求能檢測(cè)并定位到FRU。接下來(lái)是高可靠硬盤設(shè)計(jì)、熱設(shè)計(jì)、冗余&熱插拔設(shè)計(jì)。
到此并不算完,經(jīng)歷過(guò)所有這一切研發(fā)、生產(chǎn)出的成品還要經(jīng)歷一系列嚴(yán)苛的測(cè)試,比如降額審查(對(duì)單板選用的器件進(jìn)行降額審查,以確保所選器件滿足降額要求)、環(huán)境氣候測(cè)試、振動(dòng)沖擊試驗(yàn)、EMC試驗(yàn)等,最終才會(huì)出現(xiàn)在客戶面前。
可能以上篩選、測(cè)試、設(shè)計(jì)環(huán)節(jié)聽著比較抽象,我們看看通過(guò)這一套流程最終得到的產(chǎn)品究竟是什么樣。鑒于我們不可能把產(chǎn)品所有方方面面的特性都列舉在此,因此只舉幾個(gè)典型的例子來(lái)說(shuō)明一下。比如,全模塊免開箱更換部件設(shè)計(jì),1分鐘就能免工具實(shí)現(xiàn)部件更換;再比如全模塊100%熱插拔設(shè)計(jì),像風(fēng)扇、電源、硬盤的熱插拔已不值一提,而包括CPU模塊和內(nèi)存板的熱插拔均能在華為關(guān)鍵業(yè)務(wù)服務(wù)器上得以體現(xiàn)。除此之外,還有像PFA(預(yù)故障分析)、分區(qū)技術(shù)也都處于業(yè)界領(lǐng)先地位。