一個國家要發(fā)展,沒有能源是絕對不行的。對于汽車來說,這個能源是油;對于廚房來說,這個能源是氣;而對于其他的工業(yè)、企業(yè)和家庭來說,這個能源就是電。
不用任何數(shù)據(jù),我們就可以大致想象出國家電網(wǎng)公司具有怎樣的規(guī)模和體量。而這樣一個公司想要完成信息化改造,想要上云,想要部署大數(shù)據(jù);那又會是一個不可思議的需求量。而國電南瑞就是這樣一家主要為國家電網(wǎng)服務(wù)的系統(tǒng)集成商。
有句老話叫“靠山吃山”。守著國家電網(wǎng)這座金山的南瑞憑著自己的關(guān)系和背景本來可以輕松的“躺著賺錢”。但這家擁有系統(tǒng)集成一級資質(zhì)的公司卻并不想這樣沒出息的活著。因為做IT,他們是認真的。
為國家電網(wǎng)這樣的超級公司服務(wù),南瑞能夠見到別的公司想都不敢想的系統(tǒng)規(guī)模,南瑞碰到的也是別的公司解決不了的問題。而在這樣的環(huán)境中,南瑞積累的經(jīng)驗和得到的洞察是比營收更寶貴的東西。而憑著這些積累,南瑞想做的事就是研發(fā)。
自主高性能數(shù)據(jù)平臺
面對國家電網(wǎng)這樣規(guī)模的IT需求,南瑞碰到了很多深層次的問題。面對無盡的升級和系統(tǒng)擴容,南瑞總是在想:為什么用了這么多小型機,系統(tǒng)整體性能還是上不去?為什么用了這么多高端存儲設(shè)備,系統(tǒng)的整體IO還是不高,響應(yīng)還是很慢?是應(yīng)用開發(fā)的不好,還是系統(tǒng)太龐大、并發(fā)太高?
總結(jié)下來,南瑞發(fā)現(xiàn)國電遇到的很多問題其實與早年的互聯(lián)網(wǎng)巨頭遇到的問題本質(zhì)上是一樣的。而且由于國家電網(wǎng)對高可用的硬性需求,問題只會變得更加復(fù)雜。
既然軟件定義數(shù)據(jù)中心的思路能夠解決互聯(lián)網(wǎng)公司的問題,那國家電網(wǎng)的問題也應(yīng)該遵循這個原則。當(dāng)然,面對高可用這個繞不開的坎,照搬互聯(lián)網(wǎng)那一套肯定也是不行的。
于是瑞騰高性能數(shù)據(jù)平臺項目就這樣上馬了。
在很多人的印象中,IOE在IT系統(tǒng)上幾乎是無所不能的。但在面對國家電網(wǎng)這樣的公司時,IOE的頂尖設(shè)備也往往無能為力。
就拿處理性能來說,單臺小型機雖然能夠提供很高的性能。但小型機的擴展能力畢竟有限,遇到超過其容量上限的問題時,小型機也無能為力。而在系統(tǒng)內(nèi)部的擴展性上,小型機雖然有很多接口和先進的設(shè)計來滿足不同類型的需求,但在實際部署過程中,很多接口都是閑置的;而這種閑置就是浪費。一方面是性能瓶頸的存在,一方面又是資源的閑置。解決這種矛盾的唯一方法便是能夠橫向擴展的x86系統(tǒng)。
再說可靠性。在小型機時代,系統(tǒng)的RAS在很大程度上依賴于底層的硬件來實現(xiàn)。從5個9到6個9,可靠性的提升僅僅是每年幾分鐘的計劃外停機時間,但企業(yè)付出的卻是幾十甚至上百倍的成本提升。拜互聯(lián)網(wǎng)思維所賜,既然提升單點的可靠性太貴,那不妨以量取勝。借助分布式軟件架構(gòu),x86系統(tǒng)可以用龐大的數(shù)量來成倍的提升可靠性,這樣做既能滿足性能需求而且在成本上還有優(yōu)勢。
而在IO方面,問題也十分類似。傳統(tǒng)專用存儲設(shè)備雖然能夠提供不錯的數(shù)據(jù)可靠性,但性能瓶頸過于明顯。面對國家電網(wǎng)一個40-60萬IOPS的ERP項目,傳統(tǒng)存儲幾乎是無法完成的。而解決之道就是目前風(fēng)生水起的SSD技術(shù)。
有了對實際問題的這些看法,南瑞瑞騰高性能數(shù)據(jù)平臺的形態(tài)也就基本明確了。這是一套采用x86架構(gòu)、易于橫向擴展且能夠借助SSD技術(shù)提供高IO的設(shè)備。當(dāng)然,這套設(shè)備還要對實際的應(yīng)用進行很好的優(yōu)化。
經(jīng)過與x86行業(yè)龍頭老大的密切溝通,南瑞終于拿出了瑞騰高性能數(shù)據(jù)平臺。以瑞騰2060系統(tǒng)為例,他自帶6個分布式存儲節(jié)點,能夠提供100萬IOPS;同時它還配備了兩個計算節(jié)點和一個提供高可用能力的冗余節(jié)點。而這樣一套平臺可使單套數(shù)據(jù)庫橫向擴展為16個節(jié)點,整個平臺可以支撐上百個計算節(jié)點和上千個存儲結(jié)點。
而從實際的使用效果來看,標(biāo)準雙節(jié)點的瑞騰平臺使用Oracle數(shù)據(jù)泵導(dǎo)入1.5TB只需要15分鐘,而傳統(tǒng)小型機則需要幾個小時。而當(dāng)系統(tǒng)節(jié)點出現(xiàn)故障,瑞騰平臺可以在1小時內(nèi)通過RMAN恢復(fù)13TB的數(shù)據(jù),傳統(tǒng)小型機在同樣情況下恢復(fù)數(shù)據(jù)則用了38個小時。
南瑞背后的“兩個大哥”
南瑞能夠獲得系統(tǒng)集成一級資質(zhì)并完成瑞騰高性能數(shù)據(jù)平臺的研發(fā),與南瑞所處的環(huán)境和技術(shù)上努力都是分不開的。
國家電網(wǎng)作為南瑞的大哥和控股人,給了南瑞龐大的發(fā)展空間和表現(xiàn)舞臺,讓南瑞有機會接觸到更大的工程和更高端的需求。