通過(guò)與浪潮HPC并行優(yōu)化團(tuán)隊(duì)的合作,中國(guó)石油BGP成功完成對(duì)具有獨(dú)立知識(shí)產(chǎn)權(quán)GeoEast軟件中的SOM多屬性聚類解釋模塊的并行算法開(kāi)發(fā)和優(yōu)化。優(yōu)化后的SOM算法較原有算法,計(jì)算時(shí)間縮短6倍,同時(shí)也解決了串行版本由于內(nèi)存空間不足,無(wú)法進(jìn)行大規(guī)模數(shù)據(jù)處理的問(wèn)題。
近幾年,人工智能和GIS技術(shù)發(fā)展迅速,在石油勘探開(kāi)發(fā)領(lǐng)域中解決了許多實(shí)際問(wèn)題,體現(xiàn)出極大的應(yīng)用潛力。在眾多的人工智能技術(shù)中,自組織特征映射神經(jīng)網(wǎng)絡(luò)(Self- Organizing Map,簡(jiǎn)稱SOM)是一種非常重要的算法,廣泛應(yīng)用在裂隙性油藏預(yù)測(cè)、基于最佳測(cè)井?dāng)?shù)據(jù)的油藏特征研究等油藏管理環(huán)節(jié)中。
SOM,石油勘探的“火眼金睛”
SOM是由芬蘭赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家Kohonen教授在1981年提出的。這種網(wǎng)絡(luò)模擬大腦神經(jīng)系統(tǒng)自組織特征映射的功能,是一種競(jìng)爭(zhēng)型網(wǎng)絡(luò),并在學(xué)習(xí)中能無(wú)導(dǎo)師進(jìn)行自組織學(xué)習(xí),主要用于對(duì)輸入向量進(jìn)行區(qū)域分類。SOM是多維數(shù)據(jù)可視化的有力工具,能夠揭示隱藏在多維數(shù)據(jù)中的復(fù)雜非線性關(guān)系,并將其在低維空間中以簡(jiǎn)單的幾何關(guān)系展現(xiàn)出來(lái)。
腦神經(jīng)學(xué)研究結(jié)果表明,神經(jīng)元之間的信息交互具有的共同特征是:最臨近的兩個(gè)神經(jīng)元互相激勵(lì),較遠(yuǎn)的神經(jīng)元互相抑制,更遠(yuǎn)的則又具有較弱的激勵(lì)作用。而SOM正是基于這一原理,根據(jù)設(shè)定的學(xué)習(xí)規(guī)則,能自動(dòng)對(duì)輸入模式進(jìn)行分類,并通過(guò)對(duì)輸入模式的自組織學(xué)習(xí),將分類結(jié)果表示出來(lái)。
因此,SOM主要功能就是聚類,幫助研究人員從繁瑣、耗時(shí)且易出錯(cuò)的人工統(tǒng)計(jì)工作中脫離出來(lái)。與其他聚類方法相比,SOM網(wǎng)絡(luò)的優(yōu)點(diǎn)在于:可以實(shí)現(xiàn)實(shí)時(shí)學(xué)習(xí),網(wǎng)絡(luò)具有自穩(wěn)定性,無(wú)須外界給出評(píng)價(jià)函數(shù),能夠識(shí)別向量空間中最優(yōu)意義的特征,抗噪聲能力強(qiáng),一般不依賴于數(shù)據(jù)分布的形狀。
舉例來(lái)講,在石油勘探中,研究人員在選定位置放置炸藥,爆炸引起的彈性波在巖石中傳播時(shí),當(dāng)遇著巖層的分界面,便產(chǎn)生反射波或折射波,在它返回地面時(shí)用高度靈敏的儀器記錄下來(lái),根據(jù)波的傳播路線和時(shí)間,確定發(fā)生反射波或折射波的巖層界面的埋藏深度和形狀,認(rèn)識(shí)地下地質(zhì)構(gòu)造,以尋找油氣圈閉。SOM可以將收集的地震波數(shù)據(jù)進(jìn)行分類,然后根據(jù)設(shè)置的學(xué)習(xí)規(guī)則,自動(dòng)尋找有利的油氣儲(chǔ)存空間。
浪潮,讓SOM變成“三頭六臂”
隨著石油勘探開(kāi)發(fā)程度的加深以及難度的增大,SOM算法的數(shù)據(jù)量也不斷增加,這使得采用單CPU單線程串行計(jì)算的SOM軟件,在處理數(shù)據(jù)體時(shí)速度變慢、效率很低,難以滿足實(shí)際生產(chǎn)的需要。更嚴(yán)重的是,當(dāng)數(shù)據(jù)超出一定量級(jí)時(shí),由于內(nèi)存容量的限制,串行程序的SOM將無(wú)法進(jìn)行數(shù)據(jù)處理。
為解決上述困局,浪潮與中國(guó)石油BGP合作,聯(lián)合對(duì)GeoEast軟件中的SOM多屬性聚類算法進(jìn)行并行優(yōu)化并取得了較好的效果。
在對(duì)原SOM多屬性聚類算法及代碼分析后,浪潮高性能計(jì)算并行團(tuán)隊(duì)提出了從硬件(計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)互聯(lián)、存儲(chǔ)節(jié)點(diǎn))到軟件(參數(shù)優(yōu)化、代碼優(yōu)化)的一攬子解決方案,綜合利用多核CPU計(jì)算設(shè)備、內(nèi)存、磁盤、網(wǎng)絡(luò)等系統(tǒng)資源,最大化提升軟件整體效能。特別在算法方面,浪潮與客戶算法專家團(tuán)隊(duì)共同成立專門聯(lián)合攻關(guān)項(xiàng)目組,對(duì)模塊算法進(jìn)行深度改造,以適應(yīng)不同內(nèi)存容量配置的系統(tǒng)平臺(tái),實(shí)現(xiàn)小內(nèi)存平臺(tái)能夠處理大規(guī)模數(shù)據(jù)作業(yè),解決了原串行程序無(wú)法處理大數(shù)據(jù)的問(wèn)題。,
原串行版本程序運(yùn)行一個(gè)作業(yè)的時(shí)間大約為1247秒,優(yōu)化后的并行版本程序運(yùn)行同一作業(yè)在開(kāi)啟12個(gè)并行線程的條件下,運(yùn)行時(shí)間約為200秒,加速比達(dá)到6倍,大幅降低了作業(yè)時(shí)間。同時(shí),優(yōu)化后的程序順利實(shí)現(xiàn)了在小內(nèi)存的硬件環(huán)境下,對(duì)大規(guī)模數(shù)據(jù)的處理。
某石油研究機(jī)構(gòu)實(shí)際數(shù)據(jù)性能測(cè)試結(jié)果
經(jīng)過(guò)與浪潮應(yīng)用開(kāi)發(fā)團(tuán)隊(duì)合作,對(duì)GeoEast軟件中的SOM多屬性聚類解釋模塊進(jìn)行并行算法的開(kāi)發(fā)和優(yōu)化后,較原有算法獲得比較好的的加速比。在大幅降低計(jì)算時(shí)間的同時(shí),也解決了原串行程序由于內(nèi)存空間不足,無(wú)法處理大規(guī)模數(shù)據(jù)的問(wèn)題。
浪潮是國(guó)內(nèi)最早將應(yīng)用優(yōu)化視為核心競(jìng)爭(zhēng)力的HPC整體解決方案供應(yīng)商,并在異構(gòu)計(jì)算技術(shù)興起后,率先推動(dòng)GPU和MIC技術(shù)走向落地,致力于異構(gòu)應(yīng)用發(fā)展和人才培養(yǎng),促進(jìn)異構(gòu)技術(shù)的產(chǎn)業(yè)生態(tài)環(huán)境建設(shè)。