7月20日,在英特爾至強融核應(yīng)用創(chuàng)新論壇上,伴隨著英特爾至強融合處理器“Knights Landing”(以下簡稱KNL)正式進(jìn)入中國市場,英特爾與浪潮聯(lián)合發(fā)起的“KEEP”試用體驗計劃(KNL Evaluation and Escalation Program)也正式接受報名申請。
據(jù)了解,除了在論壇現(xiàn)場報名“KEEP”計劃外,全球科研院所或?qū)嶒炇业目蒲行〗M、高校師生以及企業(yè)HPC用戶,均可登陸官方網(wǎng)站http://inspurhpc.com/KEEP/,向Inspur-Intel中國并行計算實驗室提交應(yīng)用說明和KNL測試遷移申請。一旦申請審核通過,即可免費成為“KEEP”計劃的體驗用戶。
多人現(xiàn)場進(jìn)行KEEP報名
“KEEP”計劃負(fù)責(zé)人、Inspur-Intel中國并行計算聯(lián)合實驗室首席工程師張清表示,KNL帶來一種全新的計算體驗,擁有更靈活的產(chǎn)品模式、更好的性能功耗比、更高的內(nèi)存容量和帶寬以及更簡單的編程體驗。
KNL的首要變化就是既可以繼續(xù)做協(xié)處理器,也可以單獨做中央主處理器,支持Host processor、Host processor with Integrated fabric及Co-processor三種模式。其中,Hostprocessor模式將消除PCIE瓶頸,可尋址的物理內(nèi)存最大可達(dá)到400GB,其中DDR4內(nèi)存最大為384GB,帶寬為90+GB/s,MCDRAM片上內(nèi)存最大為16GB,帶寬可達(dá)到500GB/s。同時,KNL采用了Silvermont架構(gòu)的改進(jìn)定制版和14nm新工藝,核心數(shù)量多達(dá)72個并支持四線程,最多擁有288個線程,雙精度浮點性能超過3TFlops,單精度則超過6TFlops,性能功耗比達(dá)到12GFlops/W以上。此外,KNL與Intel Xeon Processor 是二進(jìn)制兼容的,Intel Xeon平臺的程序可在KNL平臺直接編譯運行,基于Xeon平臺的優(yōu)化將同樣適用于KNL,這為X86應(yīng)用的開發(fā)和移植帶來了更多的便利。
不過,KNL在帶來更好計算體驗的同時,也必然會引發(fā)應(yīng)用的適應(yīng)性進(jìn)化。張清認(rèn)為,“KEEP”計劃提供公共的新技術(shù)平臺和技術(shù)支持,可以讓HPC和深度學(xué)習(xí)用戶能第一時間免費試用新技術(shù),開展預(yù)研工作,彌補了之前一直缺乏的“平臺試用,應(yīng)用預(yù)研”環(huán)節(jié)。這一計劃的開展將幫助眾多的HPC用戶提前掌握新技術(shù),提前在新計算平臺上開展應(yīng)用研發(fā)工作,這將推進(jìn)HPC和深度學(xué)習(xí)生態(tài)的建設(shè)。
目前,“KEEP”計劃是英特爾針對KNL開展的唯一一項試用體驗計劃。而對于為何選擇浪潮作為合作對象,張清表示這與Inspur-Intel中國并行計算聯(lián)合實驗室在MIC技術(shù)的應(yīng)用優(yōu)化上取得的諸多成績關(guān)系密切。該實驗室的重要工作就是基于MIC技術(shù)研究面向Exscale的系統(tǒng)架構(gòu)與應(yīng)用創(chuàng)新,通過開放課題的設(shè)立為國內(nèi)外HPC用戶與專家提供了行業(yè)應(yīng)用領(lǐng)先采用新技術(shù)的機會。目前,實驗室已經(jīng)基于第一代MIC架構(gòu)KNC完成石油勘探、生命科學(xué)、CFD、氣象等10個行業(yè)相關(guān)MIC應(yīng)用,并完成全球第一本MIC技術(shù)專著,培訓(xùn)MIC技術(shù)工程師超過500人。
據(jù)了解,在第二代MIC架構(gòu)KNL平臺上,Inspur-Intel中國并行計算聯(lián)合實驗室目前已經(jīng)完成SKA核心應(yīng)用算法Gridding、大規(guī)模線性方程組求解器GMRES 2個HPC應(yīng)用算法的KNL遷移與優(yōu)化,并完成了全球首個基于KNL平臺的集群并行版本Caffe-MPI,實現(xiàn)高性能、高可擴展性、支持大規(guī)模數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)計算框架。其中,Gridding應(yīng)用的計算速度(million grid points per second)在單KNL節(jié)點達(dá)到14540,而在單節(jié)點雙路E5CPU上則為2383;而GMRES應(yīng)用在同時計算2800萬階線性方程組的情況下,單KNL節(jié)點的性能是單節(jié)點2雙路E5 CPU的4.42倍。