2016年12月宣布的騰訊高性能分布式計(jì)算平臺(tái)Angel1.0于今日正式開(kāi)源。
據(jù)了解,Angel是騰訊第三代的計(jì)算平臺(tái),使用Java和Scala語(yǔ)言開(kāi)發(fā),面向機(jī)器學(xué)習(xí)的高性能分布式計(jì)算框架,由騰訊與香港科技大學(xué)、北京大學(xué)聯(lián)合研發(fā)。它采用參數(shù)服務(wù)器架構(gòu),解決了上一代框架的擴(kuò)展性問(wèn)題,支持?jǐn)?shù)據(jù)并行及模型并行的計(jì)算模式,能支持十億級(jí)別維度的模型訓(xùn)練。
Angel還采用了SSP(Stale synchronous Parallel)、異步分布式SGD、多線程參數(shù)共享模式HogWild、網(wǎng)絡(luò)帶寬流量調(diào)度算法、計(jì)算和網(wǎng)絡(luò)請(qǐng)求流水化、參數(shù)更新索引和訓(xùn)練數(shù)據(jù)預(yù)處理方案等新技術(shù)。這些技術(shù)使Angel性能大幅提高,達(dá)到常見(jiàn)開(kāi)源系統(tǒng)Spark的數(shù)倍到數(shù)十倍,能在千萬(wàn)到十億級(jí)的特征維度條件下運(yùn)行。
騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理蔣杰曾表示,面對(duì)快速增長(zhǎng)的數(shù)據(jù)挖掘需求,開(kāi)發(fā)一個(gè)面向機(jī)器學(xué)習(xí)、能應(yīng)對(duì)超大規(guī)模數(shù)據(jù)集的、高性能的計(jì)算框架,并且對(duì)用戶足夠友好,具有很低的使用門(mén)檻,Angel平臺(tái)應(yīng)運(yùn)而生.
2014年騰訊已走上開(kāi)源的征途,第一代核心平臺(tái)TDW-Hive。另外,在第三代的計(jì)算框架上對(duì)比第二代可以支持10億級(jí)維度的算法訓(xùn)練,由以前的數(shù)據(jù)并行,到可以支持模型并行。同時(shí),第三代的平臺(tái),在系統(tǒng)的易用性上還支持GPU深度學(xué)習(xí),支持文本、語(yǔ)音、圖像等非結(jié)構(gòu)化的數(shù)據(jù)。
Angel自去年初在騰訊內(nèi)部上線以來(lái),已應(yīng)用于騰訊視頻、騰訊社交廣告及用戶畫(huà)像挖掘等精準(zhǔn)推薦業(yè)務(wù)。并且騰訊大數(shù)據(jù)平臺(tái)榮獲2016年的Sort benchmark全球排序競(jìng)賽冠軍,98.8秒完成了100T數(shù)據(jù)排序,刷新了四項(xiàng)世界紀(jì)錄。2015年的這項(xiàng)排序時(shí)間還高達(dá)329秒。
騰訊開(kāi)源平臺(tái)Angel鼓勵(lì)了業(yè)界工程師、學(xué)者和技術(shù)人員大規(guī)模學(xué)習(xí)使用,激發(fā)機(jī)器學(xué)習(xí)領(lǐng)域的更多創(chuàng)新應(yīng)用與良好生態(tài)發(fā)展。