2016 年 9 月 13 日,NVIDIA宣布旗下基于 Pascal架構(gòu)的深度學(xué)習(xí)平臺再添新成員:新款 NVIDIA Tesla P4 和 P40 GPU 加速器及新軟件帶來大幅飆升的效率和速度,能更快速地處理人工智能服務(wù)的推理工作負(fù)載。
NVIDIA聯(lián)合創(chuàng)始人、總裁兼首席執(zhí)行官黃仁勛先生向大家介紹新款Tesla P4和P40加速器
語音激活的幫助、垃圾郵件過濾器以及電影和產(chǎn)品推薦引擎等現(xiàn)代 AI 服務(wù)正迅速變得更復(fù)雜,需要的計(jì)算能力比一年前的神經(jīng)網(wǎng)絡(luò)最高高出 10 倍。目前基于 CPU 的技術(shù)無法提供現(xiàn)代 AI 服務(wù)所需的實(shí)時(shí)響應(yīng)能力,導(dǎo)致用戶體驗(yàn)較差。
Tesla P4 和 P40 專門設(shè)計(jì)為執(zhí)行推理,也即使用經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)來識別語音、圖像或文字,以響應(yīng)用戶和設(shè)備的查詢。這兩款 GPU 基于 Pascal 架構(gòu),包含基于 8 位 (INT8) 數(shù)據(jù)的專用推理指令,響應(yīng)速度比 CPU 快 45 倍,并且比發(fā)布尚不滿一年的 GPU 解決方案快 4 倍。
Tesla P4 為超大規(guī)模數(shù)據(jù)中心提供極高的能效。它外形小巧,能裝入大多數(shù)服務(wù)器中,而且功耗極低(初始功率只有 50 瓦特),能效與處理推理工作負(fù)載的 CPU 相比提高 40 倍。對于視頻推理工作負(fù)載,一臺配備單個(gè) Tesla P4 的服務(wù)器可以取代 13 臺 CPU 服務(wù)器,而且總體擁有成本(包括服務(wù)器成本和電力成本)可節(jié)省超過 800%。
Tesla P40 提供非常高的深度學(xué)習(xí)工作負(fù)載處理能力。它包含的 INT8 指令帶來 47 萬億次運(yùn)算/秒 (TOPS) 的推理性能,使得一臺配備八個(gè) Tesla P40 加速器的服務(wù)器在性能上可以取代超過 140 臺 CPU 服務(wù)器。(3)按每臺服務(wù)器的成本大約 5,000 美元計(jì)算,僅服務(wù)器購置成本就能節(jié)省超過 65 萬美元。
NVIDIA 加速計(jì)算事業(yè)部總經(jīng)理 Ian Buck 說道:“憑借 Tesla P100 以及今天推出的 Tesla P4 和 P40,NVIDIA 為數(shù)據(jù)中心帶來了極其罕見的端到端深度學(xué)習(xí)平臺,讓各行各業(yè)都能淋漓盡致地發(fā)揮 AI 的巨大潛能。它們使訓(xùn)練時(shí)間從幾天縮短到幾小時(shí),讓用戶能立即洞察玄機(jī),還能實(shí)時(shí)響應(yīng)消費(fèi)者的詢問,向他們提供意見或建議?!?/p>
能加快推理速度的軟件工具
兩款創(chuàng)新的軟件助力 Tesla P4 和 P40,顯著加快 AI 推理速度,它們就是:NVIDIA TensorRT 和 NVIDIA DeepStream SDK。
TensorRT 是為優(yōu)化將部署到生產(chǎn)環(huán)境的深度學(xué)習(xí)模型而創(chuàng)建的庫,能即時(shí)響應(yīng)極其復(fù)雜的網(wǎng)絡(luò)。它通常以 32 位或 16 位數(shù)據(jù)的形式獲取接受訓(xùn)練的神經(jīng)網(wǎng)絡(luò),并針對降低了精度的 INT8 操作優(yōu)化這些網(wǎng)絡(luò),從而最大程度地提高深度學(xué)習(xí)應(yīng)用程序的處理能力和效率。
NVIDIA DeepStream SDK 利用 Pascal 服務(wù)器的強(qiáng)大功能同時(shí)對最多達(dá) 93 路的高清視頻流進(jìn)行實(shí)時(shí)解碼和分析,相比之下,雙 CPU 服務(wù)器只能對 7 路視頻流這樣做。這解決了 AI 領(lǐng)域的一大挑戰(zhàn):在自動(dòng)駕駛汽車、交互式機(jī)器人、過濾和廣告投放等應(yīng)用場合下,理解大批量的視頻內(nèi)容。通過將深度學(xué)習(xí)能力集成到視頻應(yīng)用程序中,公司能夠提供以前不可能提供的創(chuàng)新型智能視頻服務(wù)。
讓客戶的服務(wù)水平實(shí)現(xiàn)飛躍
如今,NVIDIA 客戶提供越來越新穎的 AI 服務(wù),這些服務(wù)需要極高的計(jì)算性能。
百度高級研究人員 Greg Diamos 說道:“向每個(gè)用戶提供簡單和快速響應(yīng)的體驗(yàn)對我們很重要。我們在生產(chǎn)環(huán)境中部署了 NVIDIA GPU,提供由 AI 驅(qū)動(dòng)的服務(wù),例如我們的 Deep Speech 2 系統(tǒng)。通過使用 GPU,響應(yīng)速度達(dá)到了未經(jīng)加速的服務(wù)器不可企及的水平。具備 INT8 功能的 Pascal 將實(shí)現(xiàn)更大的飛躍,我們期待它能給用戶帶來更好的體驗(yàn)。”
規(guī)格
以下是 Tesla P4 和 P40 GPU 的規(guī)格: