性能上看,確實通過裁剪運算器寬度(8位定點)達(dá)到了非常高的理論峰值,在大多數(shù)卷積操作上效率很好。但在部分其他類型的神經(jīng)網(wǎng)絡(luò)操作上,效率不是太高。
從工程角度看,Google通過TPU項目對深度學(xué)習(xí)硬件加速作出了有益的嘗試,令人敬佩;未來Google未來一定會持續(xù)更新TPU的架構(gòu)。而寒武紀(jì)商用產(chǎn)品最終并沒有走脈動陣列機(jī)的技術(shù)路線,而是走一條通用智能處理器之路。我們十分期待未來繼續(xù)與國際工業(yè)界和學(xué)術(shù)界同行同臺競技。”
雖然寒武紀(jì)與谷歌分別在硬件方面選擇了不同的商用模式,但是雙方都在從彼此身上學(xué)習(xí)和借鑒。陳天石提到谷歌這篇TPU文章,引用了寒武紀(jì)團(tuán)隊成員前期發(fā)表的6篇學(xué)術(shù)論文,并有專門的段落回顧他們一系列學(xué)術(shù)工作。
“論文中在提到DaDianNao/PuDianNao/ShiDianNao時還專門用英文注釋這幾個名字的含義(Big computer, general computer, vision computer),對我們前期學(xué)術(shù)工作顯示了相當(dāng)?shù)淖鹬?。非常值得驕傲的是,我們早期與Olivier Temam教授共同開展的這一系列開拓性學(xué)術(shù)工作,已經(jīng)成為智能芯片領(lǐng)域引用次數(shù)最多的論文。而Olivier Temam教授本人在幾年前就已經(jīng)加入了Google。相信他會把DianNao系列的學(xué)術(shù)思想融入TPU后續(xù)的版本,把TPU的事業(yè)繼續(xù)推向新高度。”
與此同時,雷鋒網(wǎng)也采訪了深鑒科技CEO姚頌,業(yè)界已經(jīng)對TPU文章里的設(shè)計亮點評論頗豐了,姚頌從另一個角度看待這個問題,他認(rèn)為“TPU的最大亮點其實是TPU這件事本身”。并行計算有很多種架構(gòu),如GPU、FPGA等等,一個公司選擇某個方向有它的深思熟慮。姚頌認(rèn)為谷歌做TPU這件事情本身,其實是展現(xiàn)出一種“直面應(yīng)用需求”的姿態(tài),直接根據(jù)最終應(yīng)用來進(jìn)行“定制計算”,而他所在的深鑒科技所選擇的,也是類似谷歌這種“定制化”發(fā)展模式。
“大家可以很清楚的看到Google這樣直面應(yīng)用的公司,從最開始使用CPU這樣的通用芯片,過渡到GPU與FPGA,再過渡到專用的ASIC,來直面應(yīng)用的需求。沿著這樣一條發(fā)展曲線,在不斷提高性能和用戶體驗的同時,也降低了整體運行成本。Google第一次通過TPU這樣一個終極形態(tài)走完了這樣一條發(fā)展路徑,其實為其他很多公司指出了一條未來的發(fā)展路徑,這個意義超出了TPU本身設(shè)計的高效性。”
爭議:論文里TPU的比較對象
論文里,TPU的比較對象是:英特爾 Haswell E5-2699 v3和英偉達(dá)Tesla K80。有人就對這個比較提出異議,因為Tesla K80并不是英偉達(dá)最強最新的芯片產(chǎn)品。
外國網(wǎng)友 jimmy 表示:
“Tesla P4就比Tesla K80 的能效高出至少16倍。谷歌拿TPU與5年前的芯片架構(gòu)相比,有點狡猾。”
網(wǎng)友 Szilárd P 則表示,拿TPU跟Pascal Tesla做比較的說法很荒謬。因為英偉達(dá)發(fā)布Pascal Tesla的時間是在2016年9月,但當(dāng)時谷歌這篇論文是為了第44界ISCA(國際計算機(jī)架構(gòu)會議)準(zhǔn)備的,論文提交截止日期是2016年11月份,而英偉達(dá)Pascal Tesla的正式出貨時間也要等到10月份,所以谷歌再重新做實驗測試,是不太現(xiàn)實的。但他同時也表示:
“谷歌不拿Maxwell M4/M40來做比較,有點說不過去。因為 GM20x也是28nm,而且比K80性能更強。”
針對這一點,陳天石認(rèn)為如果純粹考慮技術(shù)因素,這種比較是否公平要看從什么角度看:
“Google TPU所采用的脈動陣列機(jī)架構(gòu),在處理卷積的效率上確有其優(yōu)勢,在性能功耗比方面會顯著勝過GPU。同時TPU是2016年以前的產(chǎn)品,與同期K80相比,其實不算太不公平。但若僅僅考慮技術(shù)因素,TPU使用8位運算器,相比之下強調(diào)高精度浮點運算的傳統(tǒng)GPU會吃虧。”
姚頌則從另一個方面對這種“比較”進(jìn)行解讀,他認(rèn)為這或許是谷歌一種“韜光養(yǎng)晦”的策略。他表示谷歌通常有了新一代的技術(shù)才會公開上一代技術(shù),這篇論文里的比較對象沒有采用最新的GPU芯片,并不是谷歌有意在取巧。
“其實TPU的設(shè)計大概在四年前就開始了,上線實用也已經(jīng)有了一段的時間,在那個時間點,其實還沒有出現(xiàn)Tesla M40這樣的GPU,也沒有出現(xiàn)最新的Tesla P40這樣Pascal架構(gòu)的GPU。”