本文來源微信公眾號“半導(dǎo)體行業(yè)觀察”,作者李飛。
隨著人工智能漸漸落地,人工智能對于算力的需求逐漸增強(qiáng)。本輪人工智能熱潮背后的基礎(chǔ)是大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò),需要海量的數(shù)據(jù)去訓(xùn)練復(fù)雜的神經(jīng)網(wǎng)絡(luò),而訓(xùn)練完成后的神經(jīng)網(wǎng)絡(luò)也較為復(fù)雜,執(zhí)行神經(jīng)網(wǎng)絡(luò)的推理操作相對于其他基于邏輯規(guī)則等智能方案需要更大的計算力。因此,算力成為了人工智能背后的基礎(chǔ)資源,而算力的提升則離不開芯片的支持。近日,高通、寒武紀(jì)、依圖等來自不同背景的明星公司都發(fā)布了其用于服務(wù)器端的人工智能芯片方案,再加上谷歌、亞馬遜、Intel、Nvidia等早已在服務(wù)器人工智能芯片領(lǐng)域押注的大公司,我們看到了服務(wù)器人工智能芯片的熱潮。
服務(wù)器AI芯片市場已經(jīng)有明確需求
人工智能計算一般可以分為兩類,即訓(xùn)練和推理。訓(xùn)練是指使用收集到的大量數(shù)據(jù)去優(yōu)化神經(jīng)網(wǎng)絡(luò)的各項(xiàng)參數(shù),從而能實(shí)現(xiàn)最優(yōu)的精確度。推理則是在訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)上將輸入數(shù)據(jù)在各層網(wǎng)絡(luò)之間做正向傳遞去求得輸出。訓(xùn)練任務(wù)和推理任務(wù)執(zhí)行的計算對于計算精度和內(nèi)存訪問的模式都有所不同,因此芯片上往往需要不同的優(yōu)化。
人工智能芯片根據(jù)應(yīng)用場合也可以分為三個種類:服務(wù)器、邊緣計算、終端。服務(wù)器人工智能芯片主要部署在數(shù)據(jù)中心的服務(wù)器中,執(zhí)行訓(xùn)練和/或推理任務(wù)。服務(wù)器人工智能芯片對于芯片的首要需求就是單芯片算力(目前的主流算力在100TOPS級別),其次才會去考慮功耗和成本。邊緣計算是指部署在更接近數(shù)據(jù)源頭的服務(wù)器上執(zhí)行的計算,以推理計算為主,典型應(yīng)用場景包括在自動駕駛汽車上執(zhí)行自動駕駛算法、在智能銷售領(lǐng)域無人店中執(zhí)行監(jiān)控和結(jié)賬操作等等。在邊緣計算中,芯片的功耗和成本相對于云端有更嚴(yán)格的限制,而算力則還是多多益善(10TOPS以上)。終端計算則是指直接部署在手機(jī)、智能音箱等終端設(shè)備上人工智能計算,由于使用電池供電,其對于芯片的首要需求是能效比(1TOPS/W數(shù)量級),需要使用盡可能低的能量消耗去完成人工智能計算以保證電池壽命。雖然終端計算對于算力的要求較低(0.1-1TOPS數(shù)量級),但是其功耗約束很強(qiáng),可用的功耗在1W以下,甚至可以低至幾十毫瓦級別,同時終端設(shè)備對于成本也很敏感。
目前上述三個人工智能應(yīng)用場景中,邊緣計算尚處于概念驗(yàn)證階段,預(yù)計未來幾年隨著5G和無人駕駛、機(jī)器人、智能零售等概念的興起會出現(xiàn)一批相關(guān)芯片公司,但是在今天市場規(guī)模還較小。終端人工智能計算目前已經(jīng)得到初步驗(yàn)證,手機(jī)等智能設(shè)備都在爭相加入人工智能專用處理模塊,但是由于其市場對于成本的敏感性,我們預(yù)期未來人工智能在終端設(shè)備上的形態(tài)會以SoC上的IP模塊為主,這也就意味著人工智能要么是由高通、海思等智能設(shè)備SoC廠商自研集成到自家的SoC中,要么是由第三方以IP的形式授權(quán)給SoC廠商,總體來說該市場的利潤率并不會太高,還是要以量取勝。
相較而言,服務(wù)器端人工智能芯片市場目前已經(jīng)得到了較好的驗(yàn)證,業(yè)務(wù)模式和市場規(guī)模都已經(jīng)獲得了認(rèn)可,利潤率也較高,因此成為了主流芯片公司的必爭之地;而邊緣和終端市場在今天來看還主要是針對未來的前瞻性布局。根據(jù)Barclays Research的研究報告,服務(wù)器端人工智能市場會在未來三年內(nèi)快速增長,并預(yù)計于2021年達(dá)到100億美元的規(guī)模;而終端和邊緣計算市場則將在三年后才開始真正落地。所以,我們看到了巨頭紛紛在今年加碼服務(wù)器端人工智能芯片。
進(jìn)入服務(wù)器AI芯片市場的幾種打法
目前來看,做云端AI芯片的主要有兩種廠商,一種是芯片公司,另一種是互聯(lián)網(wǎng)公司,包括AI公司(如依圖)這樣的“新物種”。
對于芯片公司來說,服務(wù)器AI市場的客戶往往比較分散,而且每個廠商都有自己獨(dú)特的訴求,因此需要一家一家談。由于不同的公司有不同的人工智能技術(shù)棧,芯片公司需要能兼容不同公司的需求,有時候甚至需要和客戶公司合作開發(fā)來確保能滿足需求。同時,芯片公司需要在各大公司的需求中尋找到最大公約數(shù),來確保自己的芯片能進(jìn)入盡可能多的客戶中。芯片公司可以直接進(jìn)入終端客戶的服務(wù)器中,或者與提供服務(wù)器的系統(tǒng)集成商合作,為客戶設(shè)計滿足其需求的服務(wù)器來完成銷售。例如,中國AI芯片獨(dú)角獸寒武紀(jì)據(jù)悉已經(jīng)獲得了滴滴、海康威視等商業(yè)客戶的直接訂單,同時也與浪潮、聯(lián)想和曙光等服務(wù)器系統(tǒng)集成商積極合作來完成服務(wù)器的訂單。寒武紀(jì)于一周前披露的最新思元270芯片使用TSMC 16nm制造,額定功耗75W,其整數(shù)計算能力分別為256TOPS(int4)、128TOPS(int8)和64TOPS(int4),這樣的設(shè)計預(yù)計主要針對服務(wù)器推理市場,其算力和功耗與Nvidia T4基本相當(dāng),基本可以作為Nvidia T4的國產(chǎn)替代,同時寒武紀(jì)有位于中國市場離客戶近以及性價比的優(yōu)勢,因此想必還是能夠拿下大量訂單。另外,寒武紀(jì)的思元270還集成了視頻圖像編解碼模塊,估計其找到的客戶“最大公約數(shù)”仍然是計算機(jī)視覺相關(guān)領(lǐng)域,如視頻內(nèi)容分析、安防等。
除了芯片公司向上進(jìn)入服務(wù)器AI市場外,另一類公司則是互聯(lián)網(wǎng)以及AI公司親自入場做芯片,例如谷歌、亞馬遜以及剛發(fā)布自研芯片的中國AI獨(dú)角獸依圖。傳統(tǒng)來說,互聯(lián)網(wǎng)和AI公司主要是服務(wù)器和芯片的終端客戶,他們的需求是尋找市面上最合適的硬件來運(yùn)行自己的應(yīng)用。然而,當(dāng)市面上的硬件都無法滿足這些終端客戶的需求時,他們也會親自做滿足自己需求的芯片。
互聯(lián)網(wǎng)和AI公司親自做芯片背后的邏輯主要在于建立競爭壁壘。隨著AI的落地以及AI對于算力的強(qiáng)烈需求,硬件已經(jīng)成為AI背后重要的競爭要素。目前,隨著市場的充分競爭,各大AI巨頭在算法和模型等方面都沒有和彼此拉開很大的差距,于是硬件就成為了差異化競爭的重要因素。當(dāng)模型和算法差距不大時,是否能使用較低的成本部署AI系統(tǒng)并提供良好的用戶體驗(yàn)就成了能否拿到用戶訂單的重要因素了。另外,互聯(lián)網(wǎng)和AI公司是最清楚自己需求和算法的,因此通過軟硬件協(xié)同優(yōu)化可望能實(shí)現(xiàn)最優(yōu)化的系統(tǒng)設(shè)計。
上周依圖公布的求索就是AI公司入場AI芯片的最新動態(tài)。求索SoC完全結(jié)合依圖的算法做優(yōu)化,只支持int8操作,主要針對視覺應(yīng)用,例如人臉識別、車輛檢測、視頻結(jié)構(gòu)化分析等任務(wù)。配合依圖的算法,使用四塊求索芯片的依圖原子服務(wù)器算力和使用八塊Nvidia P4的服務(wù)器相當(dāng),而體積僅為P4服務(wù)器的一半,功耗則低至20%,從而能大大減少部署的難度。更關(guān)鍵的是,目前一塊Nvidia P4的市價為2000美元左右,而求索芯片板卡的成本我們預(yù)計可以做到100美元以下,因此可以幫助依圖進(jìn)入更多的客戶。相比使用Nvidia GPU的其他競爭公司,依圖的算法配合自研的芯片確實(shí)是一個很強(qiáng)的競爭優(yōu)勢。
未來服務(wù)器AI芯片競爭格局預(yù)估
隨著服務(wù)器端AI市場的真正落地,越來越多的廠商開始真正投入該市場,Nvidia的壟斷難度也越來越大。如前所述,新進(jìn)入服務(wù)器AI芯片戰(zhàn)場的廠商要么擁有芯片背景,或者是互聯(lián)網(wǎng)/AI公司親自做芯片。服務(wù)器AI市場的特殊性在于不同垂直應(yīng)用對于芯片的需求有較大不同,而使用目前的主流芯片架構(gòu)做一款能兼容大多數(shù)應(yīng)用的芯片往往性能不夠好,因此芯片廠商還是需要認(rèn)準(zhǔn)一些重要的垂直應(yīng)用,并且在垂直應(yīng)用中打下站穩(wěn)腳跟之后再考慮去橫向擴(kuò)展。對于互聯(lián)網(wǎng)/AI公司造芯來說,由于他們對于垂直應(yīng)用的前景非常清楚,因此主要就是看自研芯片對于競爭壁壘的構(gòu)建有多少幫助,是否值得投入資金真正做芯片。在設(shè)計服務(wù)行業(yè)越來越成熟的今天,造芯的成本會逐漸降低,因此我們預(yù)期看到越來越多的互聯(lián)網(wǎng)和AI公司加入自研芯片的行列。因此,服務(wù)器AI芯片的競爭格局我們預(yù)期在未來幾年會看到Nvidia憑著CUDA生態(tài)的優(yōu)勢仍然占據(jù)通用芯片的主流地位,但是其市場份額將會被其他芯片公司和客戶公司慢慢蠶食,同時在云端數(shù)據(jù)中心FPGA也會占據(jù)一部分市場。
服務(wù)器AI芯片競爭的變數(shù)在于下一代技術(shù)。目前馮諾伊曼架構(gòu)的加速器的架構(gòu)潛力已經(jīng)被挖掘得很充分,之后難以再期待數(shù)量級上的提升,因此能帶來重大變革的當(dāng)屬下一代技術(shù)。下一代技術(shù)還擁有不少不確定性,但是我們也看到了不少新技術(shù)擁有巨大的潛力,例如使用光技術(shù)做計算的LightIntelligence,可以實(shí)現(xiàn)超低延遲超低功耗計算。