一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

服務(wù)器資訊|IT/互聯(lián)網(wǎng)|云計算|區(qū)塊鏈|軟件資訊|操作系統(tǒng)|手機數(shù)碼|百科知識|免費資源|頭條新聞|

服務(wù)器之家 - 新聞資訊 - 服務(wù)器資訊 - AI計算,為什么要用GPU?

AI計算,為什么要用GPU?

2024-01-04 10:01未知服務(wù)器之家 服務(wù)器資訊

今天這篇文章,我們繼續(xù)來聊聊芯片。 在之前的文章里,小棗君說過,行業(yè)里通常會把半導(dǎo)體芯片分為數(shù)字芯片和模擬芯片。其中,數(shù)字芯片的市場規(guī)模占比較大,達到70%左右。 數(shù)字芯片,還可以進一步細分,分為:邏輯芯片、

AI計算,為什么要用GPU?

今天這篇文章,我們繼續(xù)來聊聊芯片。

在之前的文章里,小棗君說過,行業(yè)里通常會把半導(dǎo)體芯片分為數(shù)字芯片和模擬芯片。其中,數(shù)字芯片的市場規(guī)模占比較大,達到70%左右。

數(shù)字芯片,還可以進一步細分,分為:邏輯芯片、存儲芯片以及微控制單元(MCU)。

AI計算,為什么要用GPU?

存儲芯片和MCU以后再介紹,今天小棗君重點講講邏輯芯片。

邏輯芯片,其實說白了就是計算芯片。它包含了各種邏輯門電路,可以實現(xiàn)運算與邏輯判斷功能,是最常見的芯片之一。

大家經(jīng)常聽說的CPU、GPU、FPGA、ASIC,全部都屬于邏輯芯片。而現(xiàn)在特別火爆的AI,用到的所謂“AI芯片”,也主要是指它們。

CPU(中央處理器)

先說說大家最熟悉的CPU,英文全稱Central Processing Unit,中央處理器。

AI計算,為什么要用GPU?

CPU

但凡是個人都知道,CPU是計算機的心臟。

現(xiàn)代計算機,都是基于1940年代誕生的馮·諾依曼架構(gòu)。在這個架構(gòu)中,包括了運算器(也叫邏輯運算單元,ALU)、控制器(CU)、存儲器、輸入設(shè)備、輸出設(shè)備等組成部分。

AI計算,為什么要用GPU?

馮·諾依曼架構(gòu)

數(shù)據(jù)來了,會先放到存儲器。然后,控制器會從存儲器拿到相應(yīng)數(shù)據(jù),再交給運算器進行運算。運算完成后,再把結(jié)果返回到存儲器。

這個流程,還有一個更有逼格的叫法:“Fetch(取指)-Decode(譯碼)- Execute(執(zhí)行)-Memory Access(訪存)-Write Back(寫回)”。

大家看到了,運算器和控制器這兩個核心功能,都是由CPU負責(zé)承擔(dān)的。

具體來說,運算器(包括加法器、減法器、乘法器、除法器),負責(zé)執(zhí)行算術(shù)和邏輯運算,是真正干活的。控制器,負責(zé)從內(nèi)存中讀取指令、解碼指令、執(zhí)行指令,是指手畫腳的。

除了運算器和控制器之外,CPU還包括時鐘模塊和寄存器(高速緩存)等組件。

AI計算,為什么要用GPU?

時鐘模塊負責(zé)管理CPU的時間,為CPU提供穩(wěn)定的時基。它通過周期性地發(fā)出信號,驅(qū)動CPU中的所有操作,調(diào)度各個模塊的工作。

寄存器是CPU中的高速存儲器,用于暫時保存指令和數(shù)據(jù)。它的CPU與內(nèi)存(RAM)之間的“緩沖”,速度比一般的內(nèi)存更快,避免內(nèi)存“拖累”CPU的工作。

寄存器的容量和存取性能,可以影響CPU到對內(nèi)存的訪問次數(shù),進而影響整個系統(tǒng)的效率。后面我們講存儲芯片的時候,還會提到它。

CPU一般會基于指令集架構(gòu)進行分類,包括x86架構(gòu)和非x86架構(gòu)。x86基本上都是復(fù)雜指令集(CISC),而非x86基本為精簡指令集(RISC)。

PC和大部分服務(wù)器用的是x86架構(gòu),英特爾和AMD公司占據(jù)主導(dǎo)地位。非x86架構(gòu)的類型比較多,這些年崛起速度很快,主要有ARM、MIPS、Power、RISC-V、Alpha等。以后會專門介紹。

GPU(圖形處理器)

再來看看GPU。

GPU是顯卡的核心部件,英文全名叫Graphics Processing Unit,圖形處理單元(圖形處理器)。

GPU并不能和顯卡劃等號。顯卡除了GPU之外,還包括顯存、VRM穩(wěn)壓模塊、MRAM芯片、總線、風(fēng)扇、外圍設(shè)備接口等。

AI計算,為什么要用GPU?

顯卡

1999年,英偉達(NVIDIA)公司率先提出了GPU的概念。

之所以要提出GPU,是因為90年代游戲和多媒體業(yè)務(wù)高速發(fā)展。這些業(yè)務(wù)給計算機的3D圖形處理和渲染能力提出了更高的要求。傳統(tǒng)CPU搞不定,所以引入了GPU,分擔(dān)這方面的工作。

根據(jù)形態(tài),GPU可分為獨立GPU(dGPU,discrete/dedicated GPU)和集成GPU(iGPU,integrated GPU),也就是常說的獨顯、集顯。

GPU也是計算芯片。所以,它和CPU一樣,包括了運算器、控制器和寄存器等組件。

但是,因為GPU主要負責(zé)圖形處理任務(wù),所以,它的內(nèi)部架構(gòu)和CPU存在很大的不同。

AI計算,為什么要用GPU?

如上圖所示,CPU的內(nèi)核(包括了ALU)數(shù)量比較少,最多只有幾十個。但是,CPU有大量的緩存(Cache)和復(fù)雜的控制器(CU)。

這樣設(shè)計的原因,是因為CPU是一個通用處理器。作為計算機的主核心,它的任務(wù)非常復(fù)雜,既要應(yīng)對不同類型的數(shù)據(jù)計算,還要響應(yīng)人機交互。

復(fù)雜的條件和分支,還有任務(wù)之間的同步協(xié)調(diào),會帶來大量的分支跳轉(zhuǎn)和中斷處理工作。它需要更大的緩存,保存各種任務(wù)狀態(tài),以降低任務(wù)切換時的時延。它也需要更復(fù)雜的控制器,進行邏輯控制和調(diào)度。

CPU的強項是管理和調(diào)度。真正干活的功能,反而不強(ALU占比大約5%~20%)。

如果我們把處理器看成是一個餐廳的話,CPU就像一個擁有幾十名高級廚師的全能型餐廳。這個餐廳什么菜系都能做,但是,因為菜系多,所以需要花費大量的時間協(xié)調(diào)、配菜,上菜的速度相對比較慢。

而GPU則完全不同。

GPU為圖形處理而生,任務(wù)非常明確且單一。它要做的,就是圖形渲染。圖形是由海量像素點組成的,屬于類型高度統(tǒng)一、相互無依賴的大規(guī)模數(shù)據(jù)。

所以,GPU的任務(wù),是在最短的時間里,完成大量同質(zhì)化數(shù)據(jù)的并行運算。所謂調(diào)度和協(xié)調(diào)的“雜活”,反而很少。

并行計算,當然需要更多的核啊。

如前圖所示,GPU的內(nèi)核數(shù),遠遠超過CPU,可以達到幾千個甚至上萬個(也因此被稱為“眾核”)。

AI計算,為什么要用GPU?

RTX4090有16384個流處理器

GPU的核,稱為流式多處理器(Stream Multi-processor,SM),是一個獨立的任務(wù)處理單元。

在整個GPU中,會劃分為多個流式處理區(qū)。每個處理區(qū),包含數(shù)百個內(nèi)核。每個內(nèi)核,相當于一顆簡化版的CPU,具備整數(shù)運算和浮點運算的功能,以及排隊和結(jié)果收集功能。

GPU的控制器功能簡單,緩存也比較少。它的ALU占比,可以達到80%以上。

雖然GPU單核的處理能力弱于CPU,但是數(shù)量龐大,非常適合高強度并行計算。同等晶體管規(guī)模條件下,它的算力,反而比CPU更強。

還是以餐廳為例。GPU就像一個擁有成千上萬名初級廚師的單一型餐廳。它只適合做某種指定菜系。但是,因為廚師多,配菜簡單,所以大家一起炒,上菜速度反而快。

AI計算,為什么要用GPU?

CPU vs GPU

GPU與AI計算

大家都知道,現(xiàn)在的AI計算,都在搶購GPU。英偉達也因此賺得盆滿缽滿。為什么會這樣呢?

原因很簡單,因為AI計算和圖形計算一樣,也包含了大量的高強度并行計算任務(wù)。

深度學(xué)習(xí)是目前最主流的人工智能算法。從過程來看,包括訓(xùn)練(training)和推理(inference)兩個環(huán)節(jié)。

AI計算,為什么要用GPU?

在訓(xùn)練環(huán)節(jié),通過投喂大量的數(shù)據(jù),訓(xùn)練出一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。在推理環(huán)節(jié),利用訓(xùn)練好的模型,使用大量數(shù)據(jù)推理出各種結(jié)論。

訓(xùn)練環(huán)節(jié)由于涉及海量的訓(xùn)練數(shù)據(jù),以及復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),所以需要的計算規(guī)模非常龐大,對芯片的算力性能要求比較高。而推理環(huán)節(jié),對簡單指定的重復(fù)計算和低延遲的要求很高。

它們所采用的具體算法,包括矩陣相乘、卷積、循環(huán)層、梯度運算等,分解為大量并行任務(wù),可以有效縮短任務(wù)完成的時間。

GPU憑借自身強悍的并行計算能力以及內(nèi)存帶寬,可以很好地應(yīng)對訓(xùn)練和推理任務(wù),已經(jīng)成為業(yè)界在深度學(xué)習(xí)領(lǐng)域的首選解決方案。

目前,大部分企業(yè)的AI訓(xùn)練,采用的是英偉達的GPU集群。如果進行合理優(yōu)化,一塊GPU卡,可以提供相當于數(shù)十其至上百臺CPU服務(wù)器的算力。

AI計算,為什么要用GPU?

NVIDIA HGX A100 8 GPU 組件

不過,在推理環(huán)節(jié),GPU的市場份額占比并沒有那么高。具體原因我們后面會講。

將GPU應(yīng)用于圖形之外的計算,最早源于2003年。

那一年,GPGPU(General Purpose computing on GPU,基于GPU的通用計算)的概念首次被提出。意指利用GPU的計算能力,在非圖形處理領(lǐng)域進行更通用、更廣泛的科學(xué)計算。

GPGPU在傳統(tǒng)GPU的基礎(chǔ)上,進行了進一步的優(yōu)化設(shè)計,使之更適合高性能并行計算。

2009年,斯坦福的幾位學(xué)者,首次展示了利用GPU訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的成果,引起了轟動。

幾年后,2012年,神經(jīng)網(wǎng)絡(luò)之父杰弗里·辛頓(Geoffrey Hinton)的兩個學(xué)生——亞歷克斯·克里切夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克沃(Ilya Sutskever),利用“深度學(xué)習(xí)+GPU”的方案,提出了深度神經(jīng)網(wǎng)絡(luò)AlexNet,將識別成功率從74%提升到85%,一舉贏得Image Net挑戰(zhàn)賽的冠軍。

AI計算,為什么要用GPU?

左起:伊利亞·蘇茨克沃,亞歷克斯·克里切夫斯基,杰弗里·辛頓

這徹底引爆了“AI+GPU”的浪潮。英偉達公司迅速跟進,砸了大量的資源,在三年時間里,將GPU性能提升了65倍。

除了硬剛算力之外,他們還積極構(gòu)建圍繞GPU的開發(fā)生態(tài)。他們建立了基于自家GPU的CUDA(Compute Unified Device Architecture)生態(tài)系統(tǒng),提供完善的開發(fā)環(huán)境和方案,幫助開發(fā)人員更容易地使用GPU進行深度學(xué)習(xí)開發(fā)或高性能運算。

這些早期的精心布局,最終幫助英偉達在AIGC爆發(fā)時收獲了巨大的紅利。目前,他們市值高達1.22萬億美元(英特爾的近6倍),是名副其實的“AI無冕之王”。

那么,AI時代的計算,是不是GPU一家通吃呢?我們經(jīng)常聽說的FPGA和ASIC,好像也是不錯的計算芯片。它們的區(qū)別和優(yōu)勢在哪里呢?

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 亚洲国产精品网站久久 | 色哟哟精品 | 免费看一区二区三区 | 精品欧美一区二区三区在线观看 | www在线免费观看 | 四大美女思春艳史片 | 高h扶她文肉 | 欧美日韩一区二区三在线 | 大学生特黄特色大片免费播放 | 国产重口老太伦 | 国产午夜亚洲精品 | 熟睡中的麻麻大白屁股小说 | 国产第一综合另类色区奇米 | 亚洲AV国产福利精品在现观看 | 桃色导航 | 法国女佣系列在线播放 | 欧美日韩亚毛片免费观看 | 亚洲天堂网站在线 | 国产一区二 | 亚洲成年人专区 | 亚洲精品第一国产综合高清 | 美女脱得一二净无内裤全身的照片 | 国产亚洲女人久久久久久 | 国产在线精品99一卡2卡 | 九九九久久久 | 四虎在线免费播放 | 九九大香尹人视频免费 | 甜蜜调教 | 亚洲国产精品无圣光一区二区 | 成人在线观看一区 | 日韩欧美一区二区三区视频 | 亚洲无线一二三四区 | 日本 片 成人 在线 日b视频免费 | 久久综合老色鬼网站 | 午夜熟女插插XX免费视频 | 果冻传媒九一制片厂 | 亚洲男人精品 | 日本免费的一级绿象 | 午夜精品久久久久久久99 | 亚洲国产中文字幕在线视频综合 | 国产美女亚洲精品久久久综合 |