Tajomný NVIDIA 'GPU-N' by mohol byť Hopper GH100 novej generácie v prestrojení so 134 SM, 8576 jadrami a šírkou pásma 2.68 TB/s, zobrazené porovnávacie simulované výkony

GPU NVIDIA Hopper s technológiou MCM, o ktorej sa hovorí, že bude čoskoro vydaná

Záhadný GPU NVIDIA známy ako GPU-N, ktorý by mohol byť prvým pohľadom na čip Hopper GH100 novej generácie, bol odhalený v novom výzkumná práca publikoval zelený tím (ako zistil Používateľ Twitteru, Redfire).

Výskumná kniha NVIDIA hovorí o „GPU-N“ s dizajnom MCM a jadrami 8576, mohol by to byť Hopper GH100 novej generácie?

Výskumný dokument „GPU Domain Specialization via Composable On-Package Architecture“ hovorí o dizajne GPU novej generácie ako o najpraktickejšom riešení na maximalizáciu matematickej priepustnosti s nízkou presnosťou na zvýšenie výkonu hlbokého učenia. „GPU-N“ a jeho príslušné návrhy COPA boli prediskutované spolu s ich možnými špecifikáciami a výsledkami simulovaného výkonu.

Hovorí sa, že „GPU-N“ obsahuje 134 jednotiek SM (v porovnaní so 104 jednotkami SM A100). To tvorí celkovo 8576 jadier alebo 24% nárast oproti súčasnému riešeniu Ampere A100. Čip bol nameraný na 1.4 GHz, čo je rovnaká teoretická rýchlosť hodín Ampere A100 a Volta V100 (nezamieňať s konečnými taktmi). Medzi ďalšie špecifikácie patrí vyrovnávacia pamäť L60 s veľkosťou 2 MB, 50 % nárast oproti Ampere A100 a šírka pásma DRAM 2.68 TB/s, ktorá sa môže rozšíriť až na 6.3 TB/s. Kapacita HBM2e DRAM je 100 GB a možno ju rozšíriť až na 233 GB pomocou implementácií COPA. Je nakonfigurovaný na 6144-bitovom zbernicovom rozhraní s rýchlosťou hodín 3.5 Gbps.

konfigurácia	NVIDIA V100	NVIDIA A100	GPU-N
SM	80	108	134
Frekvencia GPU (GHz)	1.4	1.4	1.4
FP32 (TFLOPS)	15.7	19.5	24.2
FP16 (TFLOPS)	125	312	779
L2 cache (MB)	6	40	60
DRAM BW (GB/s)	900	1,555	2,687
Kapacita DRAM (GB)	16	40	100

Pokiaľ ide o čísla výkonu, „GPU-N“ (pravdepodobne Hopper GH100) produkuje 24.2 TFLOPs FP32 (24 % nárast oproti A100) a 779 TFLOPs FP16 (2.5-násobný nárast oproti A100), čo znie naozaj blízko k 3-násobnému zvýšeniu, hovorí sa o GH100 nad A100. V porovnaní s AMD CDNA 2 'Aldebaran' GPU na Akcelerátor Instinct MI250X, výkon FP32 je menej ako polovičný (95.7 TFLOPs oproti 24.2 TFLOPs), ale výkon FP16 je 2.15x vyšší.

od predchádzajúce informácievieme, že akcelerátor NVIDIA H100 by bol založený na riešení MCM a využíval by 5nm procesný uzol TSMC. Hopper má mať dva GPU moduly novej generácie, takže celkovo sa pozeráme na 288 SM jednotiek. Zatiaľ nemôžeme poskytnúť prehľad o počte jadier, pretože nepoznáme počet jadier v jednotlivých moduloch SM, ale ak zostane na 64 jadrách na modul SM, získame 18,432 2.25 jadier, čo je 100-krát viac ako plná konfigurácia GPU GA64. NVIDIA by tiež mohla využiť viac jadier FP16, FP1 a Tensor v rámci svojho GPU Hopper, čo by výrazne zvýšilo výkon. A to bude nevyhnutnosťou pre súperenie s Ponte Vecchio od Intelu, od ktorého sa očakáva, že bude obsahovať 1:64 FPXNUMX.

Je pravdepodobné, že konečná konfigurácia príde so 134 zo 144 SM jednotkami povolenými na každom module GPU a ako také sa pravdepodobne pozeráme na jednu matricu GH100 v akcii. Je však nepravdepodobné, že by NVIDIA dosiahla rovnaké FP32 alebo FP64 Flops ako MI200 bez použitia GPU Sparsity.

NVIDIA však môže mať v rukáve tajnú zbraň, a tou by bola implementácia GPU Hopper založená na COPA. NVIDIA hovorí o dvoch COPA-GPU špecializovaných na domény založených na architektúre novej generácie, jeden pre HPC a jeden pre segment DL. Variant HPC sa vyznačuje veľmi štandardným prístupom, ktorý pozostáva z dizajnu GPU MCM a príslušných čipletov HBM/MC+HBM (IO), ale vo variante DL to začína byť zaujímavé. Variant DL obsahuje obrovskú vyrovnávaciu pamäť na úplne samostatnej matrici, ktorá je prepojená s modulmi GPU.

architektúra	LLC kapacita	DRAM BW	Kapacita DRAM
konfigurácia	(MB)	(TB/s)	(GB)
GPU-N	60	2.7	100
COPA-GPU-1	960	2.7	100
COPA-GPU-2	960	4.5	167
COPA-GPU-3	1,920	2.7	100
COPA-GPU-4	1,920	4.5	167
COPA-GPU-5	1,920	6.3	233
Perfektné L2	nekonečný	nekonečný	nekonečný

Boli navrhnuté rôzne varianty s až 960/1920 GB LLC (Last-Level-Cache), kapacitami HBM2e DRAM až 233 GB a šírkou pásma až 6.3 TB/s. Všetky sú teoretické, ale vzhľadom na to, že o nich NVIDIA teraz diskutovala, pravdepodobne uvidíme variant Hoppera s takýmto dizajnom počas úplného odhalenia na VOP 2022.

NVIDIA Hopper GH100 'Predbežné špecifikácie':

Grafická karta NVIDIA Tesla	Tesla K40 (PCI Express)	Tesla M40 (PCI Express)	Tesla P100 (PCI Express)	Tesla P100 (SXM2)	Tesla V100 (SXM2)	NVIDIA A100 (SXM4)	NVIDIA H100 (SMX4?)
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (pascal)	GP100 (pascal)	GV100 (Volta)	GA100 (Ampér)	GH100 (násypka)
Procesný uzol	28nm	28nm	16nm	16nm	12nm	7nm	5nm
Tranzistory	7.1 miliárd	8 miliárd	15.3 miliárd	15.3 miliárd	21.1 miliárd	54.2 miliárd	TBD
Veľkosť matrice GPU	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	826mm2	TBD
SM	15	24	56	56	80	108	134 (na modul)
TPC	15	24	28	28	40	54	TBD
FP32 CUDA jadier na SM	192	128	64	64	64	64	64?
FP64 CUDA jadrá / SM	64	4	32	32	32	32	32?
FP32 CUDA jadrá	2880	3072	3584	3584	5120	6912	8576 (na modul) 17152 (kompletné)
FP64 CUDA jadrá	960	96	1792	1792	2560	3456	4288 (na modul)? 8576 (kompletné)?
Tenzorové jadrá	N / A	N / A	N / A	N / A	640	432	TBD
Jednotky textúry	240	192	224	224	320	432	TBD
Boost Clock	875 MHz	1114 MHz	1329MHz	1480 MHz	1530 MHz	1410 MHz	~ 1400 MHz
TOP (DNN/AI)	N / A	N / A	N / A	N / A	125 TOPs	1248 TOPs 2496 TOP s Spasity	TBD
FP16 Compute	N / A	N / A	18.7 TFLOPs	21.2 TFLOPs	30.4 TFLOPs	312 TFLOPs 624 TFLOPs s Spasity	779 TFLOPs (na modul)? 1558 TFLOP s riedkou (na modul)?
FP32 Compute	5.04 TFLOPs	6.8 TFLOPs	10.0 TFLOPs	10.6 TFLOPs	15.7 TFLOPs	19.4 TFLOPs 156 TFLOPs s riedkou	24.2 TFLOPs (na modul)? 193.6 TFLOPs s riedkosťou?
FP64 Compute	1.68 TFLOPs	0.2 TFLOPs	4.7 TFLOPs	5.30 TFLOPs	7.80 TFLOPs	19.5 TFLOPs (Štandard 9.7 TFLOPs)	24.2 TFLOPs (na modul)? (štandard 12.1 TFLOPs)?
Pamäťové rozhranie	384-bit GDDR5	384-bit GDDR5	4096-bitový HBM2	4096-bitový HBM2	4096-bitový HBM2	6144-bitový HBM2e	6144-bitový HBM2e
Veľkosť pamäte	12 GB GDDR5 @ 288 GB/s	24 GB GDDR5 @ 288 GB/s	16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 900 GB/s	Až 40 GB HBM2 @ 1.6 TB/s Až 80 GB HBM2 @ 1.6 TB/s	Až 100 GB HBM2e @ 3.5 Gbps
Veľkosť vyrovnávacej pamäte L2	1536 KB	3072 KB	4096 KB	4096 KB	6144 KB	40960 KB	81920 KB
TDP	235 W	250 W	250 W	300 W	300 W	400 W	~ 450-500W