Misteriozni NVIDIA 'GPU-N' mogao bi biti maskirani Hopper GH100 sljedeće generacije sa 134 SM-a, 8576 jezgri i propusnošću od 2.68 TB/s, prikazana simulirana mjerila performansi

Priča se da će NVIDIA Hopper GPU-i s MCM tehnologijom uskoro izaći

Misteriozni NVIDIA GPU poznat kao GPU-N koji bi mogao biti prvi pogled na sljedeću generaciju Hopper GH100 čipa otkriven je u novom znanstveni rad objavio je zeleni tim (kako je otkrio Korisnik Twittera, Redfire).

NVIDIA Research Paper govori o 'GPU-N' s MCM dizajnom i 8576 jezgrama, može li ovo biti Hopper GH100 sljedeće generacije?

Istraživački rad 'Specijalizacija domene GPU-a putem arhitekture na paketu koja se može sastaviti' govori o dizajnu GPU-a sljedeće generacije kao najpraktičnijem rješenju za maksimiziranje propusnosti matrične matematike niske preciznosti za povećanje performansi dubokog učenja. Raspravljalo se o 'GPU-N' i njegovim odgovarajućim COPA dizajnima zajedno s njihovim mogućim specifikacijama i rezultatima simuliranih performansi.

Rečeno je da 'GPU-N' ima 134 SM jedinice (nasuprot 104 SM jedinice A100). To čini ukupno 8576 jezgri ili povećanje od 24% u odnosu na trenutno rješenje Ampere A100. Čip je izmjeren na 1.4 GHz, što je ista teoretska brzina takta Ampere A100 i Volta V100 (da se ne miješaju s konačnim taktovima). Ostale specifikacije uključuju 60 MB L2 predmemorije, povećanje od 50% u odnosu na Ampere A100 i DRAM propusnost od 2.68 TB/s koja se može skalirati do 6.3 TB/s. Kapacitet HBM2e DRAM-a je 100 GB i može se proširiti do 233 GB s COPA implementacijama. Konfigurirano je oko 6144-bitnog sučelja sabirnice na taktu od 3.5 Gbps.

konfiguracija	NVIDIA V100	NVIDIA A100	GPU-N
SM -ovi	80	108	134
GPU frekvencija (GHz)	1.4	1.4	1.4
FP32 (TFLOPS)	15.7	19.5	24.2
FP16 (TFLOPS)	125	312	779
L2 predmemorija (MB)	6	40	60
DRAM BW (GB/s)	900	1,555	2,687
DRAM kapacitet (GB)	16	40	100

Što se tiče performansi, 'GPU-N' (vjerojatno Hopper GH100) proizvodi 24.2 TFLOP-a FP32 (povećanje od 24% u odnosu na A100) i 779 TFLOP-a FP16 (2.5x povećanje u odnosu na A100) što zvuči jako blizu 3x dobitaka koji su bili priča se za GH100 umjesto A100. U usporedbi s AMD-ovim CDNA 2 'Aldebaran' GPU-om na Instinct MI250X akcelerator, performanse FP32 manje su od polovice (95.7 TFLOPs u odnosu na 24.2 TFLOPs), ali performanse FP16 su 2.15x veće.

Od prethodne informacije, znamo da bi se NVIDIA-in H100 akcelerator temeljio na MCM rješenju i koristio TSMC-ov 5nm procesni čvor. Hopper bi trebao imati dva GPU modula sljedeće generacije tako da gledamo na ukupno 288 SM jedinica. Još ne možemo dati kratak pregled broja jezgri jer ne znamo broj jezgri u svakom SM-u, ali ako se držimo 64 jezgre po SM-u, tada ćemo dobiti 18,432 2.25 jezgre što je 100x više od puna GA64 GPU konfiguracija. NVIDIA bi također mogla iskoristiti više FP16, FP1 & Tensor jezgri unutar svog Hopper GPU-a što bi neizmjerno povećalo performanse. A to će biti neophodno za rivalstvo s Intelovim Ponte Vecchiom za koji se očekuje da ima 1:64 FPXNUMX.

Vjerojatno će konačna konfiguracija doći sa 134 od 144 SM jedinice omogućene na svakom GPU modulu i kao takav, vjerojatno gledamo jedan GH100 matricu u akciji. Ali malo je vjerojatno da bi NVIDIA dosegla isti FP32 ili FP64 Flops kao MI200 bez korištenja GPU Sparsityja.

Ali NVIDIA vjerojatno ima tajno oružje u rukavu, a to bi bila GPU implementacija Hoppera temeljena na COPA-i. NVIDIA govori o dva COPA-GPU-a specijalizirana za domenu temeljena na arhitekturi sljedeće generacije, jednom za HPC i jednom za DL segment. HPC varijanta ima vrlo standardni pristup koji se sastoji od MCM GPU dizajna i odgovarajućih HBM/MC+HBM (IO) čipleta, ali DL varijanta je mjesto gdje stvari počinju biti zanimljive. DL varijanta sadrži veliku predmemoriju na potpuno zasebnoj matrici koja je međusobno povezana s GPU modulima.

Arhitektura	Kapacitet LLC preduzeća	DRAM BW	Kapacitet DRAM-a
konfiguracija	(MB)	(TB/s)	(GB)
GPU-N	60	2.7	100
COPA-GPU-1	960	2.7	100
COPA-GPU-2	960	4.5	167
COPA-GPU-3	1,920	2.7	100
COPA-GPU-4	1,920	4.5	167
COPA-GPU-5	1,920	6.3	233
Savršen L2	beskonačan	beskonačan	beskonačan

Navedene su različite varijante s do 960 / 1920 GB LLC (Last-Level-Cache), HBM2e DRAM kapaciteta do 233 GB i propusnosti do 6.3 TB/s. Sve su to teoretske, ali s obzirom na to da je NVIDIA o njima sada raspravljala, vjerojatno ćemo vidjeti Hopper varijantu s takvim dizajnom tijekom potpunog predstavljanja na GTC 2022.

NVIDIA Hopper GH100 'Preliminarne specifikacije':

NVIDIA Tesla grafička kartica	Tesla K40 (PCI Express)	Tesla M40 (PCI Express)	Tesla P100 (PCI Express)	Tesla P100 (SXM2)	Tesla V100 (SXM2)	NVIDIA A100 (SXM4)	NVIDIA H100 (SMX4?)
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (pascal)	GP100 (pascal)	GV100 (Volta)	GA100 (Amper)	GH100 (lijevka)
Procesni čvor	28nm	28nm	16nm	16nm	12nm	7nm	5nm
Tranzistora	7.1 milijardi	8 milijardi	15.3 milijardi	15.3 milijardi	21.1 milijardi	54.2 milijardi	TBD
Veličina GPU matrice	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	826mm2	TBD
SM -ovi	15	24	56	56	80	108	134 (po modulu)
TPC-ovi	15	24	28	28	40	54	TBD
FP32 CUDA jezgre po SM	192	128	64	64	64	64	64?
FP64 CUDA jezgre / SM	64	4	32	32	32	32	32?
FP32 CUDA jezgre	2880	3072	3584	3584	5120	6912	8576 (po modulu) 17152 (potpuno)
FP64 CUDA jezgre	960	96	1792	1792	2560	3456	4288 (po modulu)? 8576 (potpuno)?
Tenzorske jezgre	N / A	N / A	N / A	N / A	640	432	TBD
Jedinice teksture	240	192	224	224	320	432	TBD
Potaknuti sat	875 MHz	1114 MHz	1329MHz	1480 MHz	1530 MHz	1410 MHz	~ 1400 MHz
TOP (DNN/AI)	N / A	N / A	N / A	N / A	125 TOPS	1248 TOPS 2496 TOP s Sparsity	TBD
Izračunajte FP16	N / A	N / A	18.7 TFLOPs	21.2 TFLOPs	30.4 TFLOPs	312 TFLOPs 624 TFLOP-a s Sparsity	779 TFLOP-a (po modulu)? 1558 TFLOP-ova s Sparsity (po modulu)?
Izračunajte FP32	5.04 TFLOPs	6.8 TFLOPs	10.0 TFLOPs	10.6 TFLOPs	15.7 TFLOPs	19.4 TFLOPs 156 TFLOP-a s Sparsity	24.2 TFLOP-a (po modulu)? 193.6 TFLOP-a s rijetkošću?
Izračunajte FP64	1.68 TFLOPs	0.2 TFLOPs	4.7 TFLOPs	5.30 TFLOPs	7.80 TFLOPs	19.5 TFLOPs (9.7 TFLOPs standard)	24.2 TFLOP-a (po modulu)? (12.1 TFLOPs standard)?
Memorijsko sučelje	384-bitni GDDR5	384-bitni GDDR5	4096-bitni HBM2	4096-bitni HBM2	4096-bitni HBM2	6144-bitni HBM2e	6144-bitni HBM2e
Memorija Veličina	12 GB GDDR5 pri 288 GB/s	24 GB GDDR5 pri 288 GB/s	16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 900 GB/s	Do 40 GB HBM2 pri 1.6 TB/s Do 80 GB HBM2 pri 1.6 TB/s	Do 100 GB HBM2e @ 3.5 Gbps
L2 veličina predmemorije	1536 KB	3072 KB	4096 KB	4096 KB	6144 KB	40960 KB	81920 KB
TDP	235W	250W	250W	300W	300W	400W	~ 450-500W