TECH

Tajanstveni NVIDIA 'GPU-N' mogao bi biti prerušeni Hopper GH100 sljedeće generacije sa 134 SM-a, 8576 jezgri i propusnošću od 2.68 TB/s, prikazanim simuliranim performansama

Priča se da će NVIDIA Hopper GPU-i s MCM tehnologijom uskoro izaći

Misteriozni NVIDIA GPU poznat kao GPU-N koji bi mogao biti prvi pogled na sljedeću generaciju Hopper GH100 čipa otkriven je u novom znanstveni rad objavio je zeleni tim (kako je otkrio Korisnik Twittera, Redfire).

NVIDIA Research Paper govori o 'GPU-N' s MCM dizajnom i 8576 jezgrama, može li ovo biti Hopper GH100 sljedeće generacije?

Istraživački rad 'Specijalizacija domene GPU-a putem arhitekture na paketu koja se može sastaviti' govori o dizajnu GPU-a sljedeće generacije kao najpraktičnijem rješenju za maksimiziranje propusnosti matrične matematike niske preciznosti za povećanje performansi dubokog učenja. Raspravljalo se o 'GPU-N' i njegovim odgovarajućim COPA dizajnima zajedno s njihovim mogućim specifikacijama i rezultatima simuliranih performansi.

  • specijalizacija-gpu-domene-preko-kompozibilne-na-arhitekture-paketa-2
  • specijalizacija-gpu-domene-preko-kompozibilne-na-paketnoj-arhitekturi

Rečeno je da 'GPU-N' ima 134 SM jedinice (nasuprot 104 SM jedinice A100). To čini ukupno 8576 jezgri ili povećanje od 24% u odnosu na trenutno rješenje Ampere A100. Čip je izmjeren na 1.4 GHz, što je ista teoretska brzina takta Ampere A100 i Volta V100 (da se ne miješaju s konačnim taktovima). Ostale specifikacije uključuju 60 MB L2 predmemorije, povećanje od 50% u odnosu na Ampere A100 i DRAM propusnost od 2.68 TB/s koja se može skalirati do 6.3 TB/s. Kapacitet HBM2e DRAM-a je 100 GB i može se proširiti do 233 GB s COPA implementacijama. Konfigurirano je oko 6144-bitnog sučelja sabirnice na taktu od 3.5 Gbps.

konfiguracija NVIDIA V100 NVIDIA A100 GPU-N
SM -ovi 80 108 134
GPU frekvencija (GHz) 1.4 1.4 1.4
FP32 (TFLOPS) 15.7 19.5 24.2
FP16 (TFLOPS) 125 312 779
L2 predmemorija (MB) 6 40 60
DRAM BW (GB/s) 900 1,555 2,687
DRAM kapacitet (GB) 16 40 100

Što se tiče performansi, 'GPU-N' (vjerojatno Hopper GH100) proizvodi 24.2 TFLOP-a FP32 (povećanje od 24% u odnosu na A100) i 779 TFLOP-a FP16 (2.5x povećanje u odnosu na A100) što zvuči jako blizu 3x dobitaka koji su bili priča se za GH100 umjesto A100. U usporedbi s AMD-ovim CDNA 2 'Aldebaran' GPU-om na Instinct MI250X akcelerator, performanse FP32 manje su od polovice (95.7 TFLOPs u odnosu na 24.2 TFLOPs), ali performanse FP16 su 2.15x veće.

Od prethodne informacije, znamo da bi se NVIDIA-in H100 akcelerator temeljio na MCM rješenju i koristio TSMC-ov 5nm procesni čvor. Hopper bi trebao imati dva GPU modula sljedeće generacije tako da gledamo na ukupno 288 SM jedinica. Još ne možemo dati kratak pregled broja jezgri jer ne znamo broj jezgri u svakom SM-u, ali ako se držimo 64 jezgre po SM-u, tada ćemo dobiti 18,432 2.25 jezgre što je 100x više od puna GA64 GPU konfiguracija. NVIDIA bi također mogla iskoristiti više FP16, FP1 & Tensor jezgri unutar svog Hopper GPU-a što bi neizmjerno povećalo performanse. A to će biti neophodno za rivalstvo s Intelovim Ponte Vecchiom za koji se očekuje da ima 1:64 FPXNUMX.

Vjerojatno će konačna konfiguracija doći sa 134 od 144 SM jedinice omogućene na svakom GPU modulu i kao takav, vjerojatno gledamo jedan GH100 matricu u akciji. Ali malo je vjerojatno da bi NVIDIA dosegla isti FP32 ili FP64 Flops kao MI200 bez korištenja GPU Sparsityja.

Ali NVIDIA vjerojatno ima tajno oružje u rukavu, a to bi bila GPU implementacija Hoppera temeljena na COPA-i. NVIDIA govori o dva COPA-GPU-a specijalizirana za domenu temeljena na arhitekturi sljedeće generacije, jednom za HPC i jednom za DL segment. HPC varijanta ima vrlo standardni pristup koji se sastoji od MCM GPU dizajna i odgovarajućih HBM/MC+HBM (IO) čipleta, ali DL varijanta je mjesto gdje stvari počinju biti zanimljive. DL varijanta sadrži veliku predmemoriju na potpuno zasebnoj matrici koja je međusobno povezana s GPU modulima.

Arhitektura Kapacitet LLC preduzeća DRAM BW Kapacitet DRAM-a
konfiguracija (MB) (TB/s) (GB)
GPU-N 60 2.7 100
COPA-GPU-1 960 2.7 100
COPA-GPU-2 960 4.5 167
COPA-GPU-3 1,920 2.7 100
COPA-GPU-4 1,920 4.5 167
COPA-GPU-5 1,920 6.3 233
Savršen L2 beskonačan beskonačan beskonačan

Navedene su različite varijante s do 960 / 1920 GB LLC (Last-Level-Cache), HBM2e DRAM kapaciteta do 233 GB i propusnosti do 6.3 TB/s. Sve su to teoretske, ali s obzirom na to da je NVIDIA o njima sada raspravljala, vjerojatno ćemo vidjeti Hopper varijantu s takvim dizajnom tijekom potpunog predstavljanja na GTC 2022.

NVIDIA Hopper GH100 'Preliminarne specifikacije':

NVIDIA Tesla grafička kartica Tesla K40
(PCI Express)
Tesla M40
(PCI Express)
Tesla P100
(PCI Express)
Tesla P100 (SXM2) Tesla V100 (SXM2) NVIDIA A100 (SXM4) NVIDIA H100 (SMX4?)
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (pascal) GP100 (pascal) GV100 (Volta) GA100 (Amper) GH100 (lijevka)
Procesni čvor 28nm 28nm 16nm 16nm 12nm 7nm 5nm
Tranzistora 7.1 milijardi 8 milijardi 15.3 milijardi 15.3 milijardi 21.1 milijardi 54.2 milijardi TBD
Veličina GPU matrice 551 mm2 601 mm2 610 mm2 610 mm2 815mm2 826mm2 TBD
SM -ovi 15 24 56 56 80 108 134 (po modulu)
TPC-ovi 15 24 28 28 40 54 TBD
FP32 CUDA jezgre po SM 192 128 64 64 64 64 64?
FP64 CUDA jezgre / SM 64 4 32 32 32 32 32?
FP32 CUDA jezgre 2880 3072 3584 3584 5120 6912 8576 (po modulu)
17152 (potpuno)
FP64 CUDA jezgre 960 96 1792 1792 2560 3456 4288 (po modulu)?
8576 (potpuno)?
Tenzorske jezgre N / A N / A N / A N / A 640 432 TBD
Jedinice teksture 240 192 224 224 320 432 TBD
Potaknuti sat 875 MHz 1114 MHz 1329MHz 1480 MHz 1530 MHz 1410 MHz ~ 1400 MHz
TOP (DNN/AI) N / A N / A N / A N / A 125 TOPS 1248 TOPS
2496 TOP s Sparsity
TBD
Izračunajte FP16 N / A N / A 18.7 TFLOPs 21.2 TFLOPs 30.4 TFLOPs 312 TFLOPs
624 TFLOP-a s Sparsity
779 TFLOP-a (po modulu)?
1558 TFLOP-ova s ​​Sparsity (po modulu)?
Izračunajte FP32 5.04 TFLOPs 6.8 TFLOPs 10.0 TFLOPs 10.6 TFLOPs 15.7 TFLOPs 19.4 TFLOPs
156 TFLOP-a s Sparsity
24.2 TFLOP-a (po modulu)?
193.6 TFLOP-a s rijetkošću?
Izračunajte FP64 1.68 TFLOPs 0.2 TFLOPs 4.7 TFLOPs 5.30 TFLOPs 7.80 TFLOPs 19.5 TFLOPs
(9.7 TFLOPs standard)
24.2 TFLOP-a (po modulu)?
(12.1 TFLOPs standard)?
Memorijsko sučelje 384-bitni GDDR5 384-bitni GDDR5 4096-bitni HBM2 4096-bitni HBM2 4096-bitni HBM2 6144-bitni HBM2e 6144-bitni HBM2e
Memorija Veličina 12 GB GDDR5 pri 288 GB/s 24 GB GDDR5 pri 288 GB/s 16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s
16 GB HBM2 @ 732 GB/s 16 GB HBM2 @ 900 GB/s Do 40 GB HBM2 pri 1.6 TB/s
Do 80 GB HBM2 pri 1.6 TB/s
Do 100 GB HBM2e @ 3.5 Gbps
L2 veličina predmemorije 1536 KB 3072 KB 4096 KB 4096 KB 6144 KB 40960 KB 81920 KB
TDP 235W 250W 250W 300W 300W 400W ~ 450-500W

Pošta Tajanstveni NVIDIA 'GPU-N' mogao bi biti prerušeni Hopper GH100 sljedeće generacije sa 134 SM-a, 8576 jezgri i propusnošću od 2.68 TB/s, prikazanim simuliranim performansama by Hasan Mujtaba pojavio prvi na Wccftech.

Izvorni članak

Širi ljubav
Prikaži više

Vezani članci

Ostavi odgovor

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena *

Natrag na vrh