Misteriozni NVIDIA GPU poznat kao GPU-N koji bi mogao biti prvi pogled na sljedeću generaciju Hopper GH100 čipa otkriven je u novom znanstveni rad objavio je zeleni tim (kako je otkrio Korisnik Twittera, Redfire).
NVIDIA Research Paper govori o 'GPU-N' s MCM dizajnom i 8576 jezgrama, može li ovo biti Hopper GH100 sljedeće generacije?
Istraživački rad 'Specijalizacija domene GPU-a putem arhitekture na paketu koja se može sastaviti' govori o dizajnu GPU-a sljedeće generacije kao najpraktičnijem rješenju za maksimiziranje propusnosti matrične matematike niske preciznosti za povećanje performansi dubokog učenja. Raspravljalo se o 'GPU-N' i njegovim odgovarajućim COPA dizajnima zajedno s njihovim mogućim specifikacijama i rezultatima simuliranih performansi.
Rečeno je da 'GPU-N' ima 134 SM jedinice (nasuprot 104 SM jedinice A100). To čini ukupno 8576 jezgri ili povećanje od 24% u odnosu na trenutno rješenje Ampere A100. Čip je izmjeren na 1.4 GHz, što je ista teoretska brzina takta Ampere A100 i Volta V100 (da se ne miješaju s konačnim taktovima). Ostale specifikacije uključuju 60 MB L2 predmemorije, povećanje od 50% u odnosu na Ampere A100 i DRAM propusnost od 2.68 TB/s koja se može skalirati do 6.3 TB/s. Kapacitet HBM2e DRAM-a je 100 GB i može se proširiti do 233 GB s COPA implementacijama. Konfigurirano je oko 6144-bitnog sučelja sabirnice na taktu od 3.5 Gbps.
konfiguracija | NVIDIA V100 | NVIDIA A100 | GPU-N |
---|---|---|---|
SM -ovi | 80 | 108 | 134 |
GPU frekvencija (GHz) | 1.4 | 1.4 | 1.4 |
FP32 (TFLOPS) | 15.7 | 19.5 | 24.2 |
FP16 (TFLOPS) | 125 | 312 | 779 |
L2 predmemorija (MB) | 6 | 40 | 60 |
DRAM BW (GB/s) | 900 | 1,555 | 2,687 |
DRAM kapacitet (GB) | 16 | 40 | 100 |
Što se tiče performansi, 'GPU-N' (vjerojatno Hopper GH100) proizvodi 24.2 TFLOP-a FP32 (povećanje od 24% u odnosu na A100) i 779 TFLOP-a FP16 (2.5x povećanje u odnosu na A100) što zvuči jako blizu 3x dobitaka koji su bili priča se za GH100 umjesto A100. U usporedbi s AMD-ovim CDNA 2 'Aldebaran' GPU-om na Instinct MI250X akcelerator, performanse FP32 manje su od polovice (95.7 TFLOPs u odnosu na 24.2 TFLOPs), ali performanse FP16 su 2.15x veće.
Od prethodne informacije, znamo da bi se NVIDIA-in H100 akcelerator temeljio na MCM rješenju i koristio TSMC-ov 5nm procesni čvor. Hopper bi trebao imati dva GPU modula sljedeće generacije tako da gledamo na ukupno 288 SM jedinica. Još ne možemo dati kratak pregled broja jezgri jer ne znamo broj jezgri u svakom SM-u, ali ako se držimo 64 jezgre po SM-u, tada ćemo dobiti 18,432 2.25 jezgre što je 100x više od puna GA64 GPU konfiguracija. NVIDIA bi također mogla iskoristiti više FP16, FP1 & Tensor jezgri unutar svog Hopper GPU-a što bi neizmjerno povećalo performanse. A to će biti neophodno za rivalstvo s Intelovim Ponte Vecchiom za koji se očekuje da ima 1:64 FPXNUMX.
Vjerojatno će konačna konfiguracija doći sa 134 od 144 SM jedinice omogućene na svakom GPU modulu i kao takav, vjerojatno gledamo jedan GH100 matricu u akciji. Ali malo je vjerojatno da bi NVIDIA dosegla isti FP32 ili FP64 Flops kao MI200 bez korištenja GPU Sparsityja.
Ali NVIDIA vjerojatno ima tajno oružje u rukavu, a to bi bila GPU implementacija Hoppera temeljena na COPA-i. NVIDIA govori o dva COPA-GPU-a specijalizirana za domenu temeljena na arhitekturi sljedeće generacije, jednom za HPC i jednom za DL segment. HPC varijanta ima vrlo standardni pristup koji se sastoji od MCM GPU dizajna i odgovarajućih HBM/MC+HBM (IO) čipleta, ali DL varijanta je mjesto gdje stvari počinju biti zanimljive. DL varijanta sadrži veliku predmemoriju na potpuno zasebnoj matrici koja je međusobno povezana s GPU modulima.
Arhitektura | Kapacitet LLC preduzeća | DRAM BW | Kapacitet DRAM-a |
---|---|---|---|
konfiguracija | (MB) | (TB/s) | (GB) |
GPU-N | 60 | 2.7 | 100 |
COPA-GPU-1 | 960 | 2.7 | 100 |
COPA-GPU-2 | 960 | 4.5 | 167 |
COPA-GPU-3 | 1,920 | 2.7 | 100 |
COPA-GPU-4 | 1,920 | 4.5 | 167 |
COPA-GPU-5 | 1,920 | 6.3 | 233 |
Savršen L2 | beskonačan | beskonačan | beskonačan |
Navedene su različite varijante s do 960 / 1920 GB LLC (Last-Level-Cache), HBM2e DRAM kapaciteta do 233 GB i propusnosti do 6.3 TB/s. Sve su to teoretske, ali s obzirom na to da je NVIDIA o njima sada raspravljala, vjerojatno ćemo vidjeti Hopper varijantu s takvim dizajnom tijekom potpunog predstavljanja na GTC 2022.
NVIDIA Hopper GH100 'Preliminarne specifikacije':
NVIDIA Tesla grafička kartica | Tesla K40 (PCI Express) |
Tesla M40 (PCI Express) |
Tesla P100 (PCI Express) |
Tesla P100 (SXM2) | Tesla V100 (SXM2) | NVIDIA A100 (SXM4) | NVIDIA H100 (SMX4?) |
---|---|---|---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (pascal) | GP100 (pascal) | GV100 (Volta) | GA100 (Amper) | GH100 (lijevka) |
Procesni čvor | 28nm | 28nm | 16nm | 16nm | 12nm | 7nm | 5nm |
Tranzistora | 7.1 milijardi | 8 milijardi | 15.3 milijardi | 15.3 milijardi | 21.1 milijardi | 54.2 milijardi | TBD |
Veličina GPU matrice | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 826mm2 | TBD |
SM -ovi | 15 | 24 | 56 | 56 | 80 | 108 | 134 (po modulu) |
TPC-ovi | 15 | 24 | 28 | 28 | 40 | 54 | TBD |
FP32 CUDA jezgre po SM | 192 | 128 | 64 | 64 | 64 | 64 | 64? |
FP64 CUDA jezgre / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32? |
FP32 CUDA jezgre | 2880 | 3072 | 3584 | 3584 | 5120 | 6912 | 8576 (po modulu) 17152 (potpuno) |
FP64 CUDA jezgre | 960 | 96 | 1792 | 1792 | 2560 | 3456 | 4288 (po modulu)? 8576 (potpuno)? |
Tenzorske jezgre | N / A | N / A | N / A | N / A | 640 | 432 | TBD |
Jedinice teksture | 240 | 192 | 224 | 224 | 320 | 432 | TBD |
Potaknuti sat | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1410 MHz | ~ 1400 MHz |
TOP (DNN/AI) | N / A | N / A | N / A | N / A | 125 TOPS | 1248 TOPS 2496 TOP s Sparsity |
TBD |
Izračunajte FP16 | N / A | N / A | 18.7 TFLOPs | 21.2 TFLOPs | 30.4 TFLOPs | 312 TFLOPs 624 TFLOP-a s Sparsity |
779 TFLOP-a (po modulu)? 1558 TFLOP-ova s Sparsity (po modulu)? |
Izračunajte FP32 | 5.04 TFLOPs | 6.8 TFLOPs | 10.0 TFLOPs | 10.6 TFLOPs | 15.7 TFLOPs | 19.4 TFLOPs 156 TFLOP-a s Sparsity |
24.2 TFLOP-a (po modulu)? 193.6 TFLOP-a s rijetkošću? |
Izračunajte FP64 | 1.68 TFLOPs | 0.2 TFLOPs | 4.7 TFLOPs | 5.30 TFLOPs | 7.80 TFLOPs | 19.5 TFLOPs (9.7 TFLOPs standard) |
24.2 TFLOP-a (po modulu)? (12.1 TFLOPs standard)? |
Memorijsko sučelje | 384-bitni GDDR5 | 384-bitni GDDR5 | 4096-bitni HBM2 | 4096-bitni HBM2 | 4096-bitni HBM2 | 6144-bitni HBM2e | 6144-bitni HBM2e |
Memorija Veličina | 12 GB GDDR5 pri 288 GB/s | 24 GB GDDR5 pri 288 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s |
16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 900 GB/s | Do 40 GB HBM2 pri 1.6 TB/s Do 80 GB HBM2 pri 1.6 TB/s |
Do 100 GB HBM2e @ 3.5 Gbps |
L2 veličina predmemorije | 1536 KB | 3072 KB | 4096 KB | 4096 KB | 6144 KB | 40960 KB | 81920 KB |
TDP | 235W | 250W | 250W | 300W | 300W | 400W | ~ 450-500W |
Pošta Tajanstveni NVIDIA 'GPU-N' mogao bi biti prerušeni Hopper GH100 sljedeće generacije sa 134 SM-a, 8576 jezgri i propusnošću od 2.68 TB/s, prikazanim simuliranim performansama by Hasan Mujtaba pojavio prvi na Wccftech.