Záhadný GPU NVIDIA známy ako GPU-N, ktorý by mohol byť prvým pohľadom na čip Hopper GH100 novej generácie, bol odhalený v novom výzkumná práca publikoval zelený tím (ako zistil Používateľ Twitteru, Redfire).
Výskumná kniha NVIDIA hovorí o „GPU-N“ s dizajnom MCM a jadrami 8576, mohol by to byť Hopper GH100 novej generácie?
Výskumný dokument „GPU Domain Specialization via Composable On-Package Architecture“ hovorí o dizajne GPU novej generácie ako o najpraktickejšom riešení na maximalizáciu matematickej priepustnosti s nízkou presnosťou na zvýšenie výkonu hlbokého učenia. „GPU-N“ a jeho príslušné návrhy COPA boli prediskutované spolu s ich možnými špecifikáciami a výsledkami simulovaného výkonu.
Hovorí sa, že „GPU-N“ obsahuje 134 jednotiek SM (v porovnaní so 104 jednotkami SM A100). To tvorí celkovo 8576 jadier alebo 24% nárast oproti súčasnému riešeniu Ampere A100. Čip bol nameraný na 1.4 GHz, čo je rovnaká teoretická rýchlosť hodín Ampere A100 a Volta V100 (nezamieňať s konečnými taktmi). Medzi ďalšie špecifikácie patrí vyrovnávacia pamäť L60 s veľkosťou 2 MB, 50 % nárast oproti Ampere A100 a šírka pásma DRAM 2.68 TB/s, ktorá sa môže rozšíriť až na 6.3 TB/s. Kapacita HBM2e DRAM je 100 GB a možno ju rozšíriť až na 233 GB pomocou implementácií COPA. Je nakonfigurovaný na 6144-bitovom zbernicovom rozhraní s rýchlosťou hodín 3.5 Gbps.
konfigurácia | NVIDIA V100 | NVIDIA A100 | GPU-N |
---|---|---|---|
SM | 80 | 108 | 134 |
Frekvencia GPU (GHz) | 1.4 | 1.4 | 1.4 |
FP32 (TFLOPS) | 15.7 | 19.5 | 24.2 |
FP16 (TFLOPS) | 125 | 312 | 779 |
L2 cache (MB) | 6 | 40 | 60 |
DRAM BW (GB/s) | 900 | 1,555 | 2,687 |
Kapacita DRAM (GB) | 16 | 40 | 100 |
Pokiaľ ide o čísla výkonu, „GPU-N“ (pravdepodobne Hopper GH100) produkuje 24.2 TFLOPs FP32 (24 % nárast oproti A100) a 779 TFLOPs FP16 (2.5-násobný nárast oproti A100), čo znie naozaj blízko k 3-násobnému zvýšeniu, hovorí sa o GH100 nad A100. V porovnaní s AMD CDNA 2 'Aldebaran' GPU na Akcelerátor Instinct MI250X, výkon FP32 je menej ako polovičný (95.7 TFLOPs oproti 24.2 TFLOPs), ale výkon FP16 je 2.15x vyšší.
od predchádzajúce informácievieme, že akcelerátor NVIDIA H100 by bol založený na riešení MCM a využíval by 5nm procesný uzol TSMC. Hopper má mať dva GPU moduly novej generácie, takže celkovo sa pozeráme na 288 SM jednotiek. Zatiaľ nemôžeme poskytnúť prehľad o počte jadier, pretože nepoznáme počet jadier v jednotlivých moduloch SM, ale ak zostane na 64 jadrách na modul SM, získame 18,432 2.25 jadier, čo je 100-krát viac ako plná konfigurácia GPU GA64. NVIDIA by tiež mohla využiť viac jadier FP16, FP1 a Tensor v rámci svojho GPU Hopper, čo by výrazne zvýšilo výkon. A to bude nevyhnutnosťou pre súperenie s Ponte Vecchio od Intelu, od ktorého sa očakáva, že bude obsahovať 1:64 FPXNUMX.
Je pravdepodobné, že konečná konfigurácia príde so 134 zo 144 SM jednotkami povolenými na každom module GPU a ako také sa pravdepodobne pozeráme na jednu matricu GH100 v akcii. Je však nepravdepodobné, že by NVIDIA dosiahla rovnaké FP32 alebo FP64 Flops ako MI200 bez použitia GPU Sparsity.
NVIDIA však môže mať v rukáve tajnú zbraň, a tou by bola implementácia GPU Hopper založená na COPA. NVIDIA hovorí o dvoch COPA-GPU špecializovaných na domény založených na architektúre novej generácie, jeden pre HPC a jeden pre segment DL. Variant HPC sa vyznačuje veľmi štandardným prístupom, ktorý pozostáva z dizajnu GPU MCM a príslušných čipletov HBM/MC+HBM (IO), ale vo variante DL to začína byť zaujímavé. Variant DL obsahuje obrovskú vyrovnávaciu pamäť na úplne samostatnej matrici, ktorá je prepojená s modulmi GPU.
architektúra | LLC kapacita | DRAM BW | Kapacita DRAM |
---|---|---|---|
konfigurácia | (MB) | (TB/s) | (GB) |
GPU-N | 60 | 2.7 | 100 |
COPA-GPU-1 | 960 | 2.7 | 100 |
COPA-GPU-2 | 960 | 4.5 | 167 |
COPA-GPU-3 | 1,920 | 2.7 | 100 |
COPA-GPU-4 | 1,920 | 4.5 | 167 |
COPA-GPU-5 | 1,920 | 6.3 | 233 |
Perfektné L2 | nekonečný | nekonečný | nekonečný |
Boli navrhnuté rôzne varianty s až 960/1920 GB LLC (Last-Level-Cache), kapacitami HBM2e DRAM až 233 GB a šírkou pásma až 6.3 TB/s. Všetky sú teoretické, ale vzhľadom na to, že o nich NVIDIA teraz diskutovala, pravdepodobne uvidíme variant Hoppera s takýmto dizajnom počas úplného odhalenia na VOP 2022.
NVIDIA Hopper GH100 'Predbežné špecifikácie':
Grafická karta NVIDIA Tesla | Tesla K40 (PCI Express) |
Tesla M40 (PCI Express) |
Tesla P100 (PCI Express) |
Tesla P100 (SXM2) | Tesla V100 (SXM2) | NVIDIA A100 (SXM4) | NVIDIA H100 (SMX4?) |
---|---|---|---|---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (pascal) | GP100 (pascal) | GV100 (Volta) | GA100 (Ampér) | GH100 (násypka) |
Procesný uzol | 28nm | 28nm | 16nm | 16nm | 12nm | 7nm | 5nm |
Tranzistory | 7.1 miliárd | 8 miliárd | 15.3 miliárd | 15.3 miliárd | 21.1 miliárd | 54.2 miliárd | TBD |
Veľkosť matrice GPU | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 826mm2 | TBD |
SM | 15 | 24 | 56 | 56 | 80 | 108 | 134 (na modul) |
TPC | 15 | 24 | 28 | 28 | 40 | 54 | TBD |
FP32 CUDA jadier na SM | 192 | 128 | 64 | 64 | 64 | 64 | 64? |
FP64 CUDA jadrá / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32? |
FP32 CUDA jadrá | 2880 | 3072 | 3584 | 3584 | 5120 | 6912 | 8576 (na modul) 17152 (kompletné) |
FP64 CUDA jadrá | 960 | 96 | 1792 | 1792 | 2560 | 3456 | 4288 (na modul)? 8576 (kompletné)? |
Tenzorové jadrá | N / A | N / A | N / A | N / A | 640 | 432 | TBD |
Jednotky textúry | 240 | 192 | 224 | 224 | 320 | 432 | TBD |
Boost Clock | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1410 MHz | ~ 1400 MHz |
TOP (DNN/AI) | N / A | N / A | N / A | N / A | 125 TOPs | 1248 TOPs 2496 TOP s Spasity |
TBD |
FP16 Compute | N / A | N / A | 18.7 TFLOPs | 21.2 TFLOPs | 30.4 TFLOPs | 312 TFLOPs 624 TFLOPs s Spasity |
779 TFLOPs (na modul)? 1558 TFLOP s riedkou (na modul)? |
FP32 Compute | 5.04 TFLOPs | 6.8 TFLOPs | 10.0 TFLOPs | 10.6 TFLOPs | 15.7 TFLOPs | 19.4 TFLOPs 156 TFLOPs s riedkou |
24.2 TFLOPs (na modul)? 193.6 TFLOPs s riedkosťou? |
FP64 Compute | 1.68 TFLOPs | 0.2 TFLOPs | 4.7 TFLOPs | 5.30 TFLOPs | 7.80 TFLOPs | 19.5 TFLOPs (Štandard 9.7 TFLOPs) |
24.2 TFLOPs (na modul)? (štandard 12.1 TFLOPs)? |
Pamäťové rozhranie | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bitový HBM2 | 4096-bitový HBM2 | 4096-bitový HBM2 | 6144-bitový HBM2e | 6144-bitový HBM2e |
Veľkosť pamäte | 12 GB GDDR5 @ 288 GB/s | 24 GB GDDR5 @ 288 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s |
16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 900 GB/s | Až 40 GB HBM2 @ 1.6 TB/s Až 80 GB HBM2 @ 1.6 TB/s |
Až 100 GB HBM2e @ 3.5 Gbps |
Veľkosť vyrovnávacej pamäte L2 | 1536 KB | 3072 KB | 4096 KB | 4096 KB | 6144 KB | 40960 KB | 81920 KB |
TDP | 235 W | 250 W | 250 W | 300 W | 300 W | 400 W | ~ 450-500W |
Príspevok Tajomný NVIDIA 'GPU-N' by mohol byť Hopper GH100 novej generácie v prestrojení so 134 SM, 8576 jadrami a šírkou pásma 2.68 TB/s, zobrazené porovnávacie simulované výkony by Hassan Mukhtaba sa objavil najprv na Wccftech.