TECH

O misterioso 'GPU-N' de NVIDIA podería ser un Hopper GH100 de nova xeración disfrazado con 134 SM, 8576 núcleos e ancho de banda de 2.68 TB/s, mostrando puntos de referencia de rendemento simulados

Se rumorea que as GPU NVIDIA Hopper con tecnoloxía MCM se lanzarán en breve

Unha misteriosa GPU NVIDIA coñecida como GPU-N que posiblemente podería ser a primeira ollada ao chip Hopper GH100 de próxima xeración foi revelada nun novo traballo de investigación publicado polo equipo verde (como descubriu Usuario de Twitter, Redfire).

O documento de investigación de NVIDIA fala de 'GPU-N' con deseño MCM e núcleos 8576, podería ser este Hopper GH100 de nova xeración?

O traballo de investigación 'GPU Domain Specialization via Composable On-Package Architecture' fala dun deseño de GPU de próxima xeración como a solución máis práctica para maximizar o rendemento de matemáticas de matriz de baixa precisión para aumentar o rendemento do Deep Learning. A "GPU-N" e os seus respectivos deseños COPA foron discutidos xunto coas súas posibles especificacións e resultados simulados de rendemento.

  • gpu-domain-specialization-via-composable-on-package-architecture-2
  • especialización-dominio-gpu-mediante-arquitectura-composable-on-package

Dise que a "GPU-N" presenta 134 unidades SM (frente ás 104 unidades SM do A100). Isto supón un total de 8576 núcleos ou un aumento do 24% con respecto á solución Ampere A100 actual. O chip foi medido a 1.4 GHz, a mesma velocidade de reloxo teórica que o Ampere A100 e o Volta V100 (non debe confundirse co reloxo final). Outras especificacións inclúen unha caché L60 de 2 MB, un aumento do 50 % con respecto ao Ampere A100 e un ancho de banda DRAM de 2.68 TB/s que pode escalar ata 6.3 TB/s. A capacidade DRAM HBM2e é de 100 GB e pódese ampliar ata 233 GB coas implementacións COPA. Está configurado arredor dunha interface de bus de 6144 bits a velocidades de reloxo de 3.5 Gbps.

configuración NVIDIA V100 NVIDIA A100 GPU-N
SMS 80 108 134
Frecuencia da GPU (GHz) 1.4 1.4 1.4
FP32 (TFLOPS) 15.7 19.5 24.2
FP16 (TFLOPS) 125 312 779
Caché L2 (MB) 6 40 60
DRAM BW (GB/s) 900 1,555 2,687
Capacidade DRAM (GB) 16 40 100

Chegando aos números de rendemento, a "GPU-N" (presumiblemente Hopper GH100) produce 24.2 TFLOP de FP32 (aumento do 24% sobre A100) e 779 TFLOP FP16 (aumento de 2.5 veces sobre A100), o que soa moi preto das ganancias de 3x que foron. rumorea para GH100 sobre A100. En comparación coa GPU "Aldebaran" CDNA 2 de AMD no Acelerador Instinct MI250X, o rendemento do FP32 é inferior á metade (95.7 TFLOP fronte a 24.2 TFLOP) pero o rendemento do FP16 é 2.15 veces superior.

de información previa, sabemos que o acelerador H100 de NVIDIA estaría baseado nunha solución MCM e utilizaría o nodo de proceso de 5 nm de TSMC. Suponse que Hopper ten dous módulos GPU de nova xeración, polo que estamos mirando 288 unidades SM en total. Aínda non podemos dar un resumo do reconto de núcleos xa que non sabemos o número de núcleos que aparecen en cada SM, pero se vai quedar con 64 núcleos por SM, entón teremos 18,432 núcleos, que son 2.25 veces máis que o SM. configuración completa da GPU GA100. NVIDIA tamén podería aproveitar máis núcleos FP64, FP16 e Tensor dentro da súa GPU Hopper, o que aumentaría enormemente o rendemento. E iso vai ser unha necesidade para rivalizar co Ponte Vecchio de Intel, que se espera que conteña FP1 1:64.

É probable que a configuración final veña con 134 das 144 unidades SM habilitadas en cada módulo de GPU e, como tal, é probable que esteamos mirando un único die GH100 en acción. Pero é improbable que NVIDIA alcance os mesmos flops FP32 ou FP64 que os MI200 sen usar GPU Sparsity.

Pero probablemente NVIDIA teña un arma secreta nas súas mangas e esa sería a implementación da GPU baseada en COPA de Hopper. NVIDIA fala de dúas GPU COPA especializadas en dominios baseadas na arquitectura de próxima xeración, unha para HPC e outra para o segmento DL. A variante HPC presenta un enfoque moi estándar que consiste nun deseño de GPU MCM e os respectivos chiplets HBM/MC+HBM (IO), pero a variante DL é onde as cousas comezan a ser interesantes. A variante DL alberga unha enorme caché nun dado totalmente separado que está interconectado cos módulos da GPU.

arquitectura Capacidade LLC DRAM BW Capacidade DRAM
configuración (MB) (TB/s) (GB)
GPU-N 60 2.7 100
COPA-GPU-1 960 2.7 100
COPA-GPU-2 960 4.5 167
COPA-GPU-3 1,920 2.7 100
COPA-GPU-4 1,920 4.5 167
COPA-GPU-5 1,920 6.3 233
Perfecto L2 infinito infinito infinito

Describíronse varias variantes con ata 960/1920 GB de LLC (Last-Level-Cache), capacidades de DRAM HBM2e de ata 233 GB e ancho de banda de ata 6.3 TB/s. Son todos teóricos, pero dado que NVIDIA os comentou agora, é posible que vexamos unha variante de Hopper con tal deseño durante a presentación completa en GTC 2022.

NVIDIA Hopper GH100 "Especificacións preliminares":

Tarxeta gráfica NVIDIA Tesla Tesla K40
(PCI Express)
Tesla M40
(PCI Express)
Tesla P100
(PCI Express)
Tesla P100 (SXM2) Tesla V100 (SXM2) NVIDIA A100 (SXM4) NVIDIA H100 (SMX4?)
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal) GP100 (Pascal) GV100 (Volta) GA100 (amperios) GH100 (Tolva)
Nodo de proceso 28nm 28nm 16nm 16nm 12nm 7nm 5nm
Transistores 7.1 Billion 8 Billion 15.3 Billion 15.3 Billion 21.1 Billion 54.2 Billion TBD
Tamaño da matriz da GPU 551 mm2 601 mm2 610 mm2 610 mm2 815mm2 826mm2 TBD
SMS 15 24 56 56 80 108 134 (por módulo)
TPC 15 24 28 28 40 54 TBD
Núcleos FP32 CUDA por SM 192 128 64 64 64 64 64?
FP64 CUDA Cores/SM 64 4 32 32 32 32 32?
Cores FP32 CUDA 2880 3072 3584 3584 5120 6912 8576 (por módulo)
17152 (Completo)
Cores FP64 CUDA 960 96 1792 1792 2560 3456 4288 (por módulo)?
8576 (Completo)?
Tensor Cores N / A N / A N / A N / A 640 432 TBD
Unidades de textura 240 192 224 224 320 432 TBD
Aumentar o reloxo 875 MHz 1114 MHz 1329MHz 1480 MHz 1530 MHz 1410 MHz ~ 1400 MHz
TOP (DNN/AI) N / A N / A N / A N / A TOPS 125 TOPS 1248
2496 TOPs con sparsity
TBD
Calcula FP16 N / A N / A 18.7 TFLOPs 21.2 TFLOPs 30.4 TFLOPs 312 TFLOPs
624 TFLOP con sparsity
779 TFLOP (por módulo)?
1558 TFLOP con sparsity (por módulo)?
Calcula FP32 5.04 TFLOPs 6.8 TFLOPs 10.0 TFLOPs 10.6 TFLOPs 15.7 TFLOPs 19.4 TFLOPs
156 TFLOPs con dispersión
24.2 TFLOP (por módulo)?
193.6 TFLOPs con sparsity?
Calcula FP64 1.68 TFLOPs 0.2 TFLOPs 4.7 TFLOPs 5.30 TFLOPs 7.80 TFLOPs 19.5 TFLOPs
(9.7 TFLOP estándar)
24.2 TFLOP (por módulo)?
(12.1 TFLOP estándar)?
Interface de memoria GDDR384 de 5 bits GDDR384 de 5 bits HBM4096 de 2 bits HBM4096 de 2 bits HBM4096 de 2 bits HBM6144e de 2 bits HBM6144e de 2 bits
Tamaño da memoria 12 GB GDDR5 @ 288 GB/s 24 GB GDDR5 @ 288 GB/s 16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s
16 GB HBM2 @ 732 GB/s 16 GB HBM2 @ 900 GB/s Ata 40 GB HBM2 @ 1.6 TB/s
Ata 80 GB HBM2 @ 1.6 TB/s
Ata 100 GB HBM2e @ 3.5 Gbps
Tamaño da caché L2 1536 KB 3072 KB 4096 KB 4096 KB 6144 KB 40960 KB 81920 KB
TDP 235W 250W 250W 300W 300W 400W ~ 450-500W

O posto O misterioso 'GPU-N' de NVIDIA podería ser un Hopper GH100 de nova xeración disfrazado con 134 SM, 8576 núcleos e ancho de banda de 2.68 TB/s, mostrando puntos de referencia de rendemento simulados by Hassan Mukhtaba apareceu por primeira vez en Wccftech.

Artigo Orixinal

Estender o amor
Amosar máis

artigos relacionados

Deixe unha resposta

Enderezo de correo electrónico non será publicado. Os campos obrigatorios están marcados *

Botón de volta ao principio