O misterioso 'GPU-N' de NVIDIA podería ser un Hopper GH100 de nova xeración disfrazado con 134 SM, 8576 núcleos e ancho de banda de 2.68 TB/s, mostrando puntos de referencia de rendemento simulados

Se rumorea que as GPU NVIDIA Hopper con tecnoloxía MCM se lanzarán en breve

Unha misteriosa GPU NVIDIA coñecida como GPU-N que posiblemente podería ser a primeira ollada ao chip Hopper GH100 de próxima xeración foi revelada nun novo traballo de investigación publicado polo equipo verde (como descubriu Usuario de Twitter, Redfire).

O documento de investigación de NVIDIA fala de 'GPU-N' con deseño MCM e núcleos 8576, podería ser este Hopper GH100 de nova xeración?

O traballo de investigación 'GPU Domain Specialization via Composable On-Package Architecture' fala dun deseño de GPU de próxima xeración como a solución máis práctica para maximizar o rendemento de matemáticas de matriz de baixa precisión para aumentar o rendemento do Deep Learning. A "GPU-N" e os seus respectivos deseños COPA foron discutidos xunto coas súas posibles especificacións e resultados simulados de rendemento.

Dise que a "GPU-N" presenta 134 unidades SM (frente ás 104 unidades SM do A100). Isto supón un total de 8576 núcleos ou un aumento do 24% con respecto á solución Ampere A100 actual. O chip foi medido a 1.4 GHz, a mesma velocidade de reloxo teórica que o Ampere A100 e o Volta V100 (non debe confundirse co reloxo final). Outras especificacións inclúen unha caché L60 de 2 MB, un aumento do 50 % con respecto ao Ampere A100 e un ancho de banda DRAM de 2.68 TB/s que pode escalar ata 6.3 TB/s. A capacidade DRAM HBM2e é de 100 GB e pódese ampliar ata 233 GB coas implementacións COPA. Está configurado arredor dunha interface de bus de 6144 bits a velocidades de reloxo de 3.5 Gbps.

configuración	NVIDIA V100	NVIDIA A100	GPU-N
SMS	80	108	134
Frecuencia da GPU (GHz)	1.4	1.4	1.4
FP32 (TFLOPS)	15.7	19.5	24.2
FP16 (TFLOPS)	125	312	779
Caché L2 (MB)	6	40	60
DRAM BW (GB/s)	900	1,555	2,687
Capacidade DRAM (GB)	16	40	100

Chegando aos números de rendemento, a "GPU-N" (presumiblemente Hopper GH100) produce 24.2 TFLOP de FP32 (aumento do 24% sobre A100) e 779 TFLOP FP16 (aumento de 2.5 veces sobre A100), o que soa moi preto das ganancias de 3x que foron. rumorea para GH100 sobre A100. En comparación coa GPU "Aldebaran" CDNA 2 de AMD no Acelerador Instinct MI250X, o rendemento do FP32 é inferior á metade (95.7 TFLOP fronte a 24.2 TFLOP) pero o rendemento do FP16 é 2.15 veces superior.

de información previa, sabemos que o acelerador H100 de NVIDIA estaría baseado nunha solución MCM e utilizaría o nodo de proceso de 5 nm de TSMC. Suponse que Hopper ten dous módulos GPU de nova xeración, polo que estamos mirando 288 unidades SM en total. Aínda non podemos dar un resumo do reconto de núcleos xa que non sabemos o número de núcleos que aparecen en cada SM, pero se vai quedar con 64 núcleos por SM, entón teremos 18,432 núcleos, que son 2.25 veces máis que o SM. configuración completa da GPU GA100. NVIDIA tamén podería aproveitar máis núcleos FP64, FP16 e Tensor dentro da súa GPU Hopper, o que aumentaría enormemente o rendemento. E iso vai ser unha necesidade para rivalizar co Ponte Vecchio de Intel, que se espera que conteña FP1 1:64.

É probable que a configuración final veña con 134 das 144 unidades SM habilitadas en cada módulo de GPU e, como tal, é probable que esteamos mirando un único die GH100 en acción. Pero é improbable que NVIDIA alcance os mesmos flops FP32 ou FP64 que os MI200 sen usar GPU Sparsity.

Pero probablemente NVIDIA teña un arma secreta nas súas mangas e esa sería a implementación da GPU baseada en COPA de Hopper. NVIDIA fala de dúas GPU COPA especializadas en dominios baseadas na arquitectura de próxima xeración, unha para HPC e outra para o segmento DL. A variante HPC presenta un enfoque moi estándar que consiste nun deseño de GPU MCM e os respectivos chiplets HBM/MC+HBM (IO), pero a variante DL é onde as cousas comezan a ser interesantes. A variante DL alberga unha enorme caché nun dado totalmente separado que está interconectado cos módulos da GPU.

arquitectura	Capacidade LLC	DRAM BW	Capacidade DRAM
configuración	(MB)	(TB/s)	(GB)
GPU-N	60	2.7	100
COPA-GPU-1	960	2.7	100
COPA-GPU-2	960	4.5	167
COPA-GPU-3	1,920	2.7	100
COPA-GPU-4	1,920	4.5	167
COPA-GPU-5	1,920	6.3	233
Perfecto L2	infinito	infinito	infinito

Describíronse varias variantes con ata 960/1920 GB de LLC (Last-Level-Cache), capacidades de DRAM HBM2e de ata 233 GB e ancho de banda de ata 6.3 TB/s. Son todos teóricos, pero dado que NVIDIA os comentou agora, é posible que vexamos unha variante de Hopper con tal deseño durante a presentación completa en GTC 2022.

NVIDIA Hopper GH100 "Especificacións preliminares":

Tarxeta gráfica NVIDIA Tesla	Tesla K40 (PCI Express)	Tesla M40 (PCI Express)	Tesla P100 (PCI Express)	Tesla P100 (SXM2)	Tesla V100 (SXM2)	NVIDIA A100 (SXM4)	NVIDIA H100 (SMX4?)
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GP100 (Pascal)	GV100 (Volta)	GA100 (amperios)	GH100 (Tolva)
Nodo de proceso	28nm	28nm	16nm	16nm	12nm	7nm	5nm
Transistores	7.1 Billion	8 Billion	15.3 Billion	15.3 Billion	21.1 Billion	54.2 Billion	TBD
Tamaño da matriz da GPU	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	826mm2	TBD
SMS	15	24	56	56	80	108	134 (por módulo)
TPC	15	24	28	28	40	54	TBD
Núcleos FP32 CUDA por SM	192	128	64	64	64	64	64?
FP64 CUDA Cores/SM	64	4	32	32	32	32	32?
Cores FP32 CUDA	2880	3072	3584	3584	5120	6912	8576 (por módulo) 17152 (Completo)
Cores FP64 CUDA	960	96	1792	1792	2560	3456	4288 (por módulo)? 8576 (Completo)?
Tensor Cores	N / A	N / A	N / A	N / A	640	432	TBD
Unidades de textura	240	192	224	224	320	432	TBD
Aumentar o reloxo	875 MHz	1114 MHz	1329MHz	1480 MHz	1530 MHz	1410 MHz	~ 1400 MHz
TOP (DNN/AI)	N / A	N / A	N / A	N / A	TOPS 125	TOPS 1248 2496 TOPs con sparsity	TBD
Calcula FP16	N / A	N / A	18.7 TFLOPs	21.2 TFLOPs	30.4 TFLOPs	312 TFLOPs 624 TFLOP con sparsity	779 TFLOP (por módulo)? 1558 TFLOP con sparsity (por módulo)?
Calcula FP32	5.04 TFLOPs	6.8 TFLOPs	10.0 TFLOPs	10.6 TFLOPs	15.7 TFLOPs	19.4 TFLOPs 156 TFLOPs con dispersión	24.2 TFLOP (por módulo)? 193.6 TFLOPs con sparsity?
Calcula FP64	1.68 TFLOPs	0.2 TFLOPs	4.7 TFLOPs	5.30 TFLOPs	7.80 TFLOPs	19.5 TFLOPs (9.7 TFLOP estándar)	24.2 TFLOP (por módulo)? (12.1 TFLOP estándar)?
Interface de memoria	GDDR384 de 5 bits	GDDR384 de 5 bits	HBM4096 de 2 bits	HBM4096 de 2 bits	HBM4096 de 2 bits	HBM6144e de 2 bits	HBM6144e de 2 bits
Tamaño da memoria	12 GB GDDR5 @ 288 GB/s	24 GB GDDR5 @ 288 GB/s	16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 900 GB/s	Ata 40 GB HBM2 @ 1.6 TB/s Ata 80 GB HBM2 @ 1.6 TB/s	Ata 100 GB HBM2e @ 3.5 Gbps
Tamaño da caché L2	1536 KB	3072 KB	4096 KB	4096 KB	6144 KB	40960 KB	81920 KB
TDP	235W	250W	250W	300W	300W	400W	~ 450-500W