Таямнічая NVIDIA «GPU-N» можа быць Hopper GH100 наступнага пакалення ў маскіроўцы са 134 SM, 8576 ядрамі і прапускной здольнасцю 2.68 ТБ/с, паказаны імітацыйныя тэсты прадукцыйнасці

Графічныя працэсары NVIDIA Hopper з тэхналогіяй MCM, па чутках, хутка будуць выпушчаныя

У новай Навукова-даследчая праца апублікавана зялёнай камандай (як выяўлена Карыстальнік Twitter, Redfire).

Даследчая праца NVIDIA распавядае пра «GPU-N» з дызайнам MCM і 8576 ядрамі, ці можа гэта быць Hopper GH100 наступнага пакалення?

У даследчай працы «Спецыялізацыя дамена GPU праз кампазіцыйную архітэктуру на ўпакоўцы» гаворыцца аб канструкцыі графічнага працэсара наступнага пакалення як аб найбольш практычным рашэнні для максімальнай прапускной здольнасці матрыцы з нізкай дакладнасцю для павышэння прадукцыйнасці Deep Learning. «GPU-N» і адпаведныя канструкцыі COPA былі абмеркаваны разам з іх магчымымі спецыфікацыямі і мадэляванымі вынікамі прадукцыйнасці.

Кажуць, што GPU-N мае 134 блокі SM (супраць 104 блокаў SM у A100). Гэта складае ў агульнай складанасці 8576 ядраў або павелічэнне на 24% у параўнанні з бягучым рашэннем Ampere A100. Чып быў вымераны на 1.4 Ггц, такой жа тэарэтычнай тактавай частаце Ampere A100 і Volta V100 (не блытаць з канчатковымі тактамі). Іншыя характарыстыкі ўключаюць 60 МБ кэш-памяці L2, павелічэнне на 50% у параўнанні з Ampere A100 і прапускную здольнасць DRAM 2.68 ТБ/с, якую можна павялічыць да 6.3 ТБ/с. Ёмістасць HBM2e DRAM складае 100 ГБ і можа быць пашырана да 233 ГБ з дапамогай рэалізацыі COPA. Ён сканфігураваны вакол 6144-бітнага інтэрфейсу шыны з тактавай частатой 3.5 Гбіт/с.

канфігурацыя	NVIDIA V100	NVIDIA A100	ГПУ-Н
SMS	80	108	134
Частата GPU (Ггц)	1.4	1.4	1.4
FP32 (TFLOPS)	15.7	19.5	24.2
FP16 (TFLOPS)	125	312	779
Кэш L2 (МБ)	6	40	60
DRAM BW (ГБ/с)	900	1,555	2,687
Ёмістасць DRAM (ГБ)	16	40	100

Калі казаць пра прадукцыйнасць, то «GPU-N» (меркавана Hopper GH100) стварае 24.2 TFLOPs FP32 (павелічэнне на 24% у параўнанні з A100) і 779 TFLOPs FP16 (павелічэнне ў 2.5x у параўнанні з A100), што гучыць вельмі блізка да 3x прыросту, які быў па чутках, GH100 замест A100. У параўнанні з графічным працэсарам AMD CDNA 2 'Aldebaran' на Паскаральнік Instinct MI250X, прадукцыйнасць FP32 менш чым удвая (95.7 TFLOPs супраць 24.2 TFLOPs), але прадукцыйнасць FP16 у 2.15 разы вышэй.

ад папярэдняя інфармацыя, мы ведаем, што паскаральнік H100 ад NVIDIA будзе заснаваны на рашэнні MCM і будзе выкарыстоўваць 5-нм працэсарны вузел TSMC. Мяркуецца, што Hopper будзе мець два GPU-модулі наступнага пакалення, таму ў агульнай складанасці мы разглядаем 288 адзінак SM. Мы пакуль не можам даць падрабязную інфармацыю аб колькасці ядраў, таму што не ведаем колькасці ядраў у кожнай SM, але калі мы будзем прытрымлівацца 64 ядраў на SM, то атрымаем 18,432 2.25 ядра, што ў 100 раза больш, чым у SM. поўная канфігурацыя GPU GA64. NVIDIA таксама можа выкарыстоўваць больш ядраў FP16, FP1 і Tensor у сваім графічным працэсары Hopper, што значна павысіць прадукцыйнасць. І гэта будзе неабходнасць, каб канкураваць з Ponte Vecchio ад Intel, які, як чакаецца, будзе мець 1:64 FPXNUMX.

Цалкам верагодна, што канчатковая канфігурацыя будзе пастаўляцца са 134 з 144 блокаў SM, уключаных на кожным модулі графічнага працэсара, і, такім чынам, мы, хутчэй за ўсё, глядзім на адзін плашчак GH100 у дзеянні. Але малаверагодна, што NVIDIA дасягнула б такіх жа флопаў FP32 або FP64, што і MI200, без выкарыстання GPU Sparsity.

Але NVIDIA можа мець сакрэтную зброю ў сваіх рукавах, і гэта будзе рэалізацыя GPU Hopper на аснове COPA. NVIDIA распавядае аб двух спецыялізаваных на дамене графічных працэсарах COPA, заснаваных на архітэктуры наступнага пакалення: адзін для HPC і другі для сегмента DL. Варыянт HPC мае вельмі стандартны падыход, які складаецца з дызайну графічнага працэсара MCM і адпаведных чыплетаў HBM/MC+HBM (IO), але варыянт DL - гэта тое, дзе ўсё пачынае станавіцца цікавым. Варыянт DL змяшчае велізарны кэш на цалкам асобнай плашцы, якая злучана з модулямі GPU.

Архітэктура	ТАА Магутнасць	DRAM BW	Ёмістасць DRAM
канфігурацыя	(MB)	(ТБ/с)	(ГБ)
ГПУ-Н	60	2.7	100
COPA-GPU-1	960	2.7	100
COPA-GPU-2	960	4.5	167
COPA-GPU-3	1,920	2.7	100
COPA-GPU-4	1,920	4.5	167
COPA-GPU-5	1,920	6.3	233
Ідэальны L2	бясконцы	бясконцы	бясконцы

Былі акрэслены розныя варыянты з аб'ёмам LLC (кэш апошняга ўзроўню) да 960/1920 ГБ, ёмістасцю DRAM HBM2e да 233 ГБ і прапускной здольнасцю да 6.3 ТБ/с. Усё гэта тэарэтычна, але, улічваючы, што NVIDIA абмеркавала іх зараз, мы можам убачыць варыянт Hopper з такім дызайнам падчас поўнага прадстаўлення на GTC 2022.

NVIDIA Hopper GH100 «Папярэднія характарыстыкі»:

Відэакарта NVIDIA Tesla	Тэсла К40 (PCI-Express)	Тэсла М40 (PCI-Express)	тэсла P100 (PCI-Express)	Tesla P100 (SXM2)	Тэсла V100 (SXM2)	NVIDIA A100 (SXM4)	NVIDIA H100 (SMX4?)
GPU	GK110 (Кеплер)	GM200 (Максвел)	GP100 (Паскаль)	GP100 (Паскаль)	GV100 (Вольта)	GA100 (ампер)	GH100 (бункер)
працэс Node	28nm	28nm	16nm	16nm	12nm	7nm	5nm
Транзістары	7.1 млрд	8 млрд	15.3 млрд	15.3 млрд	21.1 млрд	54.2 млрд	TBD
Памер GPU Die	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	826mm2	TBD
SMS	15	24	56	56	80	108	134 (на модуль)
ТПК	15	24	28	28	40	54	TBD
Ядра FP32 CUDA на SM	192	128	64	64	64	64	64?
Ядра FP64 CUDA / SM	64	4	32	32	32	32	32?
FP32 CUDA Core	2880	3072	3584	3584	5120	6912	8576 (на модуль) 17152 (Поўны)
FP64 CUDA Core	960	96	1792	1792	2560	3456	4288 (на модуль)? 8576 (Поўнае)?
Tensor Сардэчнікі	N / A	N / A	N / A	N / A	640	432	TBD
текстурные блокі	240	192	224	224	320	432	TBD
павышэнне гадзіны	875 МГц	1114 МГц	1329MHz	1480 МГц	1530 МГц	1410 МГц	~ 1400 Мгц
ТОП (DNN/AI)	N / A	N / A	N / A	N / A	125 ТОПы	1248 ТОПы 2496 ТОПаў з Sparsity	TBD
FP16 Compute	N / A	N / A	18.7 TFLOPS	21.2 TFLOPS	30.4 TFLOPS	312 TFLOPS 624 TFLOPs з Sparsity	779 TFLOPs (на модуль)? 1558 TFLOPs з разрэджанасцю (на модуль)?
FP32 Compute	5.04 TFLOPS	6.8 TFLOPS	10.0 TFLOPS	10.6 TFLOPS	15.7 TFLOPS	19.4 TFLOPS 156 TFLOPs з разрэджанасцю	24.2 TFLOPs (на модуль)? 193.6 TFLOPs з разрэджанасцю?
FP64 Compute	1.68 TFLOPS	0.2 TFLOPS	4.7 TFLOPS	5.30 TFLOPS	7.80 TFLOPS	19.5 TFLOPS (стандарт 9.7 TFLOps)	24.2 TFLOPs (на модуль)? (стандарт 12.1 TFLOps)?
інтэрфейс памяці	384-бітны GDDR5	384-бітны GDDR5	4096-бітны HBM2	4096-бітны HBM2	4096-бітны HBM2	6144-бітны HBM2e	6144-бітны HBM2e
Аб'ём памяці	12 ГБ GDDR5 пры 288 ГБ/с	24 ГБ GDDR5 пры 288 ГБ/с	16 ГБ HBM2 пры 732 ГБ/с 12 ГБ HBM2 пры 549 ГБ/с	16 ГБ HBM2 пры 732 ГБ/с	16 ГБ HBM2 пры 900 ГБ/с	Да 40 ГБ HBM2 пры 1.6 ТБ/с Да 80 ГБ HBM2 пры 1.6 ТБ/с	Да 100 ГБ HBM2e пры 3.5 Гбіт/с
L2 Памер кэша	1536 KB	3072 KB	4096 KB	4096 KB	6144 KB	40960 KB	81920 KB
TDP	235W	250W	250W	300W	300W	400W	~ 450-500 Вт