Nvidia

Zatvori

Nvidia Hopper H200 ruši benchmark rekorde

Testovi pokazuju da sustavi temeljeni na Hopperu koji pokreću softver TensorRT-LLM pružaju najmoćniju svjetsku platformu za generativni AI.

U najnovijim MLPerf benchmark testovima, Nvidia TensorRT-LLM, softver koji ubrzava i pojednostavljuje složeni posao zaključivanja na velikim jezičnim modelima, povećao je performanse Nvidia Hopper arhitekture GPU-a na GPT-J LLM gotovo trostruko u odnosu na njihove rezultate prije samo šest mjeseci.

Dramatično ubrzanje demonstrira snagu Nvidijine full-stack platforme čipova, sustava i softvera za rješavanje zahtjevnih zadaća pokretanja generativne umjetne inteligencije.

TensorRT-LLM koji radi na Nvidia H200 Tensor Core GPU-u, pružio je najbrži zaključak u MLPerfovom najvećem testu generativne umjetne inteligencije do sada.

Novi bencmark koristi najveću verziju Llame 2, vrhunskog velikog jezičnog modela koji sadrži 70 milijardi parametara. Model je više od 10x veći od GPT-J LLM koji je prvi put korišten u rujanskim mjerilima .

H200 grafički procesori s poboljšanom memorijom, u svom MLPerf debiju, koristili su TensorRT-LLM za proizvodnju do 31.000 tokena u sekundi, što je rekord na MLPerfovom Llama 2 benchmarku.

Rezultati H200 GPU uključuju do 14% dobitaka od prilagođenog toplinskog rješenja. To je jedan primjer inovacija izvan standardnog zračnog hlađenja koje graditelji sustava primjenjuju na svoje Nvidia MGX dizajne kako bi podigli performanse Hopper GPU-a na nove visine.

H200 GPU-ovi sadrže 141 GB HBM3e koji rade na 4,8 TB/s. To je 76% više memorije koja radi 43% brže u usporedbi s H100 GPU-ima. Ovi se akceleratori priključuju na iste ploče i sustave i koriste isti softver kao H100 GPU.

S HBM3e memorijom, jedan H200 GPU može pokrenuti cijeli model Llama 2 70B s najvećom propusnošću, pojednostavljujući i ubrzavajući zaključivanje.

Još više memorije, do 624 GB brze memorije, uključujući 144 GB HBM3e, upakirano je u Nvidia GH200 Superčipove, koji na jednom modulu kombiniraju GPU Hopper arhitekture i energetski učinkovit Nvidia Grace CPU.

S memorijskom propusnošću od gotovo 5 TB/sekundi, GH200 Superčip je pružio izvanredne performanse na memorijsko intenzivnim MLPerf testovima.

Referentne vrijednosti pokrivaju današnja najpopularnija radna opterećenja i scenarije umjetne inteligencije, uključujući generativnu umjetnu inteligenciju, sustave preporuka, obradu prirodnog jezika, govor i računalni vid.

Čitavo Nvidijino priopćenje možete pronaći na ovoj poveznici.