Kodėl tai svarbu? „Groq“ yra antroji, gaminanti dirbtinio intelekto greitintuvo kortelę, antroji - rinkai ir pirmasis produktas, atlikęs 1 kvadrilijoną operacijų per sekundę. Tai padvigubina galingiausios „Nvidia“ kortelės našumą.

„Groq Tensor Stream“ procesoriui (TSP) reikia 300 W vienam branduoliui, todėl, laimei, yra tik vienas. Dar labiau pasisekė, kad „Groq“ yra didžiausias TSP nepalankioje padėtyje. jėga.

Tikriausiai turėtumėte išmesti viską, ką žinote apie GPU ar AI apdorojimą, nes TSP yra tiesiog paprasta keista. Tai didžiulis silicio gabalas, kuriame beveik nėra nieko, išskyrus „Vector“ ir „Matrix“ procesorius ir talpyklą, todėl nėra valdiklių ar antrinių programų. Kompiliatorius turi tiesioginį valdymą.

TSP yra padalintas į 20 superlynų. Viršutinės juostos kuriamos nuosekliai iš kairės į dešinę: matricos vienetas (320 MAC), raktų blokas, atminties blokas (5,5 MB), vektorinis vienetas (16 ALU), atminties blokas (5,5 MB), raktų blokas, matricos vienetas (320 MAC) . Pastebėsite, kad komponentai atsispindi aplink vektorinį vienetą, padalydami superlėktuvą į du pusrutulius, kurie gali judėti beveik savarankiškai.

Instrukcijų srautas (yra tik vienas) tiekiamas kiekvienam superlėktuvo 0 komponentui, pateikiant 6 matricos vienetų instrukcijas, 14 raktų vienetų, 44 atminties vienetų ir 16 vektorinių vienetų instrukcijas. Kiekviename laikrodžio cikle vienetai apdoroja ir perkelia duomenų dalį ten, kur jie eina toliau superlėktuve. Kiekvienas komponentas gali siųsti ir gauti 512B iš savo kaimynų.




Kai superlėktuvo operacijos bus baigtos, jis viską perduos kitam viršlėktuvui ir paims viską, ką turi aukščiau esantis superlageris (arba instrukcijų valdiklis). Instrukcijos visada perduodamos vertikaliai tarp super plokštumų, o duomenys horizontaliai perduodami tik super plokštumoje.




  „Groq TSP“ „Nvidia Tesla V100“ „Nvidia Tesla T4“
Spalvos 1 5120 2560
Maksimalus dažnis 1250 MHz 1530 MHz 1590 MHz
FP16 TFLOPS 205 TFLOPS 125 TFLOPS 65 TFLOPS
INT8 TOPS 1000 TOP 250 TOP 130 TOP
Lusto talpykla (L1) 220 MB 10 MB 2,6 MB
Įdiegta atmintis Nėra 32 GB HBM2 16 GB GDDR6
Kortelės maitinimas (TDP) 300W 300W 70W
procesą 14 nm 12 nm 12 nm
Pelėsių plotas 725 mm² 815 mm² 545 mm²

Visa tai suteikia procesorių, kuris yra ypač geras mokant neuronų tinklą ir išgaunant jį, ir niekuo kitu nepajėgus. Norėdami nustatyti tam tikrus kriterijus, jis gali atlikti 20 400 išvadų per sekundę (I / S) sistemoje „ResNet-50“ bet kokio dydžio paketais, kurio išvados uždelsimas yra 0,05 ms.

„Nvidia“ „Tesla V100“ gali atlikti 7 907 I / S, kai partijos dydis yra 128 arba 1156 „I / S“, kai partijos dydis yra didelis (partijų dydžiai paprastai nėra tokie maži, tačiau demonstruoja TSP universalumą). Jo vėlavimas 128 pakete yra 16 ms, o 1 - 0,87 ms. Akivaizdu, kad TSP šiame krūvyje lenkia lygiavertę „Nvidia“ kortelę.




Viena iš TSP stipriųjų pusių yra ta, kad joje yra daug L1 talpyklos, bet nieko daugiau. Jei neuroninis tinklas išsiplės už šio tūrio arba susidurs su labai dideliu įėjimu, jis labai nukentės. „Nvidia“ kortelėse yra gigabaitų atminties, kad būtų galima išspręsti šį scenarijų.




Tai labai gerai apibendrina TSP. Jis yra daugiau nei dvigubai galingesnis nei „Tesla V100“ esant tam tikram krūviui, tačiau jei jūsų darbo krūvis pasikeičia arba norite padaryti daugiau nei pusę tikslumo, jei tai uždrausta danguje, negalite. TSP neabejotinai turi ateitį tokiose srityse kaip savarankiški automobiliai, kurių įvesties tūris yra nuspėjamas ir gali būti garantuotas neuroninis tinklas. Šiuo atveju jo įspūdingas vėlavimas 320 kartų didesnis nei „Nvidia“ reiškia, kad automobilis gali reaguoti greičiau.

TSP Šiuo metu galimas Norėdami pasirinkti klientus kaip „Nimbix Cloud“ greitintuvus.