6 Minutit
Google'i uus Ironwood TPU-pere on taaselanud kulise heitluse AI-riistvara maastikul: seekord ei ole tõeline väljakutsuja Nvidia kõrval AMD või Intel, vaid Google'i enda kohandatud ja inference’ile optimeeritud kiibid. Muljetavaldava mälumahtu, tiheda interkonektide võrgustiku ning agressiivsete energiatõhususe väidetega kujundab Ironwood ümber selle, kuidas suured pilvepõhised tehisintellekti lahendused reaalajas toimivad ja skaleeruvad.
Ironwood numbrites: mälu, arvutus ja SuperPod, mis skaleerub
Südamikus on Ironwood (TPU v7) loodud ühe eesmärgiga — mudelite reaalajas teenindamiseks tootmiskeskkonnas. Google kirjeldab seda kui "inference-first" kiipi, mille tehnilised andmed on konstrueeritud latentsuse vähendamiseks, päringuenergia lõikamiseks ja suurte keelemudelite ning muude reaalaja AI-teenuste juurutamise lihtsustamiseks. See lähenemine kajastub nii riistvaralistes valikutes (palju HBM mälu, laiad FP8 kujutised) kui ka võrgutopoloogias, mis püüab minimeerida aeglaste linkide kasutamist.

- Tipptaseme FP8 arvutusvõimsus kiibi kohta: ~4,614 TFLOPs
- Paketi sees olev mälu: 192 GB HBM3e (umbes 7–7.4 TB/s ribalaius)
- Pod-i skaleeruvus: kuni 9,216 kiipi ühe SuperPodi kohta
- Pod-i koguarvutusvõimsus: ≈42.5 exaFLOPs (FP8)
- Süsteemi HBM maht ühe pod-i kohta: ~1.77 PB
Need puhtad numbrid on tähtsad, kuid sama oluline on see, kuidas kiibid omavahel suhtlevad. Google kasutab InterChip Interconnect (ICI) lahendust ja 3D-torus topoloogiat, et siduda paljusid kiipe ühtseks SuperPod-iks. Selle arhitektuuri eesmärk on hoida suured mudelid kiire mälu peal, vähendades vajadust kaalude saatmiseks aeglasemate linkide kaudu. Skaleerimisriistvarasse (scale-up fabric) ja 1.8 PB vahendusega inter-pod võrku panustades püütakse hoida läviväärtused madalad — nii latentsuse, propuste kui ka päringuenergia osas.
Miks inference muudab võistluskaardi
Kuni viimase ajani oli treening (training) peamine võitlusväli: puhas TFLOPs, tohutud mälukogud ja optimeeritud tuumad (kernels) määrasid edu ning Nvidia GPU-d valitsesid seda ala. Kuid AI-majandus liigub: kui mudelid on välja treenitud, muutuvad reaalseks töökoormuseks miljardid inference-päringud, mitte enam treeningu jooksud. See nihutab prioriteedi latentsusele, päringu läbilaskele (throughput), energiale päringu kohta ja kuluefektiivsusele — mõõdikutele, mille pealt pilvepakkujad ja teenuseostjad teevad otsuseid.
.avif)
Ironwood on üles ehitatud täpselt nendele väärtustele. Suur paikne (on-package) mälu vähendab kiipidevahelist „lobisemist” (cross-chip chatter) suurte mudelite puhul, mis omakorda madaldab latentsust ja vähendab võrguviivituse tagajärgi. Google väidab, et Ironwood toob eelmiste TPU põlvkondadega võrreldes märkimisväärseid sama generatsiooni jõudlus- ja energiatõhususe paranemisi (ettevõtte hinnangul ligikaudu 2× energiatõhususe paranemine). Hüpermastaapsetele teenusepakkujatele ja pilveklientidele, kes maksavad 24/7 inference-võimekuse eest, võivad sellised paranemised tähendada otseseid kulusääste ja paremka toimivuse garantiisid (SLA).
Lisaks mängivad rolli quantiseerimis- ja täpsusstrateegiad (FP8, int8), mis lubavad väiksema energiakuluga säilitada kõrgemat läbilaset. Kogumõju on eriti märgatav madala latentsuse rakendustes: vestlusagentide, reaalajas tõlke, otsingumootorite ja personaalsete soovitusmootorite puhul võib päringu käive ja halduse kulud otseselt mõjutada teenuse kvaliteeti ja ärimudeleid.
Interkonektid, SuperPod-id ja ökosüsteemi lukustus
Veel üks konkurentsieelis tuleneb integratsioonist. Kui Google pakub Ironwoodi Google Cloudi kaudu, saab ettevõte optimeerida kogu virna — riistvara, võrgustiku ja runtime-kihi — eesmärgiga vähendada päringu maksumust (cost-per-query). SuperPod-lahendus, mille tihe interkonekt ja scale-up fabric võimaldavad, on mõeldud väga suurte mudelite teenindamiseks vähemate jõudluse karistustega kui fragmenteeritud GPU-klastrid, kus mudelite laiali jagamine ja võrguliikluse koordineerimine võib tekitada oluliselt suurema latentsuse ja halduskulu.

See vertikaalne integratsioon toob strateegilised riskid ka Nvidia jaoks. Isegi kui Nvidia turule toob Rubín-rakke ja B200 Blackwell GPU-sid, mis on suunatud inference’ile, võivad pilveklientid eelistada sisemiselt optimeeritud TPU infrastruktuuri, kui see tõestatult alandab latentsust ja tegevuskulusid. Tulemus võib olla tugevam sõltuvus teatud pilvepakkuja riistvaraarhitektuurist (vendor lock-in), mis mõjutab nii tehnilisi valikuid kui ka ärilisi kokkuleppeid suuremate organisatsioonide jaoks.
Lisaks riistvaralisele lukustusele on küsimus ka tarkvaralises ühilduvuses: TensorFlow, JAX ja XLA on tihedalt seotud Google’i ökosüsteemiga ning täiendavad TPU-d optimeerivaid töövooge. Kuigi PyTorch ja ONNX pakuvad ülekantavust, nõuavad tipptasemel optimeerimised sageli kompromisse ja täiendavat arendustööd. See omakorda võib suurendada migratsiooni kulu ja aeglustada pilvepakkujate vahetust.
Jensen Huang on seda märganud
Nvidia tegevjuht on avalikult tunnistanud, kui keeruline on ehitada kohandatud ASIC-e ning on nimetanud TPUsid tõsiseltvõetavaks konkurendiks. See avalik tunnustus ei ole pelgalt sõnakõlks: kui turuvaldajad avalikult märgivad teise tehnoloogia strateegilise ohuna, viitab see tavaliselt intensiivsemale investeerimisele ja kiirenenud tootearendusringidele mõlemal poolel. Selline dünaamika võib kiirendada hinnasõda, innovatsiooni suunda ja partnerlussuhteid — eriti kui arvestada, et mõlema poole eesmärk on veenda pilveoperaatoreid, et nende lahendus pakub parimat kulutõhusust ja latentsust.
Samuti kujutab see äriline signaal arendajatele ja ettevõtetele: kui top-tier pilvepakkujad hakkavad intensiivselt propageerima erinevaid riistvaraplatvorme, muutub arhitektuuri valik strateegiliseks otsuseks, mis mõjutab mudeleid, arendusvooge ja pikas perspektiivis konkurentsivõimet.
Kas Nvidia on hukule määratud?
Sugugi mitte — aga mängureeglid muutuvad. Nvidia jätkab juhtrolli universaalse GPU-arvutusvõimsuse, laia tarkvarakogukonna ja ulatusliku turulevimusega nii treeningu kui ka mitmete inference-stseenide puhul. CUDA, cuDNN, TensorRT ning suur partnerlus- ja tööriistade ökosüsteem annavad Nvidiale märkimisväärse eelise, mida ei lahenda ainult üks uus kiip.
Ironwood avab aga uue konkurentsitelje, mis keskendub inference’i majandusele: latentsuse vähendamine, päringuenergia vähendamine ja kulutõhusus 24/7 teenindatud päringutes. Ettevõtetele, kes jooksutavad massiivseid reaalajas lahendusi (nt globaalsed vestlusmudelid, reaalaja otsingud, personaliseeritud soovitused), võib Google’i TPU-põhine strateegia saada määravaks teguriks, eriti kui see tõepoolest alandab hinnakirja ja parandab latentsust võrreldes alternatiividega.
Kuid praktika näitab, et tulevik tõenäoliselt ei ole ühetoimeline. Hübriidsetes ja heterogeensetes paigutustes (GPU + TPU + spetsialiseeritud DPU) on palju mõistlikku: mõned töölaadid ja treeninguetapid ei saa GPU-de mitmekülgsusest ilma jääda, samal ajal kui teised, eriti väga suure paralleelsusega inference-teenused, võivad TPU-de eeliseid maksimaalselt ära kasutada. Migreerimine nõuab investeeringuid, portimist ja optimeerimist — ning ettevõtted kaaluvad neid kulusid vastavalt äriväärtusele.
Lühidalt öeldes liigub AI-võistlus fraasist "kellel on kõige rohkem FLOPSe" fraasi "kellel teenindatakse kõige rohkem päringuid odavamalt ja kiiremini" suunas. Ironwoodi jõudmine tootmiskeskkondadesse paneb pilvepakkujad, hüpermastaapi operaatorid ja suurettevõtted uuesti kaaluma, kus ja kuidas nad inference-töökoormusi jooksutavad — ning see asetab Google’i hetkel kõige huvitavamate väljakutsujate hulka.
Allikas: wccftech
Jäta kommentaar