6 Minutit
Microsoft töötab teatavasti konverteerimistööriistade kallal, mis võimaldaksid käivitada CUDA-põhiseid tehisintellekti (AI) mudeleid AMD GPU-del, eesmärgiga vähendada inferentsi kulusid ja sõltuvust NVIDIA CUDA-ökosüsteemist. See samm võib muuta pilvepõhiseid GPU-valikuid suurtes inferentsikoormustes ning soodustada heterogeensemaid GPU-infrastruktuure ettevõtete ja teenusepakkujate seas.
Why Microsoft is eyeing AMD for inference
Pilveteenuse pakkujad ja hyperscalerid eraldavad üha enam mudelite treeningu ja inferentsi. Treening eelistab endiselt kiireimat ja kõige optimeeritumat riistvara, kuid inferents — mudelite tootmises käitamine — seab jälle esikohale kulu- ja efektiivsusküsimused. Microsoft näeb Azure’i platvormil tohutut inferentsitaotluste mahtu ning AMD AI-kiirendid pakuvad tihti odavamat alternatiivi kallitele NVIDIA kaartidele.
See soodsam hind on oluline ainult siis, kui olemasolevaid CUDA-ga treenitud mudeleid saab käivitada AMD-hardware’il ilma suurte ümberkirjutusteta. Microsofti raportitud tööriistakomplektid püüavad seda lõhet ületada, muutes või tõlkides CUDA-koodi ROCm-ühilduvateks kutsuteks, et mudelid saaksid AMD GPU-del täidetud.
Selline lähenemine ühendab tehnilise ühilduvuse ja kuluefektiivsuse eesmärgid: organisatsioonid suudaksid hoida olemasolevaid mudeliartefakte ja vähendada infrastruktuurikulusid, kui teisendus- ja täitmiskiht toimib usaldusväärselt ja skaleeritult.
How these toolkits work — a pragmatic translation layer
CUDA-luku murdmine ei ole triviaalne. CUDA-ökosüsteem on laialdaselt omaks võetud ning palju tootmisliine ootavad NVIDIA jaoks optimeeritud raamatukogusid ja teeke. Üks praktiline lahendus on käitusaegne ühilduvuskiht, mis püüab kinni CUDA API-kõnesid ja kaardistab need jooksvalt ROCm-i ekvivalentidele. Sarnaseid lähenemisi on varem uurinud tööriistad nagu ZLUDA, mis tõlkisid kutsed ilma kogu lähtekoodi ümber kompileerimata.
Microsofti sisemised tööriistad järgnevad väidetavalt sarnasele rajale: nad kas konverteerivad või suunavad CUDA-kutsed ümber, et neid saaks jooksutada ROCm-i stakkidel. See võimaldab organisatsioonidel nihutada inferentsikoormusi AMD-instantsidele Azure’i platvormil minimaalse tööga mudeliartefaktide poolel.
Tehniliselt hõlmab see mitut tasandit: API-kaardistus, binaarne/ABI ühilduvus, memoriimudelite teisendus (nt CUDA ja ROCm vahelised erinevused mälukorralduses), stream- ja sündmusehaldus ning optimeeritud tuumade (kernelite) asendamine või emuleerimine. Edu saavutamiseks peavad tööriistad sujuvalt käsitlema nii lihtsaid raamatukogukutseid kui ka keerukaid käitusaegseid optimisatsioone, mida tipptasemel treeningu- või tootmistöökoormused nõuavad.
Lisaks sellele on oluline tööriistade integreerimine olemasolevasse devops- ja CI/CD-töövoogu: automaatne teisendamine, regressioonitestide komplektid, jõudlusvõrdlused ja püsiv seire. Microsofti jaoks tähendab see, et tee CUDA-st ROCm-i peab olema võimalikult läbipaistev nii arendajatele kui ka platvormioperaatoritele.

Not a silver bullet — compatibility and performance caveats
ROCm on võrreldes CUDA-ga veel küpsemise teel ning mitte iga CUDA API või optimeeritud tuum (kernel) ei oma otsest üks-ühele ROCm-analoogi. Mõnel juhul võib tõlkimine viia jõudluse languse või isegi keerukate töökoormuste purunemiseni, mis on riskantne kaubandusandmekeskustes, kus nõutakse ennustatavat latentsust ja läbilaskevõimet. Näiteks võib CUDA-s kasutatud täppisopimeetod, spetsiifiline memoriistruktuur või asünkroonne töötlemisstrateegia ROCm-i keskkonnas erinevat käitumist näidata.
Microsoft näib neid tööriistu ettevaatlikult kasutusele võtvat, rakendades neid kontrollitud stsenaariumites ning tehes koostööd AMD-ga riistvaraliste optimeerimiste arendamiseks. See viitab sellele, et ettevõte püüab tasakaalustada võimalikke kulusääste ja operatiivset stabiilsust, mida ettevõtted ootavad tootmiskeskkondadelt.
Praktilistes töösituatsioonides tähendab see järgmist: esmalt teste väiksemate mudelitega ja partiipõhine inferents, seejärel ulatuslikumad benchmark’id ja alles siis reaalajas kriitiliste süsteemide migreerimine — kõik sammud mõõdetakse latentsuse, läbilaskevõime, vigade määra ja kulude alusel. Samuti vajab selline üleminek tugevat seiret ja reaalajas diagnostikat, et kiirelt tuvastada ja parandada võimalikke regressioone.
Teine oluline aspekt on kogukonna ja kolmandate osapoolte raamistikud: paljud mitmekomponendilised AI-lahendused sõltuvad täiendavatest teekidest (näiteks NCCL, cuDNN, TensorRT), mis on NVIDIA-spetsiifilised. ROCm-alternatiivid (ühendatud ROCm-stack, MIOpen, muud optimeerimisraamatukogud) ei pruugi alati pakkuda täpselt samu funktsioone või sama tasemega optimeerimisi. Seega on tööriistade tõhusus sõltuv ka tihendatud koostööastmest AMD ja kogukonna vahel, sh avatud lähtekoodiga panustest ja partnerluspõhistest integratsioonidest.
What this means for cloud customers and the GPU market
- Lower inference costs: Kui tööriistakomplektid töötavad suurel skaalal, võivad organisatsioonid viia suurema osa inferentsist AMD-põhistele instantsidele ja vähendada taotluse kohta langevaid kulusid.
- More vendor choice: Usaldusväärne CUDA–ROCm rada nõrgestaks CUDA-lukustatust, andes pilveklientidele tugevama läbirääkimisjõu ja paindlikkuse taristu valikul.
- Gradual adoption: Oodata on astmelisi migratsioone — esmalt lihtsamad mudelid ja batch-inferents, seejärel kriitilisemad reaalajas süsteemid, kui tööriistakomplektid ja stakid on küpsemad.
Kujutage ette, et saate nihutada suure osa oma inferentsivõrgust odavamale riistvarale ilma mudelite ümberkirjutamiseta — see on peamine lubadus. Kuid tegelikkus sõltub sellest, kui hästi ROCm suudab vastata CUDA jõudlusprofiilile, kui lähedale saab AMD riistvara jõudlust optimeerida ja kui kiiresti Microsoft ning AMD suudavad sulgeda ühilduvuse lüngad.
Praegu rõhutab Microsofti pingutus tööstusharu suunda: inferentsimahud kasvavad kiiresti ning kuluefektiivsus riistvaravalikutes on olulisem kui kunagi varem. Kui need tööriistad skaleeruvad, võivad need olla otsustav samm pilvekeskkondade suunas, kus GPU-d on heterogeensemad ja valikuid rohkem — see omakorda mõjutab GPU turuosa dünaamikat, hinnastrateegiaid ja vendoritevahelist konkurentsi.
Pilveklientide ja teenusepakkujate seisukohast tähendab see ka täiendavaid töövoogusid ja nõudmisi: finantsmudelid peavad arvestama võimalike kokkuhoitud infrastruktuuri kuludega, arendustiimid peavad olema valmis testima ja valideerima teisendatud töökoormusi ning operaatorid peavad koguma jõudlus- ja töökindlusalast telemeetriat, et teha informeeritud otsuseid.
Lisaks sellele võivad sellised tarkvaralised tõlkekihid kujuneda strateegiliseks eeliseks suurematele pilvetarnijatele: kui Microsoft suudab pakkuda tööstusharu standarditele vastavat, stabiilset ja skaleeruvat CUDA→ROCm lahendust, võib see muuta Azure’i atraktiivsemaks ettevõtetele, kes otsivad kuluefektiivseid inferentsilahendusi ilma täieliku vendorlukustuse riskita.
Seevastu NVIDIA jaoks tähendab see potentsiaalset survet hinnastrateegiate ja tarkvaraliste lisandväärtuste (näiteks oma optimeeritud raamatukogude ja ökosüsteemi) arendamiseks, et säilitada oma positsioone kõrge jõudlusega ja madala latentsusega töökohustustes.
Lõppkokkuvõttes on mitmetasandiline mõju: tehniline (ühildumine ja optimeerimine), majanduslik (kulu kokkuhoid ja hinnategurid) ning strateegiline (vendoritevaheline konkurents ja pilvepõhise infrastruktuuri mitmekesisus).
Samuti tuleb arvestada reguleeriva ja ettevõtte poliitika aspektidega: mõnedes jurisdiktsioonides või valdkondades võib riistvara mitmekesistamine aidata vastata andmete asukoha, töökindluse ja tarnijariski nõuetele — see on täiendav ajend uurida alternatiive CUDA-le ning investeerida nii tarkvaralisse kui ka riistvaralisse mitmekesistusse.
Kokkuvõttes on Microsofti pingutus teisendada ja käitada CUDA-mudeleid AMD GPU-del osa laiemast tendentsist pilveteenustes: tõhususe ja kulude tugevam rõhutamine inferentsi faasis, suurem paindlikkus riistvara valikul ning järkjärguline liikumine heterogeensemate GPU-keskkondade suunas.
Allikas: wccftech
Jäta kommentaar