3 Minutit
Kujuta ette serveriruumi, tihedalt täidetud pooljuhtidega, kus iga kiip näib närivat teksti mäge. Seda pilti tahab Huawei uurimisrühm müüa pärast teadet, et nad treenisid DeepSeek V4-Pro't, 1,6 triljoni parameetriga mudelit, kasutades klastrit, mis põhineb vähemalt tuhandel Ascend 910C kiibil.
Lugu kõlab lihtsana: kodumaine tehisintellekti pooljuht suudab lõpuks toime tulla suurte mudelikoormustega. Kuid tegelikkus on kihiline. Huawei väidab, et meeskond teostas täielike parameetrite uuendusi (see tähendab, et mudeli iga kaal treeniti, mitte ei lisatud lihtsalt õhukest adapterkihti) ning et V4-Pro eeltreenimine töötles hämmastavat korpust, mida väidetavalt ületas 32 triljonit tokenit. Eeltreenimine ehitab mudeli põhivõimeid; hilisem peenhäälestus kujundab käitumist juhiste kohandamise ja ohutuse joondamise kaudu.
Miks see on oluline? Sest täielike parameetrite treenimine on palju nõudlikum kui kerge puutetega tehnikad, mis kohandavad vaid väikest osa võrgust. See nõuab pidevat läbilaskevõimet, stabiilseid ühendusi ja ranget koordineerimist kiipide vahel. Ajalooliselt on Hiina meeskondadel olnud raske teisaldada rasket treeningukoormust Nvidiast eemalolevatele platvormidele ilma jõudluse ja ühenduse stabiilsuse kitsaskohtadeta.

Huawei nimetab pöördepunktina Ascend 910C kaksikdisaini arhitektuuri. Varasemate DeepSeek katsete sõltumatud testid vihjasid, et Ascend suudab pakkuda umbes 60% Nvidia H100 inferentsivõimekusest, kuid see oli inferents, mitte suuremahuline sünkroonitud treenimine. Treeningukoormused paljastavad teistsugused nõrkused: kollektiivne kommunikatsioon, mälu haldamine ja tarkvara küpsus muutuvad määravaks.
Siiski on väitel tingimusi. Uurijad teatasid täielike parameetrite treenimise lõpetamisest, kuid ei esitanud rangeid mõõdikuid: puudub seinakella aeg, puuduvad läbilaske mõõdikud, puudub otsene võrdlus H100 klastritega ja puudub üksikasjalik energia- või efektiivsuse jaotus. Ilma nende numbriteta kõlab teade täpselt nii nagu see on, julgustav tehniline verstapost, ent mitte veel sõltumatu tõestus, et Ascend-klastrid vastavad või ületavad loodud alternatiive tipptasemel eeltreenimisel.
Ettevaatlikkusel on eelnev. Varasemad raportid ütlesid, et katsetel treenida teist mudelit, R2, Huawei pooljuhtidel tekkisid ebastabiilsus ja aeglased kiibiedastused. Üleminek edukatest inferentsinäidetest usaldusväärse, suuremahulise eeltreenimiseni on suur hüpe. Ettevõtted võivad mõnikord kokku panna piisava inseneritöö, et lõpetada üks jooks, kuid neil puudub siiski see vastupidavus, mis on vajalik rutiinseks mudeliarenduseks suures mahus.
Nii et mis on võtmeõpetus laiemale tehisintellekti ökosüsteemile? Kui Huawei konto peab ülevaatuse all paika, tähistab see Hiina AI-riistvara kasvavat konkurentsivõimet ja küpsevat tarkvarastakki, mis suudab orkestreerida tuhandeid kiipe hõlmavaid treeningtöid. Kui see ei pea, rõhutab see, et hüpe jääb siiani verifitseeritavast edusammust ette. Mõlemal juhul on järgmine samm selge: sõltumatud võrdlusuuringud ja läbipaistvad jooksuandmed.
Me jälgime neid numbreid. Sõltumatu kinnitamine ütleb meile, kas tegu on tõelise pöördepunktiga ülemaailmses AI-infrastruktuuris või lihtsalt ambitsioonika kontseptsiooni tõestusega.
Allikas: smarti
Jäta kommentaar