5 Minutit
Hääletehis kipub paberil muljet avaldama, kuid praktikas jääb see sageli kuidagi elutuks. Xiaomi arvab, et on selle vältimiseks lahenduse leidnud. Ettevõte on avatud lähtekoodiga teinud OmniVoice'i — uue teksti kõneks (TTS) mudeli, mis on loodud häälkloneerimiseks, mitmekeelse kõne genereerimiseks ja peeneks kontrolliks selle üle, kuidas sünteetiline hääl tegelikult kõlab.
Mida see väljaanne eriliseks teeb, ei ole ainult tavapärane lubadus puhtamast kõnest või kiiremast väljundist. Xiaomi positsioneerib OmniVoice'i kui mudelit, mis suudab töötada sadade keeltega, sealhulgas väheste andmetega keeltes, mida suured kõnesüsteemid sageli eiravad. Kui see väide peab ka laborivälises kasutuses paika, võib selle mõju ulatuda kaugele lipulaevtelefonidest ja nutiassistentidest.
Teade tuli läbi Xiaomi ametliku WeChati kanali, kus öeldi, et OmniVoice toimib hästi nii hiina kui inglise keeles ja mõnes mitmekeelses ülesandes suudab see kommertslikke alternatiive ületada või nendega võrduda. See on julge väide. Kuid detailsed andmed viitavad, et Xiaomi sihib reaalset probleemi kõnetehnoloogias: enamik TTS-süsteeme töötab kõige paremini mõnes peamises keeles, samas kui kõik muu saab nõrgema kasutajakogemuse.
Kuidas OmniVoice võib muuta arutelu
Xiaomi ütleb, et OmniVoice kujundati mitmekeelse kõnesünteesi südamikuks. Ettevõte kirjeldab seda kui häälkloneerimise TTS-mudelit, mis toetab sadu keeli, sealhulgas keeli, millel on veebis väga vähe treeningmaterjali. Praktikas peaks see süsteem tootma arusaadavat, loomulikku kõnet isegi siis, kui andmeid on vähe — probleem, mis on pikka aega piduritanud kõne- AI arengut regionaalsete ja nišikeelte puhul.
Xiaomi väitel ületas mudel mitmeid kommertssysteme testides 24 keeles, eriti kõnesarnasus ja arusaadavuse mõõdikutes, kuigi treeninguks kasutati ainult avatud andmestikke. Laiemas hindamises 102 keeles väidab ettevõte, et OmniVoice jõudis inimtasemele arusaadavuses ning mõnel juhul isegi seda ületas. Selline väide vajab muidugi sõltumatut kontrolli, kuid see näitab, kui agressiivselt Xiaomi püüab mudelit globaalses tehisintellekti võistluses positsioneerida.
Üks huvitavamaid osi teadetes on rõhuasetus väheste andmete treeningul. Xiaomi väidab, et isegi keelte puhul, millel on alla 10 tunni avalikku materjali, saab saavutada kõrge kvaliteediga kõnesünteesi. Esindamata keeltegruppidele ja arendajatele võib see olla tõeline pealkiri. Mudel, mis langetab andmepuuduse barjääri, muudab selle, kes üldse saab kõne tööriistu luua.
Käepärast arhitektuuri poolest läheb OmniVoice erinevat teed võrreldes paljude tänaste keerukamate TTS-piipedeedega. Selle asemel, et virnastada mitut moodulit ja prognoosietappi, kasutab Xiaomi öeldavasti ühte bi-suunalist Transformeri võrku, mis muudab teksti otse kõneks. Lihtsam arhitektuur. Vähem liikuvate osadega süsteeme. Potentsiaalselt vähem kitsaskohti.
Selle disainiga käib kaasas ka kiirus. Xiaomi väidab, et OmniVoice'i saab treenida 100 000 tunniga andmestikku ühe päevaga ning inference ajal võib see PyTorchis töötada kuni 40 korda reaalajas kiirusega. Arendajatele on see oluline — kiire inference on tihti erinevus muljetavaldava demo ja tooteks sobiva lahenduse vahel, mida saab integreerida tarbeelektroonikasse, klienditeenindussüsteemidesse, ligipääsetavuse tööriistadesse või sisuplatvormidesse.
Ettevõte nimetab kahe tehnilise valiku taga neid edusamme. Esiteks kasutab see täiskoodikogu juhusliku maskeerimise strateegiat, mis pidavat parandama nii tõhusust kui ka mudeli üldist toimimist treeningu ajal. Teiseks kasutatakse eeltreeningus suurt keelemudelit, samm, mis Xiaomi sõnul aitab parandada hääldust ja arusaadavust mitteautoregressiivses TTS raamistikus. Lihtsamalt öeldes ei püüa mudel ainult sujuvalt kõlada — ta püüab keelestruktuuri nii hästi mõista, et hääldada keerulisi sõnu loomulikumas vormis.
See muutub eriti oluliseks reaalses maailmas, kus kõnesüntees tihti ebaõnnestub nimede, aktsentide, laensõnade või segakeelse teksti puhul. Xiaomi ütleb, et OmniVoice annab kasutajatele siin ka rohkem kontrolli. Raskeid hääldusi, sealhulgas hiina polüfoonilisi märke ja ingliskeelseid isikunimesid, saab käsitsi parandada usaldusväärsuse tõstmiseks.
Tarbijale nähtavad funktsioonid on need, mis muudavad OmniVoice'i vähem teadusartikli sarnaseks ja rohkem platvormiks. Kasutajad saavad genereerida kohandatud hääli, kirjeldades omadusi nagu vanus, sugu, häälekõrgus, aktsent, dialekt ja kõnemaneer. Mudel suudab samuti toota sosistavaid hääli ja teisi spetsialiseeritud vokaalseid stiile ilma viiteheliklõbita, mis on märkimisväärne paindlikkuse hüpe.
Xiaomi ütleb veel, et mudel suudab puhastada müra sisaldavat viiteheli enne hääle kloneerimist, eraldades selgemad kõnelejaomadused salvestistest, mis on tehtud ebaideaalses keskkonnas. See võib tunduda pisiasjana, kuid kõigile, kes on reaalse maailma heliga töötanud, on teada, kui segane lähtematerjal tavaliselt on. Kloneerimissüsteem, mis talub taustamüra, on palju kasulikum kui see, mis töötab ainult stuudiokorras.
Siis on väljendusrikkus. OmniVoice toetab intonatsiooni kontrolli, sealhulgas efekte nagu naer ja ohkamine, mis võivad sünteetilise kõne vähem robotilikuks ja rohkem vestluspäraseks muuta. Turusuund on selles suunas liikumas. Järgmine häältehisupõlvkond ei tee ainult täpset teksti hääldamist; see pakub esitust, isikupära ja emotsionaalset nüanssi.
Xiaomi ei ole esimene ettevõte, kes seda eesmärki jälgib, ega ka viimane. Kuid OmniVoice'i avatud lähtekoodina avaldamisega paneb ettevõte strateegilise panuse, et laiem arendajate ligipääs aitab viia nende kõnetehnoloogia rohkematesse toodetesse, turgudele ja keeltesse. Kui mudel täidab ka osa Xiaomi lubadustest, võib OmniVoice'ist saada üks aasta intrigeerivamaid avatud lähtekoodiga häältehisavaldusi.
Jäta kommentaar