Millised keelemudelid tunnevad eesti keelt ja kultuuri?

4 Minutes

Viimastel aastatel on tehisintellekti keelemudelid (LLM-id) kiiresti arenenud, kuid küsimus, kui hästi need mõistavad vähemlevinud keeli ja kohalikke kultuurikontekste, on alles päevakajaline. Me uurisime, kuidas viis tuntuimat üldist keelemudelit ning Eesti teadlaste eestikeelsele andmestikule treenitud mudel vastavad eesti keele ja kultuuriga seotud päringutele. Katse eesmärk oli selgitada välja, millal saab tehnoloogiat usaldada näiteks koolitöös ja igapäevases ärikasutuses ning millised on piirangud Eesti kontekstis.

Katse kokkuvõte: mudelid, valik ja meetodid

Minieksperimendis osalesid kommertsmudelid Grok, Claude Sonnet, Gemini, ChatGPT ja Mistral ning avatud andmetel treenitav Llama-põhine mudel, mida arendavad Tallinna Tehnikaülikool, Tartu Ülikool ja Eesti Keele Instituut. Testimiseks kasutati mudelite tasuta versioone ajavahemikus 9.–13. veebruaril ning küsimustik sisaldas 20 küsimust kahes kategoorias: eesti keel ja kultuurilugu. Küsimused ulatusid murdekeelest ja häälikuloendustest kuni kultuuriliste viidete ja kirjanduslike viidete lõpetamiseni (nt lause algus „Kui Arno isaga koolimajja jõudis…“).

Tulemused lühidalt: Grok juhtimas, avatud mudel tagasihoidlik

Katse tulemused näitasid, et kommertsmudelid suudavad eesti keelega töötada üldiselt hästi, ent täpsus ja sisu tunnetus varieerub. Erilise tähelepanu pälvis Grok, mis andis eksperimendi kõige teravamaid ja kultuuriteadlikumaid vastuseid — näiteks tundis see ära mitmeid murdekujusid ja andis õigeid murdeekvivalente (võro keeles „tolmuimeja“ = „pudsunudsija“). Samas jäi eestikeelsetel materjalidel treenitud Llama kommertsmudelitele alla, mis pole üllatav arvestades treeningandmete mahtu.

Miks Grok näis paremana?

Ekspertide hinnangul võib Groki tugevuse taga olla suur hulk mitmekeelseid ja sotsiaalmeediapõhiseid treeningandmeid. Tartu Ülikooli keeletehnoloogia kaasprofessor Kairit Sirts tuletas meelde, et kommertsmudelite treeningandmed on sageli suured ja mitmetahulised — samas aga mittetäielikult dokumenteeritud, mis raskendab täpsete põhjenduste leidmist.

Mille poolest avatud ja kommertsmudelid erinevad?

Peamine erinevus on andmete kättesaadavus ja maht. Avatud andmetel treenitud eestikeelne Llama kasutab Eesti Keele Instituudi ühendkorpust ja avalikke veebiandmeid ning selle treeningkomplekt on kommertsmudelitest ligikaudu sada korda väiksem. See piirab mudeli teadmisi, eriti spetsiifilistest kultuuriviidetest, mida tihti leiab autoriõiguse all olevatest kirjandusallikatest (nt Oskar Lutsu "Kevade").

Avatud mudeli eelis: kontroll ja privaatsus

Avatud mudelid võimaldavad andmeid ja treeningprotsessi kontrollida ning mudeli jooksutamine lokaalselt annab Eesti ettevõtetele ja asutustele privaatsusegarantii — oluline aspekt avaliku sektori ja isikuandmete töötlemisel (GDPR ja turvalisus). Tallinna Tehnikaülikooli kõnetehnoloogia kaasprofessor Tanel Alumäe rõhutas, et sõltuvuse vähendamine suurtest USA või Hiina pilvedest on strateegiliselt tähtis.

Teadmiste eripära: keeleline vs. kultuuriline pädevus

Eksperimendi tulemused näitasid, et mudelid on sageli paremad keeleliste väikeste ülesannete — näiteks käänamine, ortograafia ja murdevariantide genereerimise — juures kui sügava, kultuurispetsiifilise konteksti mõistmisel. Keeletehnoloogid selgitasid, et oskus ühendada fakte ja luua kultuurilisi seoseid tuleb sageli ingliskeelsest treeningust üle; kuid eesti keelele ja kultuurile spetsiifilist metainfot on vähem.

Tooteomadused ja võrdlus

Kui hinnata mudelite tooteomadusi Eesti kontekstis, võtame arvesse järgmist:

Täpsus eesti keeles: Grok ja tipptasemel kommertsmudelid näitasid head morfoloogilist ja leksikaalset pädevust.
Murde- ja dialektitugi: kommertssüsteemide seas esines üllatavaid tugevaid näiteid; avatud mudel vajab sihtandmeid.
Loogiline järeldamine: mudelitel on hüplev võimekus — loendusküsimused (nt mitu täishäälikut sõnas „jäääär“) mõnikord eksitasid neid.
Andmete läbipaistvus: avatud mudelid pakuvad auditit ja kontrolli, kommertsmudelid mitte alati.
Kulu ja juurutamine: avatud mudelid on alla laaditavad ja kohalikuks jooksutamiseks soodsamad; kommertslahendused pakuvad tuge ja skaleeritavust pilves.

Kasutusjuhtumid Eesti tarbijatele ja ettevõtetele

Praktilised rakendused, kus eesti keelne LLM on väärtuslik, hõlmavad:

Haridus: abivahend kodutööde ja keeleõppe toetamiseks, kuid õpetajatel tuleb mudeli vigade tõttu jääda kontrollijaks.
Äriklienditugi: automatiseeritud eesti keelne klienditeenindus, eelkõige rutiinsete päringute jaoks.
Riik ja tervishoid: tundlike andmete töötlemiseks on lokaalne avatud mudel eelistatud, vältides andmete edastamist välismaistele serveritele.
Meedia ja kultuur: väikeste tekstitööde automatiseerimine, ent kultuuriliste viidete ja kirjanduslike tõlgenduste kontroll nõuab inimkontrolli.

Tulevik: mida ootavad Eesti teadlased ja turg?

Kairit Sirts toob esile realistliku eesmärgi: avatud eestikeelse mudeli loomine, mis ei võistle suurte kommertsmudelitega parameetrite asetuses, vaid pakub läbipaistvust, kontrolli ja kohalikku kohandatavust. Järgmiseks sammuks plaanitakse treenida suuremat Llama-väljaannet (nt 70 miljardi parameetriga) ja rikastada treeningandmeid, et parandada kultuurilisi teadmisi, kuid autoriõigused piiravad ligipääsu paljudele teostele.

Järeldus: millele Eesti kasutajad tähelepanu pöörama peaksid

Kommertsmudelid nagu Grok võivad Eesti keeles andmeid ja kultuurinäiteid paremini ära tunda tänu laiemale treeningule, kuid avatud mudelitel on oma tugevused — läbipaistvus, privaatsus ja kontroll kohalike organisatsioonide jaoks. Eesti tarbijad ja ettevõtted peaksid valima lahenduse vastavalt sellele, kas prioriteediks on täpsus ja skaleeritavus või andmeturve ja kohalik kohandatavus. Hariduses ja ametlikes rakendustes on soovitatav kombineerida mudelite abi inimjärelevalvega.

See eksperiment toimib heaks lähtepunktiks, et Eesti keele ja kultuuri toetamiseks luua nii avatud kui ka praktilisi kommertslahendusi — mõlemad tee peal, kuid eri eesmärkidel.

Kristel Õun

"Minu huvi tehnoloogia vastu algas lapsepõlvest. Tänapäeval püüan kirjutada nii, et ka keerulised teemad oleksid kõigile arusaadavad."

Comments

No comments yet.

Millised keelemudelid tunnevad eesti keelt ja kultuuri?

Eksperiment Eesti keele ja kultuuri tundvate keelemudelitega: Grok eristus täpsuse ja murdeoskusega, avatud Llama jäi mahult alla. Artikkel võrdleb mudelite tugevusi, privaatsust ja kasutusvõimalusi Eestis.

Katse kokkuvõte: mudelid, valik ja meetodid

Tulemused lühidalt: Grok juhtimas, avatud mudel tagasihoidlik

Miks Grok näis paremana?

Mille poolest avatud ja kommertsmudelid erinevad?

Avatud mudeli eelis: kontroll ja privaatsus

Teadmiste eripära: keeleline vs. kultuuriline pädevus

Tooteomadused ja võrdlus

Kasutusjuhtumid Eesti tarbijatele ja ettevõtetele

Tulevik: mida ootavad Eesti teadlased ja turg?

Järeldus: millele Eesti kasutajad tähelepanu pöörama peaksid

Leave a Comment

Comments

Related Posts

Mix Fold 5: Android 17 ja Xring O3 viitavad uuele turule

Kvantarvutid ja sulane sool: tritiumi tootmise uus kaart

RAMi ja SSD-de hinnatõus ning mälu puuduse mõju tarbijatele

Nokia 300 PowerBank: vastupidav telefon pika akuga

Valitsus plaanib keelata veipide ja nikotiini postitellimused

Alibaba avaldab Qwen3.8: 2,4 triljonit parameetrit nüüd

Euroopa trahv 550 mln € Aliexpressile mõjutab Eesti ostjaid

Nubia iMoochi: emotsionaalne tehisintellekti lemmikloom

Jaapan ja NVIDIA: riiklik AI-keskus robotitele ja tehastele

Samsungi töötajate massiline lahkumisoht ja boonivahe

Prantsusmaa blokeerib Polymarketi: prognoositurud ja reeglid

Nubia NaviX Ultra: agentipõhine nutitelefon tulevikus