2 Minutit
Eesti Keele Instituut (EKI) ja Postimees Grupp sõlmisid juulis koostöölepingu, mille kaudu saavad teadlased kasutada Postimehe eestikeelset ajakirjandusmaterjali keeleuurimises ja keeletehnoloogiate arendamisel. Esimeses etapis loovutatakse EKI-le toimetatud artiklite andmestik, mis hõlmab väljaannetes ilmunud tekste ajavahemikus 2019–2024.
Mida andmestik pakub ja kuidas seda kaitstakse
Andmete sisu ja kvaliteet
Postimehe pakutav andmestik on mahukas ja toimetatud eestikeelne allikas, mis täiendab olemasolevaid korpuseid. Selline kvaliteet on eriti väärtuslik keelemudelite koolitamisel, tekstianalüüsis, masintõlkes ja tekstigeneratsioonis, kus treeningandmete reaalne ajakohasus ja toimetatud stiil parandavad mudelite täpsust.
Turvalisus ja privaatsus
Andmete ülevõtmisel rakendatakse anonümiseerimist, krüpteerimist ning rangeid isikuandmete kaitsemeetmeid. EKI-l on õigus hoida anonüümitud andmeid krüpteeritud kujul turvalises keskkonnas, mis aitab vastata nii andmekaitse nõuetele kui autorite ja väljaandjate õigustele.
Miks see on Eesti jaoks oluline
Väikese keeleruumi puhul on kvaliteetsete eestikeelsete andmestike olemasolu kriitilise tähtsusega. Eesti ettevõtted, avalik sektor ja teadus saab nüüd paremini arendada kohalikku keeletehnoloogiat — eesti keelele kohandatud chatbot’id, klienditeeninduse automaatika, häälassistendid ja otsinguteenused paranevad tänu suuremale koolitusmaterjalile. See samm toetab eesti keele kestvust digikeskkonnas, kus kasvav osa sisu on tehisintellekti toodang.
Tooteomadused, võrdlus ja kasutusjuhtumid
Peamised eelised: korralik keeleandmestik (2019–2024), toimetatud tekstid, anonüümitud formaadis säilitus, krüpteeritud ligipääs. Võrreldes avatud veebikorpustega annab ajakirjandusandmestik parema stilistilise ja faktuaalse kvaliteedi, mis on vajalik näiteks keelemudelite peenhäälestuseks. Kasutusvõimalused Eesti turul hõlmavad: kontekstipõhised otsingud, sentimenti analüüs, uudistekokkupanek, automaatne sisugeneratsioon, ning valdkondlikud keelemudelid meediaettevõtetele ja idufirmadele.
Mõju äriklientidele ja tulevik
Koostöö võib innustada ka teisi andmeomanikke andma panuse kvaliteetsete korpuste kujundamisse ja aidata luua püsiva koostöömudeli eestikeelse tehisintellekti arendamiseks. EKI-direktori sõnul on sellised kokkulepped vajalikud, et tasakaalustada autoriõigusi ja ühiskondlikku huvi arendada eesti keelt digimaailmas.
See partnerlus on oluline samm Eesti keeletehnoloogia ja kohalike AI-lahenduste küpsemise suunas — parandades tööriistu nii ettevõtetele kui ka tavakasutajatele üle kogu Eesti.
Allikas: geenius.delfi
Jäta kommentaar