DeepMind FACTS: tehisintellekti faktitäpsuse tõsiasi

5 Minutes

Google DeepMindi uus FACTS-võrdlus maalib murettekitava pildi: kõige arenenumad testitud tehisintellekti mudelid eksivad endiselt ligikaudu kolmel kümnest esitatud faktiväitest. Uuring toob selgelt välja, et sujuvus ja vastamise kiirus ei võrdu enam usaldusväärsusega. Faktitäpsus ja usaldusväärne allikaviide on nüüd olulised mõõdikud, mis mõjutavad mudelite kasutatavust äris ja avalikus sektoris, ning need mõõdikud on tihti olulisemad kui pelgalt loomuliku keele väljundite kvaliteet. Lisaks rõhutab FACTS, et tehisintellekti mudelite peamised piirangud ei ole pelgalt suurus või treeningandmete maht, vaid ka võime kontrollida ja õigesti viidata teabele — sealhulgas veebiotsingutest pärinevale lähteandmele, pikkade dokumentide korrektsele tsiteerimisele ning multimodaalse sisendi, nagu piltide, täpsele tõlgendamisele. See tõstatab olulisi küsimusi tehisintellekti eetika, vastutuse ja regulatsiooni kohta ning paneb ettevõtted ja arendajad ümber väärtustama, kuidas nad mudelite tulemusi valideerivad ja kasutusele võtavad.

Tõe mõõtmine: mida FACTS testib

FACTS hindab mudeleid neljal nõudlikul alal: võime vastata reaailma küsimustele oma sisemise teadmise põhjal, veebipõhise otsingu efektiivne kasutamine ja otsingust pärinevate andmete integreerimine, pikkade dokumentide korrektne tsiteerimine ning piltide ja muude multimodaalsete sisendite täpne tõlgendamine. Hindamisülesanded katavad nii tekstipõhiseid informatsiooniküsimusi kui ka ülesandeid, kus mudel peab leidma, valideerima ja viitama spetsiifilistele allikatele või oskama tuvastada, millal ta vajab väliseid allikaid. Testsari rõhutab eraldi ka tsiteerimise kvaliteeti — mitte ainult seda, kas vastus on semantiliselt õige, vaid ka kas viidatud allikad on olemas, adekvaatsed ja õiges kontekstis.

Katsete tulemused on selged: Gemini 3 Pro juhtis testi, kuid saavutas vaid 69% täpsuse, mis tähendab, et ligikaudu kolm kolmandikku vastustest olid korrektsed ja ülejäänud sisaldasid olulisi vigu, ebamäärasusi või valeallikatele viitamist. Teised tipptasemel mudelid jäid sellest selgelt maha, mis näitab, et erinevused faktitäpsuses ja informatsiooni pärinemise kontrollis on suuremad kui varem arvatud. Seda võib seletada mitme teguriga: mudelite kalduvus hallutsineerida (ehk luua väljamõeldud fakte), piiratud või mittetäieliku veebiotsingu integreerimise strateegiad, keerukate või pikkade dokumentide semantilise analüüsi raskused ning väliste teadmiste õigeaegse ja adekvaatse kaasamise üksikasjad. Lisaks näitab FACTS, et mudelite sisemise teadmuse baas ei pruugi olla alati ajakohane ega põhine kontrollitud allikatel, mis teeb eraldiseisvalt töötava mudeli vastuste valideerimise keeruliseks.

Praktiline järeldus on karm: tehisintellekt suudab kirjutada veenvalt ja loogiliselt, kuid veenvus ei tähenda õigsust. Eriti tundlikes valdkondades nagu finantssektor, tervishoid ja õigus võib üksnes väike eksimus tekitada suureid kahjusid või õigusalaseid riske. Näiteks on avalikkusse jõudnud juhtum, kus advokaadibüroo teatas töötaja vallandamisest pärast seda, kui lühike AI-põhine tööriista kasutamine tootis võltsitud kohtuotsuse viited ja valejurisprudentsi illustratsioonid lepitusdraftis. See juhtum illustreerib riske, mis kaasnevad faktikontrolli puudumisega ja näitab vajadust range allikale suunatud valideerimise järele. FACTS aitab välja tuua just need lüngad — mitte nii, et diskrediteerida tehnoloogiat, vaid et suunata arendust ja integreerimist turvalisemale ning vastutustundlikumale radu pidi.

Miks see on oluline ettevõtetele ja kasutajatele

Ettevõtetele, kes on pannud oma protsessid ja operatsioonid suuresti tehisintellekti töövoogude peale, on FACTS selge ärkveloleku signaal. See ei tähenda, et tehnoloogiast peaks loobuma, vaid rõhutab vajadust tugeva valvemehhanismi järele: inimese kontroll ja kinnitamine enne lõpliku otsuse tegemist, rangem allikate kontroll ja konkreetsete ülesannete spetsiifiline valideerimine. Parimad praktikad hõlmavad mitmetasandilist lähenemist, kus mudeli väljundid läbitakse tsentraalse faktikontrolli protsessi kaudu, rakendatakse automaatseid usaldus- ja allika-kontrolli reegleid, ning tagatakse, et kõik äriliselt kriitilised otsused kinnitatakse vastava eksperdi poolt. Samuti peaksid organisatsioonid kaaluma retrievaal-mehhanismide (retrieval) ja dokumentide viidete auditeerimist, logimist ning auditeeritavat traktorit (provenance) — see parandab järelevalvet ning võimaldab kiiremini tõrkeid tuvastada ja parandada.

Tehnilisest vaatenurgast on oluline eristada mitut valdkonda, kus FACTS mõõdab tulemusi: (1) teadmiste põhised vastused (knowledge-based QA) — kus model tugineb oma sisemisele parametriseeritud teadmusbaasile; (2) otsingu-põhine vastamine (retrieval-augmented generation, RAG) — kus mudel kasutab aktiivselt veebi ja andmebaase; (3) dokumentide tsiteerimine ja pikkade tekstide täpne väljavõte — mis nõuab robustset tsiteerimise ja viitamismustreid; ning (4) multimodaalne tõlgendus — kus mudel peab korraga mõistma teksti ja kujutisi, näiteks aruandluse või piltide sisu täpseks kontekstualiseerimiseks. Iga valdkond nõuab eri tüüpi testimist, andmete kvaliteedi kontrolli ja spetsiaalseid rahvusvahelisi või tööstuspõhiseid standardeid. Näiteks õigusteaduslikes rakendustes on oluline, et tsitaadid viitaksid täpselt olemasolevatele kohtuotsustele ning et viidete metaandmed oleksid auditeeritavad ja kättesaadavad järelepärimiseks.

Põhimõtteliselt peab ettevõte suhtuma olemasolevatesse mudelitesse kui abivahenditesse, mitte ammendavatesse teadmiste allikatesse. See tähendab ka investeerimist andmete kvaliteeti, metadata haldusse ja spetsialiseeritud kontrollimehhanismidesse nagu fact-checking töövood, allikate usaldustasemete hindamine ning püsivad jälgimis- ja parandusmehhanismid (monitoring & feedback loops). Google DeepMind ise käsitleb FACTS-i nii hoiatuse kui ka teekaardina: benchmark toob välja, kus mudelid eksivad, et teadusringkonnad ja tootearendajad saaksid süsteemseid probleeme parandada. Lõpptulemuseks on realistlikum ootus: tehisintellekt paraneb kiiresti, kuid faktitäpsuse osas on veel märkimisväärne töö ees. Ettevõtted peaksid eeldama, et täpsus paraneb ajas, kuid praeguseid mudeleid tuleb käsitleda täiendava ülevaatuse vajavate abistajatena, mitte laitmatute tõeallikatena.

Lõpuks on oluline mainida regulatiivset ja eetilist konteksti: paljud sektorid nõuavad siduvaid tõenduspõhiseid protseduure ja audititracesid, mis tähendab, et AI-süsteemi väljundid peavad olema jälgitavad ja vajadusel ümberlükkatavad. FACTS aitab luua mõõdetavaid parameetreid faktitäpsuse hindamiseks ja toetab seeläbi paremat riskihindamist, vastutavuse ja läbipaistvuse poliitikate väljatöötamist ettevõtetes. Kasutajate lõikes tähendab see, et iga AI-põhine otsus või soovitus peaks sisaldama selget viidet, kuidas see vastus tekkis — kas see tugines mudeli sisemisele teadmisele, reaalajas otsingule või konkreetsele dokumendile — ning milline on usaldustase selle vastuse suhtes. See lähenemine aitab vähendada eksituse riski ja parandada üldist usaldust tehisintellekti rakendustes.

Rasmus Kask

"Ma kirjutan tehnikauudiseid, sest usun, et innovatsioon algab teadmiste jagamisest. Hea artikkel võib panna kedagi teist midagi uut looma."

Comments

No comments yet.

DeepMind FACTS: tehisintellekti faktitäpsuse tõsiasi

Uus Google DeepMindi FACTS-võrdlus näitab, et tipptasemel tehisintellekt eksib ligikaudu 30% faktiväidetest. Artikkel analüüsib testide ulatust, tulemusi ning pakub ettevõtetele ja kasutajatele praktilisi soovitusi faktitäpsuse ja usaldusväärsuse tagamiseks.

Tõe mõõtmine: mida FACTS testib

Miks see on oluline ettevõtetele ja kasutajatele

Leave a Comment

Comments

Related Posts

DeepSik V4 Pro: ohtlik uus konkurent AI-kodeerimisel

OTP ostab Luminori — mis see tähendab Eesti digipangandusele?

ChatGPT-teavitused vanematele: teismelise konto peatamine

Tallinna kommunikatsiooni uue juhiga oodatakse digimuutust

Xiaomi päikeseenergia 4G kaamera topeltobjektiiviga

ETS-i reform ja Eesti ettevõtted: mõju elektrihindadele

Pilvearved plahvatasid: AWS valeteated kutsusid paanikat

Apple’i sfääriline mikrofon: ruumilise heli uus suund

Adol HC112: 11-pordiline USB-C dokk kolme ekraaniga

Pixel 11a lekkeid: oodata Tensor G6 jõudlust ja hinnangud

Mix Fold 5: Android 17 ja Xring O3 viitavad uuele turule

Kvantarvutid ja sulane sool: tritiumi tootmise uus kaart