Miks AI-mullid petavad: usaldus vs täpsus töökohtadel

Miks AI-mullid petavad: usaldus vs täpsus töökohtadel

Rasmus Kask Rasmus Kask . Kommentaarid

4 Minutit

Küsi AI-vestlusrobotilt aktsiahinda, kohtumiskuupäeva või ettevõtte juhi nime ja vastus võib tulla täiesti enesekindlalt. See on häiriv osa. Lause võib kõlada viimistletult, toon võib tunduda kindel ja faktid võivad siiski olla valed.

Uus usaldusväärsuse analüüs ettevõttelt Legal Guardian Digital, SEO-ettevõttelt, mis keskendub advokaadibüroodele, paneb numbrid probleemi taha, mida paljud kasutajad juba tunnistavad: mõned populaarsed AI-vestlusrobotid hallutsineerivad palju sagedamini kui teised. Kuna ligikaudu veerand Ameerika töölistest kasutab nüüd regulaarselt AI-tööriistu, ei ole erinevus abistava assistendi ja veenva valeinfo allika vahel väike detail.

Ebamugav tõsiasi: enesekindlus ei võrdu täpsusega

Suured keelemudelid ei mõtle nagu inimesed. Neid koolitatakse ennustama tõenäolisi sõnu ja väljendeid, tuginedes mustritele tohututes tekstimahtudes. Kui süsteemil on piisavalt konteksti, võib see anda kiireid ja kasulikke vastuseid. Kui konteksti napib, võib mudel siiski genereerida vastuse, mis kõlab usutavalt, sest statistiliselt sobivad sõnad omavahel kokku.

See on see, mida inimesed tavaliselt mõtlevad, kui nad ütlevad, et AI-vestlusrobot hallutsineerib. See ei ole päevaunistamine. See ei ole valetamine inimlikus mõttes. See toodab vastuse ilma usaldusväärse faktipõhjata, mistõttu nimed, kuupäevad, juriidilised viited, meditsiinilised detailid, finantsandmed ja värsked uudised vajavad ikkagi inimlikku kontrolli.

Uuring võrdles mitmeid tuntud AI-mudeleid, analüüsides hallutsineerimise määra, kliendirahulolu, vastuste kvaliteeti ja tööaja saadavust. Need tegurid kombineeriti indeksiskooriks vahemikus 0 kuni 100, andes laia ülevaate, millised vestlusrobotid on igapäevases kasutuses kõige usaldusväärsemad.

Google Gemini'il oli grupis kõrgeim hallutsineerimise määr, teatel andes 32% vastustest ebatäpset teavet. See number on eriti huvitav arvestades teateid, et Apple maksab Google'ile vähemalt 1 miljardi dollari eest aastas, et kasutada kohandatud 1,2 triljoni parameetriga Gemini mudelit tulevase Siri uuenduse jaoks, mis on oodata iOS 27-ga.

ChatGPT järgnes tihedalt, kus hallutsineerimine ilmus umbes kolmes iga kümne vastuse puhul. Lihtsalt öeldes, kui need numbrid kehtivad, oleks ChatGPT selles testis ligikaudu kaks korda tõenäolisem, et annab vale vastuse võrreldes DeepSeekiga. See võrdlus tõenäoliselt äratab tähelepanu, eriti kuna DeepSeek arendati murdosa treeningkuludest võrreldes juhtivate USA mudelitega.

Perplexity AI oli hallutsineerimismäära poolest parim, valevastused jõudsid kasutajateni 13% juhtudest. DeepSeek jäi sellele lähedale 14% ja Elon Muski Grok oli 15%. Kasutajatele, kes tuginevad AI-le uurimisel, kokkuvõtete tegemisel või kiirete faktikontrollide puhul, loevad need vahed.

Veebisolek on endiselt oluline

Täpsus on vaid osa loost. Vestlusrobot võib paberil olla suurepärane ja kasutu, kui see ei ole kättesaadav siis, kui seda vajatakse. Saadavuse osas olid Perplexity AI ja Grok ainsad kaks teenust uuringus, mis jäid kogu testperioodi jooksul pidevalt kättesaadavaks.

ChatGPT ja Gemini ei jäänud kaugele, nende saadavusprotsendid olid vastavalt 99,98% ja 99,95%. Isegi Claude, millel oli uuringus madalaim saadavus, jäi väga usaldusväärseks 99,68% juures. Praktikas olid enamik neist tööriistadest peaaegu kogu aeg veebis, kuid need väikesed erinevused võivad siiski olla olulised ettevõtetele, kes sõltuvad AI-töövoogudest.

Kasutajate rahulolu rääkis teist lugu. DeepSeek ja ChatGPT said kõrgeima kliendirahulolu skoori 4,7 viiest. Perplexity AI järgnes 4,6-ga. Meta AI jäi põhja 3,4-ga, samal ajal kui mitmed teised mudelid koondusid umbes 4,4 ümber.

Vastuste järjepidevuse ja kvaliteedi osas juhtis Kimi AI 4,3 skooriga viiest. ChatGPT, Microsoft Copilot ja Gemini olid viigiga 4,0. Meta AI oli taas viimane 3,4-ga, mis viitab sellele, et selle nõrgem üldskoor ei tulene ühest kehvast kategooriast.

Kui kõik tegurid kombineeriti, sai Perplexity AI esikoha indeksiskooriga 85. Grok tuli teiseks skooriga 79, järgnevalt DeepSeek. ChatGPT lõpetas kuuendana skooriga 50, Gemini oli kaheksas 41-ga. Meta AI jäi põhja skooriga 37.

Olulisem õppetund ei ole see, et üht vestlusrobotit tuleks pimesi usaldada ja teisest jäägitult hoiduda. AI-tööriistad arenevad kiiresti. Mudelid uuendatakse, turvameetmed liiguvad ja jõudlus võib peaaegu üleöö paraneda. Selline edetabel on siiski kasulik meeldetuletus: kuulsaim vestlusrobot ei ole alati kõige usaldusväärsem ning kõige sujuvam vastus ei pruugi olla õige.

Kõigile, kes kasutavad tööl AI-d, on turvalisim lähenemine lihtne. Kohtle vestlusroboteid kiirendajatena, mitte lõplikena autoriteetidena. Lase neil koostada mustandeid, organiseerida, kokku võtta ja ideid genereerida. Kui vastus puudutab raha, tervist, õigust, isikutuvastust või otsust, millel on reaalsed tagajärjed, kontrolli fakte enne tegutsemist.

"Ma kirjutan tehnikauudiseid, sest usun, et innovatsioon algab teadmiste jagamisest. Hea artikkel võib panna kedagi teist midagi uut looma."

Jäta kommentaar

Kommentaarid