23 Minutit
Neli peamist mudelit. Üheksa kategooriat. Üks üldvõitja. See ei ole laboratoorne võrdlus keerukate edetabelitega — tegemist on praktilise, lõpuni läbiviidud võrdlusega, mis põhineb ülesannetel, mis inimestele tõeliselt korda lähevad: reaalsete probleemide lahendamine ajapiiranguga, piltide ja videote genereerimine, faktikontroll ilma internetita, räpase sisendi analüüs, loominguline genereerimine käsul, loomulik kõne ja põhjalik uurimistöö, mis peab kriitika vastu. Hindasime iga alaülesannet skaalal 0–4 ning hoidsime jooksvalt kokkuvõtet. Lõpus kuulutasime välja tšempioni ja — mis veelgi olulisem — kaardistasime iga mudeli tööd, milles ta on parim.
Lühike vastus esimesena: Gemini võidab kokku 46 punktiga. ChatGPT jääb tihedalt teiseks 39 punktiga. Grok on kolmas 35 punktiga. DeepSeek jääb neljandaks 17 punktiga. See ei tähenda, et alati peaks valima lihtsalt võitja — erinevad kategooriad eelistavad erinevaid tugevusi ning õige mudel sõltub sellest, millist tööd tuleb teha. See ülevaade näitab täpselt, kus iga mudel paistab silma ja kus ta komistab, koos konkreetsete näidete ja täielikult läbipaistva skoorimisega. Märksõnad: tehisintellekti mudelid, pildigeneratsioon, videogeneratsioon, faktikontroll.
How We Tested
Models compared: ChatGPT, Gemini, Grok, DeepSeek.
Categories: nine in total. Some include multiple rounds or prompts.
Scoring: each round is graded 0–4. Where the source comparison specified explicit scores or rank orders, we used those; otherwise we followed the same rules and rubric.
Constraints: when a round forbid internet access, we honored that constraint. Where a capability does not exist (for example, image or video generation in DeepSeek), the model scores zero for that round.
Speed: recorded descriptively, not scored as its own category, to keep totals aligned with the original contest.
Meie eesmärk ei olnud esitada lõkse ega trikke, vaid uurida mudelite reaalseid käitumismustreid, sealhulgas rikkeid nagu väljamõeldud detailid pildianalüüsis või pealiskaudne eelarvearvutus, mis ignoreerib olukorra nüansse. Testisime mitmekesiste multimodaalsete ülesannetega, et hinnata nii teksti- kui ka pildi- ning videogeneratsiooni ja faktikontrolli võimekust.
Category 1: Problem Solving
Kaks realistlikku väljakutset. Iga voor skooritakse eraldi ja tulemused liidetakse.
Round 1: You have 10 dollars, a dead phone, no map, and 45 minutes to reach a central train station in a foreign city. Give a five-step plan.
Speed: DeepSeek replies in 7 seconds, Grok in 11, Gemini in 21, ChatGPT in 62.
Quality: all four deliver structured, workable five-step plans.
Peer review twist: we then showed all four answers to each model and asked them to pick the best. Every model independently selected ChatGPT’s answer.
Scores, Round 1
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 1.
Round 2: You have 400 dollars after rent to cover groceries, transport, and internet. Groceries cost 50 per week, transport 80 per month, internet 60 per month. You want to attend a 200 dollar event next month. How do you budget?
See same original English prompt for fidelity. A reasoning trap: ChatGPT, Grok, and DeepSeek opt to set aside only 60 dollars now and “save more next month,” which is too late. Gemini is the only model to adjust the plan immediately: reduce grocery spending by 15 dollars per week via discount shopping and tihemeal planning so the shortfall is resolved this month. See also notes on model-side budgeting and praktika for finantsnõuanded.
Scores, Round 2
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 2.
Problem Solving Totals
| Model | Round 1 | Round 2 | Total |
|---|---|---|---|
| ChatGPT | 4 | 3 | 7 |
| Gemini | 3 | 4 | 7 |
| Grok | 2 | 3 | 5 |
| DeepSeek | 1 | 2 | 3 |
Tõlgendus: ChatGPT näitab tugevat samm-sammulist planeerimist ja võidab eakaaslaste hääletuse; Gemini kohaneb piirangute korral paremini. Mõlemad jäävad selles kategoorias viiki.
Category 2: Image Generation
Kaks prompti. DeepSeek ei saa pilte genereerida ja saab selle kategooria eest automaatselt null punkti.
Prompt 1: Photoreal Mona Lisa as a frustrated street protester in Times Square, holding a cardboard sign that reads “Make Florence great again” in bold red letters.
Grok: fastest, but obviously artificial. The subject looks wrong, even with extra hands.

Gemini: good composition and setting; the subject still has three hands.

ChatGPT: most natural subject with a convincing Times Square background; the sign and pose match the brief.

Scores
ChatGPT 4, Gemini 3, Grok 1, DeepSeek 0.
Prompt 2: Photoreal classroom with a hippie-style teacher beside a chalkboard showing the full alphabet in chalk, letters decreasing in size.
Grok: classroom and handwriting feel authentic, but the alphabet itself is wrong and incomplete.

Gemini: aesthetically pleasing, but more stylized than photoreal; extraneous, too-perfect lettering.

ChatGPT: most convincing overall; lighting, classroom details, and teacher are credible. Handwriting is arguably too perfect.

Algne võistlus piiraks selle vooru maksimaalsed punktid 3-ga.
Scores
ChatGPT 3, Gemini 2, Grok 2, DeepSeek 0.
Image Generation Totals
| Model | P1 | P2 | Total |
|---|---|---|---|
| ChatGPT | 4 | 3 | 7 |
| Gemini | 3 | 2 | 5 |
| Grok | 1 | 2 | 4 |
| DeepSeek | 0 | 0 | 0 |
Tõlgendus: ChatGPT on kõige usaldusväärsem fotorealistlike promptide puhul. Gemini jõuab enamasti lähedale, samas kui Grokil on raskusi peenema anatoomia ja teksti täpsusega. SEO märksõnad: pildigeneratsioon, fotorealistlik pilt, tehisintellekt.
Category 3: Fact-Checking Without Internet
Kolm valikvastustega küsimust. Enesekindluse skoorid salvestati, kuid need ei mõjutanud hindamiskriteeriume.
Q1: In 2018, about how many chickens were killed for meat production?
Valikud: 690 million, 6.9 billion, 69 billion, 690 billion.
Õige: 69 billion.
Grok vastab kohe 69 billion.
ChatGPT annab vahemiku, mis sisaldab õiget numbrit.
Gemini ja DeepSeek jäävad veidi allapoole, hinnates ligikaudu 65 billioni.
Scores
Grok 4, ChatGPT 3, Gemini 1, DeepSeek 1.
Q2: As of 2020, approximately how much annual income puts you in the richest 1 percent globally?
Valikud: 200k, 75k, 35k, 15k.
Õige: 35k.
Gemini nimetab 34k.
ChatGPT vastab 200k, Grok 60k, DeepSeek 75–85k.
Scores
Gemini 4, others 0.
Q3: In 2019, what proportion of U.S. electricity came from fossil fuels?
Valikud: 83%, 63%, 43%, 23%.
Õige: 63%.
Gemini tabab täpselt 63%.
ChatGPT 63–65%, Grok 62%, DeepSeek 60–65%.
Scores
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 3.
Fact-Checking Totals
| Model | Q1 | Q2 | Q3 | Total |
|---|---|---|---|---|
| ChatGPT | 3 | 0 | 3 | 6 |
| Gemini | 1 | 4 | 4 | 9 |
| Grok | 4 | 0 | 3 | 7 |
| DeepSeek | 1 | 0 | 3 | 4 |
Tõlgendus: Gemini võidab täpsuse ja järjekindluse poolest. Grok tabab esimest küsimust, kuid eksib tulude piiranguga. ChatGPT pakub kasulikke vahemikke, kuid täpsus loeb.
Category 4: Multimodal Analysis
Kaks vooru: foto külmkapist ja „Where’s Waldo” stiilis tihe illustratsioon.

Round 1: What’s in the fridge, and propose three meals from those ingredients.
DeepSeek cannot identify objects and is out.
ChatGPT misses three items, does not invent extras, proposes reasonable meals that match the inventory.
Gemini misses seven items and invents citrus that does not exist.
Grok misses three but invents a long list of additional items, then writes recipes that require those phantom ingredients.

Scores
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 0.
Round 2: Find Waldo in a busy illustration.

Ükski mudel ei leia Waldo'd õigesti. DeepSeek loeb illustratsioonilt juhuslikku teksti ja pakub mittevastust.
Scores
All 0.
Analysis Totals
| Model | Fridge | Waldo | Total |
|---|---|---|---|
| ChatGPT | 4 | 0 | 4 |
| Gemini | 3 | 0 | 3 |
| Grok | 2 | 0 | 2 |
| DeepSeek | 0 | 0 | 0 |
Tõlgendus: välja mõeldud objektid (hallutsineerimine) teevad multimodaalse analüüsi praktilise kasutuse mõttetuks. ChatGPT suudab inventari piisavalt konservatiivselt tõlgendada ja selle ennetav lähenemine võidab vooru. Märksõnad: multimodaalne analüüs, pildituvastus.
Category 5: Video Generation
Kaks klassikalist stseeni. DeepSeek ei genereeri videot ja saab selle kategooria eest null punkti.
Round 1: Image-to-video from the iconic photo of Neil Armstrong on the Moon

Sora 2 keeldus inimesi otse animeerimast, seega täpsustasime teksti põhjal. Heliriba tulemused olid üllatavalt tugevad.
Gemini: kõige kinoline tunnetus ja parim heli-sünkroon; füüsikavigu: lipp lehvib, mis tühjas ruumis ei saa juhtuda.

Grok: overall solid, kuid laeva mõõtkava on paigast ära ja tekib tuuleefekt.

ChatGPT: vastuvõetav, kuid vähem köitev kui kaks eelnevat.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.
Round 2: Steel-beam workers high above the city
Gemini: best camera movement and parallax; cigarettes look slightly off.

Grok: tugev pinge ja kõikumine, kuid ajalehed muutuvad stseeni keskel realistlikult morfides.

ChatGPT: korralik, ent mitte tipptasemel.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.
Video Generation Totals
| Model | R1 | R2 | Total |
|---|---|---|---|
| Gemini | 4 | 4 | 8 |
| Grok | 3 | 3 | 6 |
| ChatGPT | 2 | 2 | 4 |
| DeepSeek | 0 | 0 | 0 |
Tõlgendus: Gemini juhib veenvalt liikumise kvaliteedi ja helidisaini poolest. Grok jääb sellele lähedale, kuid eksib realismis. ChatGPT on stabiilne, kuid mitte nii kinoline.
Category 6: Creative Generation
Kaks lühikest prompti sõnamängude ja isa-vitsade jaoks (puns, dad jokes).
Prompt 1: Three original tech puns and a one-sentence explanation for each
Kõik neli vastasid korrektselt. Meeskonna lemmik:
“I tried to make a joke about USBs, but it just didn’t stick.”
Scores
ChatGPT 3, Gemini 3, Grok 3, DeepSeek 3.
Prompt 2: Three original dad jokes that make me laugh really hard
Grok ei järgi üldist ülesannet ja teeb pidevalt nutitelefonide ning Wi-Fi teemal nalju.
ChatGPT, Gemini, DeepSeek pakuvad üldisi isa-vitse, mis meeskonda naerma ajavad. Meeskonna lemmik:
“My friend’s bakery burned down last night. Now his business is toast.”
Scores
ChatGPT 4, Gemini 4, DeepSeek 4, Grok 1.
Creative Totals
| Model | Puns | Dad Jokes | Total |
|---|---|---|---|
| ChatGPT | 3 | 4 | 7 |
| Gemini | 3 | 4 | 7 |
| DeepSeek | 3 | 4 | 7 |
| Grok | 3 | 1 | 4 |
Tõlgendus: kolmikviik esikohaks. DeepSeek tuletab meelde, et kiire ja kerge huumor on tema tugev külg. Märksõnad: loominguline genereerimine, naljad, SEO-sisu.
Category 7: Voice Mode
Seadsime kolm seadet kõrvuti ja jooksutasime struktureeritud mini-debate. DeepSeekil puudub häälerežiim ning seetõttu null punkti.
ChatGPT algab kohati kummaliste pauside ja lausesiseste toonimuutustega.
Gemini on sujuvam ja loomulikum, rütm on järjekindel.
Grok on kiire, enesekindel ja üsnagi terav — Gemini vastu peaaegu viik.
Scores
Gemini 4, Grok 4, ChatGPT 2, DeepSeek 0.
Tõlgendus: kui soovite loomulikku häälvestlust, on hetkel parimad valikud Gemini ja Grok.
Category 8: Deep Research
Prompt: compare iPhone 17 Pro Max vs Galaxy S25 Ultra for photographers, use reviews and official specs, decide which is better, be concise.
DeepSeek väidab ekslikult, et iPhoneil on 5x tele, kuigi see on 4x, ning esitab Galaxy lainurga 12 MP-na, kuigi õige on 50 MP; kordab 10x teleobjektiivi mainimist, mis S24-st alates kadunud.
ChatGPT unustab Galaxy kahetelefoto lahenduse ja jätab esikaamerad mainimata, kuid kajastab hinda.
Gemini loetleb õige Galaxy kaameraarranžeeringu ja jõuab tasakaalustatud järeldusele.
Grok annab kõige täielikuma ja täpsema spetsifikatsioonide ülevaate.

Kõik neli jõuavad sarnase otsuseni: iPhone juhib järjepidevuse ja videokvaliteedi poolest; Galaxy domineerib pika suumi ja edasijõudnud AI-tööriistadega. See vastab käitumislikule kogemusele, kuid individuaalseid spetsifikatsioone tasub alati kontrollida ametlike allikate või tootja lehelt. Märksõnad: sügav uurimine, tootevõrdlus, spetsifikatsioonid.
Scores
Grok 4, Gemini 3, ChatGPT 2, DeepSeek 1.
Tõlgendus: Grok võidab uurimistöö rasket osa, Gemini jääb talle lähedale, ChatGPT on kasulik, kuid jättis välja olulisi kaamerafakte, DeepSeek vajab täpsemat faktikontrolli.
Category 9: Speed (Observed, Not Scored)
ChatGPT tundub kiireim puhastest tekstivastustest, ent aeglustub pildianalüüsi ja sügava uurimistöö puhul.
Gemini on ühtlane pea kõigis ülesannetes; harva kõige kiirem, peaaegu kunagi kõige aeglasem.
Grok on üldiselt terav ja kiire, kuid võib analüüsis ja uurimistöös maha pidurduda.
DeepSeek vastab tihti alla 10 sekundi, kuid see kiirus tuleb sageli konteksti ja täpsuse arvelt.
Kiirust ei skooritud eraldi kategooriana, et säilitada võrreldavus algse võistluse punktitabeliga.
Full Scoreboard
Läbipaistvuse huvides siin on kogu kategooriate kaupa punktitabel, mis vastab allika võistluse lõppseisule.
| Category | ChatGPT | Gemini | Grok | DeepSeek |
|---|---|---|---|---|
| Problem Solving | 7 | 7 | 5 | 3 |
| Image Generation | 7 | 5 | 4 | 0 |
| Fact-Checking | 6 | 9 | 7 | 4 |
| Analysis | 4 | 3 | 2 | 0 |
| Video Generation | 4 | 8 | 6 | 0 |
| Creative | 7 | 7 | 4 | 7 |
| Voice Mode | 2 | 4 | 4 | 0 |
| Deep Research | 2 | 3 | 4 | 1 |
| Total | 39 | 46 | 35 | 17 |
Overall winner: Gemini (46 points).
Runner-up: ChatGPT (39). Third place: Grok (35). Fourth place: DeepSeek (17).
Strengths, Weaknesses, and Failure Modes
Peakonkurents aitab ainult siis, kui see seletab, miks mudelid käituvad nii nagu nad käituvad. Need on järjepidevad mustrid, mida me täheldasime.
ChatGPT
Strengths: struktuurne ja samm-sammult põhjendatud lähenemine piirangute all; konservatiivne ning vähem hallutsineeriv pildianalüüs; erakordselt tugev fotorealistlik pildigeneratsioon; usaldusväärne ja lööv loominguline kirjutis.
Weaknesses: aeglustub raskematel multimodaalsetel ülesannetel; mõnikord puuduvad spetsiifilised andmed uurimistöös; häälerežiimi prosoodia võiks olla stabiilsem.
Failure modes to watch: väikesed, kuid olulised faktivahed mitme seadme võrdluses; vastused võivad jääda alaspetsiifitseerituks, kui prompt on liiga lühike.
Pick ChatGPT if: vajate fotorealistlikku pildigeneratsiooni, samm-sammulisi plaane või loomingulist teksti, mis toimib puhtalt ja järjekindlalt. Samuti sobib see hästi toidu- ja retseptiloogika kontrolliks, kui inventuur on ebatäielik.
Gemini
Strengths: parim üldine tasakaal; tugev faktikontroll ilma sirvimiseta; kõige veenvam videogeneratsioon ja helitöötlus; probleemilahendus, mis kohandab plaani, mitte ei paku lihtsaid numbrilisi vastuseid; kõige sujuvam hääl.
Weaknesses: piltidel võib esineda liigset viimistlust; mõnikord lisab visuaalsesse analüüsi korral ilusaid, kuid väljamõeldud detaile; harva kõige kiirem.
Failure modes to watch: fotorealistlikud promptid, mis nõuavad täpset tüpograafiat või inimanatoomia korrektset kujutamist, võivad tekitada probleeme; olge video puhul konkreetne füüsikapiirangute osas.
Pick Gemini if: vajate vaikimisi mudelit, mis saab hakkama enamikuga ülesannetest eriti siis, kui töö ühendab põhjendamist multimodaalse genereerimisega ning te hoolite õigsusest.
Grok
Strengths: suurepärane sügav uurimine; lööv häälekarakter; kiired algvaated; tugev arutluse struktuuri mõistmine.
Weaknesses: pildianalüüsis esineb hallutsineerimist; realismi purunemised videos; loomingulistes promptides võib tekkida kitsas fookus.
Failure modes to watch: piltidel väljamõeldud objektid; enesekindlad, kuid valed detailid; kinnipidamine varasemast teemast, kui prompt on muutunud.
Pick Grok if: vajate teravat uurimisabi spetsifikatsioonide ja ülevaadete konsolideerimiseks või isikupärast häälolekut. Kontrollige tsiteeritud fakte käsitsi, kui täpsus on kriitiline.
DeepSeek
Strengths: kiire tekstiväljund; üllatavalt tugev kerge, lühivormiline huumor; sobib lihtsate loominguliste briifide täitmiseks.
Weaknesses: puudub pildi- ja videogeneerimine; ei suuda objektituvastusel; faktide hoid on üsna lahtine uurimistöödel.
Failure modes to watch: enesekindlad, kuid vildakad numbrid; piltidelt teksti lugemine, jättes stseeni terviku tähelepanuta.
Pick DeepSeek if: vajate odavat ja väga kiiret tekstiväljundit lihtsateks ülesanneteks, naljadeks või mustanditeks, mida te plaanite hiljem toimetada.
Practical Recommendations by Use Case
Photoreal image generation with strong prompt adherence: ChatGPT
Image analysis without hallucinated objects: ChatGPT
Video generation with better motion and sound design: Gemini
Tough fact-checking without browsing: Gemini
Problem solving under constraints: Gemini and ChatGPT
Natural, steady voice conversation: Gemini and Grok
Spec comparisons and product research summaries: Grok
Quick, lightweight creative text: DeepSeek
Why the Winner Matters Less Than the Fit
Gemini sai kõrgeima skoori, sest see kombineerib täpsust, kohanemisvõimet ja multimodaalset kvaliteeti. See tasakaal võidab võistlusi. Tööelus loeb siiski sobivus ülesandega. Kui teie töö keskendub staatilistele piltidele, võib ChatGPT teie jaoks skooridest olulisemalt paremini toimida. Kui teil on vaja spetsifikatsioonide tabelit koostada, võib Grok olla kiireim tee avaldatavale mustandile. Kui vajate odavat, kiiret üksikut punchline'i või mustandit, on DeepSeeki kiirus eelis, mitte puudus.
Mõelge nendele mudelitele nagu objektiividele kaamerakotis: parim objektiiv paberil ei pruugi olla see, mida igal pildistamisel vajate. Valige fookuskaugus, mis sobib võttega. Märksõnad: mudeli valik, töövoog, tehisintellekti tööriistad.
Limitations and Notes on Reproducibility
No internet rounds: kõik mudelid töötasid sisemise teadmise alusel, mis vananeb. Kui kordate teste kuude pärast, võivad faktinumbrid nihkuda, kuna mudelite hetkeseisud või treeningandmed värskendatakse.
Generative variability: juhuslikkus käivituste vahel võib muuta täpset sõnastust või väiksemaid detaile. Me kontrollisime seda, keskendudes täpsusele ja ülesande järgimisele, mitte stiilile.
Speed: salvestatud kvalitatiivselt. Taristu ja koormus mõjutavad latentsust; tänane kiireim mudel võib homme tunduda aeglasem.
Modal gaps: kui mingit võimekust ei eksisteeri (DeepSeek piltide ja videote puhul), ei ole null seda teksti võimekuse halvustamiseks — see kajastab lihtsalt toote ulatust.
Verdict
Winner: Gemini (46 points). Parim üldine mudel 2025. aastal, silmapaistvate tulemustega faktikontrollis, videogeneratsioonis ja kohanduvates probleemilahendustes ning kõige sujuvama häälerežiimiga.
Runner-up: ChatGPT (39 points). Fotorealistlike piltide liider, struktuurne probleemilahendaja, usaldusväärne loominguline partner ning tähelepanelik pildipõhises analüüsis.
Third: Grok (35 points). Uurimistöö asjatundja isikupärase häälkarakteriga. Kontrollige spetsiifilisi fakte, kui täpsus on kriitiline.
Fourth: DeepSeek (17 points). Kiire, lihtne ja ootamatult lõbus kerge loomingulise töö jaoks, kuid puudub multimodaalne sügavus.
Kui soovite ühte mudelit, mis kataks kõige laiemalt igapäevaseid ülesandeid väheste üllatustega, valige Gemini. Kui teie töövoog eelistab pilte ja hindate hoolikat, samm-sammulist põhjendust, tundub ChatGPT mugav ja usaldusväärne. Spetsifikatsioonide- ja tootetöö jaoks on Grok veenev valik. Kiirete ja madalate panustega tekstitööde korral, kus hind ja kiirus loevad, tasub kaaluda DeepSeek.
Üheksa kategooriat. Üks edetabel. Rohkelt nüansse. Valige õige tööriist ja ükskõik milline neist mudelitest võib saada teie kõige nutikamaks meeskonnakaaslaseks.
Jäta kommentaar