Gemini juhtiv: ChatGPT, Grok ja DeepSeek 2025 võrdlus

Gemini juhtiv: ChatGPT, Grok ja DeepSeek 2025 võrdlus

Marko Peterson Marko Peterson . Kommentaarid

23 Minutit

Neli peamist mudelit. Üheksa kategooriat. Üks üldvõitja. See ei ole laboratoorne võrdlus keerukate edetabelitega — tegemist on praktilise, lõpuni läbiviidud võrdlusega, mis põhineb ülesannetel, mis inimestele tõeliselt korda lähevad: reaalsete probleemide lahendamine ajapiiranguga, piltide ja videote genereerimine, faktikontroll ilma internetita, räpase sisendi analüüs, loominguline genereerimine käsul, loomulik kõne ja põhjalik uurimistöö, mis peab kriitika vastu. Hindasime iga alaülesannet skaalal 0–4 ning hoidsime jooksvalt kokkuvõtet. Lõpus kuulutasime välja tšempioni ja — mis veelgi olulisem — kaardistasime iga mudeli tööd, milles ta on parim.

Lühike vastus esimesena: Gemini võidab kokku 46 punktiga. ChatGPT jääb tihedalt teiseks 39 punktiga. Grok on kolmas 35 punktiga. DeepSeek jääb neljandaks 17 punktiga. See ei tähenda, et alati peaks valima lihtsalt võitja — erinevad kategooriad eelistavad erinevaid tugevusi ning õige mudel sõltub sellest, millist tööd tuleb teha. See ülevaade näitab täpselt, kus iga mudel paistab silma ja kus ta komistab, koos konkreetsete näidete ja täielikult läbipaistva skoorimisega. Märksõnad: tehisintellekti mudelid, pildigeneratsioon, videogeneratsioon, faktikontroll.

How We Tested

  • Models compared: ChatGPT, Gemini, Grok, DeepSeek.

  • Categories: nine in total. Some include multiple rounds or prompts.

  • Scoring: each round is graded 0–4. Where the source comparison specified explicit scores or rank orders, we used those; otherwise we followed the same rules and rubric.

  • Constraints: when a round forbid internet access, we honored that constraint. Where a capability does not exist (for example, image or video generation in DeepSeek), the model scores zero for that round.

  • Speed: recorded descriptively, not scored as its own category, to keep totals aligned with the original contest.

Meie eesmärk ei olnud esitada lõkse ega trikke, vaid uurida mudelite reaalseid käitumismustreid, sealhulgas rikkeid nagu väljamõeldud detailid pildianalüüsis või pealiskaudne eelarvearvutus, mis ignoreerib olukorra nüansse. Testisime mitmekesiste multimodaalsete ülesannetega, et hinnata nii teksti- kui ka pildi- ning videogeneratsiooni ja faktikontrolli võimekust.

Category 1: Problem Solving

Kaks realistlikku väljakutset. Iga voor skooritakse eraldi ja tulemused liidetakse.

Round 1: You have 10 dollars, a dead phone, no map, and 45 minutes to reach a central train station in a foreign city. Give a five-step plan.

  • Speed: DeepSeek replies in 7 seconds, Grok in 11, Gemini in 21, ChatGPT in 62.

  • Quality: all four deliver structured, workable five-step plans.

  • Peer review twist: we then showed all four answers to each model and asked them to pick the best. Every model independently selected ChatGPT’s answer.

Scores, Round 1
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 1.

Round 2: You have 400 dollars after rent to cover groceries, transport, and internet. Groceries cost 50 per week, transport 80 per month, internet 60 per month. You want to attend a 200 dollar event next month. How do you budget?

See same original English prompt for fidelity. A reasoning trap: ChatGPT, Grok, and DeepSeek opt to set aside only 60 dollars now and “save more next month,” which is too late. Gemini is the only model to adjust the plan immediately: reduce grocery spending by 15 dollars per week via discount shopping and tihemeal planning so the shortfall is resolved this month. See also notes on model-side budgeting and praktika for finantsnõuanded.

Scores, Round 2
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 2.

Problem Solving Totals

ModelRound 1Round 2Total
ChatGPT437
Gemini347
Grok235
DeepSeek123

Tõlgendus: ChatGPT näitab tugevat samm-sammulist planeerimist ja võidab eakaaslaste hääletuse; Gemini kohaneb piirangute korral paremini. Mõlemad jäävad selles kategoorias viiki.

Category 2: Image Generation

Kaks prompti. DeepSeek ei saa pilte genereerida ja saab selle kategooria eest automaatselt null punkti.

Prompt 1: Photoreal Mona Lisa as a frustrated street protester in Times Square, holding a cardboard sign that reads “Make Florence great again” in bold red letters.

  • Gemini: good composition and setting; the subject still has three hands.

  • ChatGPT: most natural subject with a convincing Times Square background; the sign and pose match the brief.

Scores
ChatGPT 4, Gemini 3, Grok 1, DeepSeek 0.

Prompt 2: Photoreal classroom with a hippie-style teacher beside a chalkboard showing the full alphabet in chalk, letters decreasing in size.

  • Grok: classroom and handwriting feel authentic, but the alphabet itself is wrong and incomplete.

  • Gemini: aesthetically pleasing, but more stylized than photoreal; extraneous, too-perfect lettering.

  • ChatGPT: most convincing overall; lighting, classroom details, and teacher are credible. Handwriting is arguably too perfect.

Algne võistlus piiraks selle vooru maksimaalsed punktid 3-ga.

Scores
ChatGPT 3, Gemini 2, Grok 2, DeepSeek 0.

Image Generation Totals

ModelP1P2Total
ChatGPT437
Gemini325
Grok124
DeepSeek000

Tõlgendus: ChatGPT on kõige usaldusväärsem fotorealistlike promptide puhul. Gemini jõuab enamasti lähedale, samas kui Grokil on raskusi peenema anatoomia ja teksti täpsusega. SEO märksõnad: pildigeneratsioon, fotorealistlik pilt, tehisintellekt.

Category 3: Fact-Checking Without Internet

Kolm valikvastustega küsimust. Enesekindluse skoorid salvestati, kuid need ei mõjutanud hindamiskriteeriume.

Q1: In 2018, about how many chickens were killed for meat production?

Valikud: 690 million, 6.9 billion, 69 billion, 690 billion.
Õige: 69 billion.

  • Grok vastab kohe 69 billion.

  • ChatGPT annab vahemiku, mis sisaldab õiget numbrit.

  • Gemini ja DeepSeek jäävad veidi allapoole, hinnates ligikaudu 65 billioni.

Scores
Grok 4, ChatGPT 3, Gemini 1, DeepSeek 1.

Q2: As of 2020, approximately how much annual income puts you in the richest 1 percent globally?

Valikud: 200k, 75k, 35k, 15k.
Õige: 35k.

Scores
Gemini 4, others 0.

Q3: In 2019, what proportion of U.S. electricity came from fossil fuels?

Valikud: 83%, 63%, 43%, 23%.
Õige: 63%.

  • Gemini tabab täpselt 63%.

  • ChatGPT 63–65%, Grok 62%, DeepSeek 60–65%.

Scores
Gemini 4, ChatGPT 3, Grok 3, DeepSeek 3.

Fact-Checking Totals

ModelQ1Q2Q3Total
ChatGPT3036
Gemini1449
Grok4037
DeepSeek1034

Tõlgendus: Gemini võidab täpsuse ja järjekindluse poolest. Grok tabab esimest küsimust, kuid eksib tulude piiranguga. ChatGPT pakub kasulikke vahemikke, kuid täpsus loeb.

Category 4: Multimodal Analysis

Kaks vooru: foto külmkapist ja „Where’s Waldo” stiilis tihe illustratsioon.

Round 1: What’s in the fridge, and propose three meals from those ingredients.

  • DeepSeek cannot identify objects and is out.

  • ChatGPT misses three items, does not invent extras, proposes reasonable meals that match the inventory.

  • Gemini misses seven items and invents citrus that does not exist.

  • Grok misses three but invents a long list of additional items, then writes recipes that require those phantom ingredients.

Scores
ChatGPT 4, Gemini 3, Grok 2, DeepSeek 0.

Round 2: Find Waldo in a busy illustration.

Ükski mudel ei leia Waldo'd õigesti. DeepSeek loeb illustratsioonilt juhuslikku teksti ja pakub mittevastust.

Scores
All 0.

Analysis Totals

ModelFridgeWaldoTotal
ChatGPT404
Gemini303
Grok202
DeepSeek000

Tõlgendus: välja mõeldud objektid (hallutsineerimine) teevad multimodaalse analüüsi praktilise kasutuse mõttetuks. ChatGPT suudab inventari piisavalt konservatiivselt tõlgendada ja selle ennetav lähenemine võidab vooru. Märksõnad: multimodaalne analüüs, pildituvastus.

Category 5: Video Generation

Kaks klassikalist stseeni. DeepSeek ei genereeri videot ja saab selle kategooria eest null punkti.

Round 1: Image-to-video from the iconic photo of Neil Armstrong on the Moon

Sora 2 keeldus inimesi otse animeerimast, seega täpsustasime teksti põhjal. Heliriba tulemused olid üllatavalt tugevad.

  • Grok: overall solid, kuid laeva mõõtkava on paigast ära ja tekib tuuleefekt.

  • ChatGPT: vastuvõetav, kuid vähem köitev kui kaks eelnevat.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.

Round 2: Steel-beam workers high above the city

  • Gemini: best camera movement and parallax; cigarettes look slightly off.

  • Grok: tugev pinge ja kõikumine, kuid ajalehed muutuvad stseeni keskel realistlikult morfides.

  • ChatGPT: korralik, ent mitte tipptasemel.

Scores
Gemini 4, Grok 3, ChatGPT 2, DeepSeek 0.

Video Generation Totals

ModelR1R2Total
Gemini448
Grok336
ChatGPT224
DeepSeek000

Tõlgendus: Gemini juhib veenvalt liikumise kvaliteedi ja helidisaini poolest. Grok jääb sellele lähedale, kuid eksib realismis. ChatGPT on stabiilne, kuid mitte nii kinoline.

Category 6: Creative Generation

Kaks lühikest prompti sõnamängude ja isa-vitsade jaoks (puns, dad jokes).

Prompt 1: Three original tech puns and a one-sentence explanation for each

Kõik neli vastasid korrektselt. Meeskonna lemmik:
“I tried to make a joke about USBs, but it just didn’t stick.”

Scores
ChatGPT 3, Gemini 3, Grok 3, DeepSeek 3.

Prompt 2: Three original dad jokes that make me laugh really hard

  • Grok ei järgi üldist ülesannet ja teeb pidevalt nutitelefonide ning Wi-Fi teemal nalju.

  • ChatGPT, Gemini, DeepSeek pakuvad üldisi isa-vitse, mis meeskonda naerma ajavad. Meeskonna lemmik:
    “My friend’s bakery burned down last night. Now his business is toast.”

Scores
ChatGPT 4, Gemini 4, DeepSeek 4, Grok 1.

Creative Totals

ModelPunsDad JokesTotal
ChatGPT347
Gemini347
DeepSeek347
Grok314

Tõlgendus: kolmikviik esikohaks. DeepSeek tuletab meelde, et kiire ja kerge huumor on tema tugev külg. Märksõnad: loominguline genereerimine, naljad, SEO-sisu.

Category 7: Voice Mode

Seadsime kolm seadet kõrvuti ja jooksutasime struktureeritud mini-debate. DeepSeekil puudub häälerežiim ning seetõttu null punkti.

Scores
Gemini 4, Grok 4, ChatGPT 2, DeepSeek 0.

Tõlgendus: kui soovite loomulikku häälvestlust, on hetkel parimad valikud Gemini ja Grok.

Category 8: Deep Research

Prompt: compare iPhone 17 Pro Max vs Galaxy S25 Ultra for photographers, use reviews and official specs, decide which is better, be concise.

  • DeepSeek väidab ekslikult, et iPhoneil on 5x tele, kuigi see on 4x, ning esitab Galaxy lainurga 12 MP-na, kuigi õige on 50 MP; kordab 10x teleobjektiivi mainimist, mis S24-st alates kadunud.

  • ChatGPT unustab Galaxy kahetelefoto lahenduse ja jätab esikaamerad mainimata, kuid kajastab hinda.

  • Gemini loetleb õige Galaxy kaameraarranžeeringu ja jõuab tasakaalustatud järeldusele.

  • Grok annab kõige täielikuma ja täpsema spetsifikatsioonide ülevaate.

Kõik neli jõuavad sarnase otsuseni: iPhone juhib järjepidevuse ja videokvaliteedi poolest; Galaxy domineerib pika suumi ja edasijõudnud AI-tööriistadega. See vastab käitumislikule kogemusele, kuid individuaalseid spetsifikatsioone tasub alati kontrollida ametlike allikate või tootja lehelt. Märksõnad: sügav uurimine, tootevõrdlus, spetsifikatsioonid.

Scores
Grok 4, Gemini 3, ChatGPT 2, DeepSeek 1.

Tõlgendus: Grok võidab uurimistöö rasket osa, Gemini jääb talle lähedale, ChatGPT on kasulik, kuid jättis välja olulisi kaamerafakte, DeepSeek vajab täpsemat faktikontrolli.

Category 9: Speed (Observed, Not Scored)

  • ChatGPT tundub kiireim puhastest tekstivastustest, ent aeglustub pildianalüüsi ja sügava uurimistöö puhul.

  • Gemini on ühtlane pea kõigis ülesannetes; harva kõige kiirem, peaaegu kunagi kõige aeglasem.

  • Grok on üldiselt terav ja kiire, kuid võib analüüsis ja uurimistöös maha pidurduda.

  • DeepSeek vastab tihti alla 10 sekundi, kuid see kiirus tuleb sageli konteksti ja täpsuse arvelt.

Kiirust ei skooritud eraldi kategooriana, et säilitada võrreldavus algse võistluse punktitabeliga.

Full Scoreboard

Läbipaistvuse huvides siin on kogu kategooriate kaupa punktitabel, mis vastab allika võistluse lõppseisule.

CategoryChatGPTGeminiGrokDeepSeek
Problem Solving7753
Image Generation7540
Fact-Checking6974
Analysis4320
Video Generation4860
Creative7747
Voice Mode2440
Deep Research2341
Total39463517

Overall winner: Gemini (46 points).
Runner-up: ChatGPT (39). Third place: Grok (35). Fourth place: DeepSeek (17).

Strengths, Weaknesses, and Failure Modes

Peakonkurents aitab ainult siis, kui see seletab, miks mudelid käituvad nii nagu nad käituvad. Need on järjepidevad mustrid, mida me täheldasime.

ChatGPT

  • Strengths: struktuurne ja samm-sammult põhjendatud lähenemine piirangute all; konservatiivne ning vähem hallutsineeriv pildianalüüs; erakordselt tugev fotorealistlik pildigeneratsioon; usaldusväärne ja lööv loominguline kirjutis.

  • Weaknesses: aeglustub raskematel multimodaalsetel ülesannetel; mõnikord puuduvad spetsiifilised andmed uurimistöös; häälerežiimi prosoodia võiks olla stabiilsem.

  • Failure modes to watch: väikesed, kuid olulised faktivahed mitme seadme võrdluses; vastused võivad jääda alaspetsiifitseerituks, kui prompt on liiga lühike.

Pick ChatGPT if: vajate fotorealistlikku pildigeneratsiooni, samm-sammulisi plaane või loomingulist teksti, mis toimib puhtalt ja järjekindlalt. Samuti sobib see hästi toidu- ja retseptiloogika kontrolliks, kui inventuur on ebatäielik.

Gemini

  • Strengths: parim üldine tasakaal; tugev faktikontroll ilma sirvimiseta; kõige veenvam videogeneratsioon ja helitöötlus; probleemilahendus, mis kohandab plaani, mitte ei paku lihtsaid numbrilisi vastuseid; kõige sujuvam hääl.

  • Weaknesses: piltidel võib esineda liigset viimistlust; mõnikord lisab visuaalsesse analüüsi korral ilusaid, kuid väljamõeldud detaile; harva kõige kiirem.

  • Failure modes to watch: fotorealistlikud promptid, mis nõuavad täpset tüpograafiat või inimanatoomia korrektset kujutamist, võivad tekitada probleeme; olge video puhul konkreetne füüsikapiirangute osas.

Pick Gemini if: vajate vaikimisi mudelit, mis saab hakkama enamikuga ülesannetest eriti siis, kui töö ühendab põhjendamist multimodaalse genereerimisega ning te hoolite õigsusest.

Grok

  • Strengths: suurepärane sügav uurimine; lööv häälekarakter; kiired algvaated; tugev arutluse struktuuri mõistmine.

  • Weaknesses: pildianalüüsis esineb hallutsineerimist; realismi purunemised videos; loomingulistes promptides võib tekkida kitsas fookus.

  • Failure modes to watch: piltidel väljamõeldud objektid; enesekindlad, kuid valed detailid; kinnipidamine varasemast teemast, kui prompt on muutunud.

Pick Grok if: vajate teravat uurimisabi spetsifikatsioonide ja ülevaadete konsolideerimiseks või isikupärast häälolekut. Kontrollige tsiteeritud fakte käsitsi, kui täpsus on kriitiline.

DeepSeek

  • Strengths: kiire tekstiväljund; üllatavalt tugev kerge, lühivormiline huumor; sobib lihtsate loominguliste briifide täitmiseks.

  • Weaknesses: puudub pildi- ja videogeneerimine; ei suuda objektituvastusel; faktide hoid on üsna lahtine uurimistöödel.

  • Failure modes to watch: enesekindlad, kuid vildakad numbrid; piltidelt teksti lugemine, jättes stseeni terviku tähelepanuta.

Pick DeepSeek if: vajate odavat ja väga kiiret tekstiväljundit lihtsateks ülesanneteks, naljadeks või mustanditeks, mida te plaanite hiljem toimetada.

Practical Recommendations by Use Case

Why the Winner Matters Less Than the Fit

Gemini sai kõrgeima skoori, sest see kombineerib täpsust, kohanemisvõimet ja multimodaalset kvaliteeti. See tasakaal võidab võistlusi. Tööelus loeb siiski sobivus ülesandega. Kui teie töö keskendub staatilistele piltidele, võib ChatGPT teie jaoks skooridest olulisemalt paremini toimida. Kui teil on vaja spetsifikatsioonide tabelit koostada, võib Grok olla kiireim tee avaldatavale mustandile. Kui vajate odavat, kiiret üksikut punchline'i või mustandit, on DeepSeeki kiirus eelis, mitte puudus.

Mõelge nendele mudelitele nagu objektiividele kaamerakotis: parim objektiiv paberil ei pruugi olla see, mida igal pildistamisel vajate. Valige fookuskaugus, mis sobib võttega. Märksõnad: mudeli valik, töövoog, tehisintellekti tööriistad.

Limitations and Notes on Reproducibility

  • No internet rounds: kõik mudelid töötasid sisemise teadmise alusel, mis vananeb. Kui kordate teste kuude pärast, võivad faktinumbrid nihkuda, kuna mudelite hetkeseisud või treeningandmed värskendatakse.

  • Generative variability: juhuslikkus käivituste vahel võib muuta täpset sõnastust või väiksemaid detaile. Me kontrollisime seda, keskendudes täpsusele ja ülesande järgimisele, mitte stiilile.

  • Speed: salvestatud kvalitatiivselt. Taristu ja koormus mõjutavad latentsust; tänane kiireim mudel võib homme tunduda aeglasem.

  • Modal gaps: kui mingit võimekust ei eksisteeri (DeepSeek piltide ja videote puhul), ei ole null seda teksti võimekuse halvustamiseks — see kajastab lihtsalt toote ulatust.

Verdict

  • Winner: Gemini (46 points). Parim üldine mudel 2025. aastal, silmapaistvate tulemustega faktikontrollis, videogeneratsioonis ja kohanduvates probleemilahendustes ning kõige sujuvama häälerežiimiga.

  • Runner-up: ChatGPT (39 points). Fotorealistlike piltide liider, struktuurne probleemilahendaja, usaldusväärne loominguline partner ning tähelepanelik pildipõhises analüüsis.

  • Third: Grok (35 points). Uurimistöö asjatundja isikupärase häälkarakteriga. Kontrollige spetsiifilisi fakte, kui täpsus on kriitiline.

  • Fourth: DeepSeek (17 points). Kiire, lihtne ja ootamatult lõbus kerge loomingulise töö jaoks, kuid puudub multimodaalne sügavus.

Kui soovite ühte mudelit, mis kataks kõige laiemalt igapäevaseid ülesandeid väheste üllatustega, valige Gemini. Kui teie töövoog eelistab pilte ja hindate hoolikat, samm-sammulist põhjendust, tundub ChatGPT mugav ja usaldusväärne. Spetsifikatsioonide- ja tootetöö jaoks on Grok veenev valik. Kiirete ja madalate panustega tekstitööde korral, kus hind ja kiirus loevad, tasub kaaluda DeepSeek.

Üheksa kategooriat. Üks edetabel. Rohkelt nüansse. Valige õige tööriist ja ükskõik milline neist mudelitest võib saada teie kõige nutikamaks meeskonnakaaslaseks.

"Olen alati tahtnud mõista, kuidas tehnoloogia töötab ja miks see meid nii palju mõjutab. Kirjutamine annab võimaluse neid vastuseid otsida."

Jäta kommentaar

Kommentaarid