Gemini märkimisfunktsioon: kiire piltide redigeerimine

Gemini märkimisfunktsioon: kiire piltide redigeerimine

Laura Mägi Laura Mägi . Kommentaarid

6 Minutit

Google arendab uut „markup” ehk märkimisfunktsiooni Gemini jaoks, mis võimaldab kasutajal joonistada või lisada teksti otse tehisintellekti genereeritud piltidele ning seejärel esitada need märgitud tulemused uuesti kiireteks täpsustusteks. Selle muudatuse eesmärk on anda inimestele otsesem kontroll AI väljundite üle ja kiirendada väiksemaid pildimuudatusi ilma korduva prompti ümberkirjutamiseta. Funktsioon rõhutab visuaalset koostööd ja intuitiivset pildiredigeerimist, kus ornamenteeritud või kohandatud pildid muutuvad kiiresti iteratiivseks sisendiks järgmisele AI-pöördele.

Joonista, tipi, korrigeeri: praktilisem viis AI-piltide muutmiseks

Lekitatud ekraanipildid ja esialgsed aruanded näitavad, et Gemini märkimise kasutajaliides sisaldab horisontaalset värvipaletti ja kahte peamist tööriista: kõverjoonelist pintslit vabakäeliste jooniste jaoks ning „T”-ikooni teksti lisamiseks. Selle asemel, et muuta algset kirjelduse prompti ja taastöötada kogu pilt, saavad kasutajad väljundi peal teha märkusi — värvida üle konkreetse ala, kirjutada kommentaare või näidata täpselt, mis tuleks muuta — ning seejärel saata märgitud pilt Geminile uuesti, et mudel kohandusi rakendaks. See lähenemine toetab lühemaid tagasiside-tsükleid ja vähendab vajadust keerukate tekstikäsustuste sõnastamiseks, mis sageli ei väljenda visuaalset konteksti piisavalt täpselt.

Kuidas uuesti esitamise töövoog kiirendab protsessi

Varased testijad kirjeldavad lihtsat tsüklit: genereeritud pilt alla laaditakse, sellele lisatakse vabamaid visandeid või täpsustavaid tekstijuhiseid, ning seejärel üles laaditakse või esitatakse märgitud fail uuesti nii, et mudel saab annotatsioonid mõista ja nende põhjal muudatusi teha. See tähendus on selge: väikesed parandused — objekti nihutamine, värvide muutmine, valguse kohandamine või näojoonte peenhäälestus — saab lahendada otse pildi peal, ilma et peaks nullist alustama või pikka prompti ümber kirjutama. Uuesti esitamise (resubmission) mudel pöörab märgitud pikslite ja kasutajaannotatsioonide poole ning kasutab neid tingimustena järgmise generatsiooni jaoks; praktikas tähendab see kiiremaid iteratsioone, väiksemaid versioonikonflikte ja vähem katsetamist, mis muidu nõuaks manuaalset pilditöötlust või korduvat prompti katsetamist.

Miks see loeb loojatele ja meeskondadele

Kujuta ette, et töötad turundusmaterjalide või tootepõhiste mockup-idega. Selle asemel, et sisestada teksti nagu „muuda logo väiksemaks ja nihuta vasakule”, võid kiiresti joonistada noole ning ringi ümber logo, või kirjutada pildi peale sõna „väiksem”. See on kiirem, vähem ebaselge ning olukorrale lähemal see, kuidas disainerid juba varasemalt varasid üle vaatavad ja kommenteerivad. Selline visuaalne märgistamine vähendab tõlgenduste vahet ja hoiab kokku aega, mis muidu kulub korduvatele selgitustele meeskonnas. Samuti sobib see hästi mitmeosalise tagasiside protsessiga, kus tootejuht, disainer ja turundusspetsialist saavad sama pildi ülevaatuse ajal kiiresti lisada oma märkused ja viited.

  • Kiirem iteratsioon: vähem prompti ümberkirjutusi ja kiirem visuaalne tagasiside; see loob tõhusama disainitsooni, kus muudatusi näeb peaaegu reaalajas.
  • Selgem eesmärk: visuaalsed märgid vähendavad tekstipõhiste juhiste valestimõistmise riski, kuna annotatsioonid annavad konteksti, maskid ja ringid suunavad tähelepanu täpselt.
  • Ligipääsetavad parandused: mittetehnilised kasutajad saavad AI-d suunata lihtsate joonte, noolte või märkustega, vähendades vajadust keerulise prompti- või koodioskuse järele.

Ehitatud Gemini kasvavale pilditööriistade kogumile

Google on juba sellel aastal integreerinud Gemini sisse rakendusesisese pilditöötluse. See tööriist käsitleb nii kasutajate fotosid kui ka AI genereeritud pilte, pakkudes taustade muutmist, objektide lisamist või eemaldamist ning mitme pildi omavahelist segamist (multi-image blending). Märkimisfunktsioon laiendab seda suutlikkust, muutes väljundi end sisendiks järgnevateks töötlemistsükliteks — teisisõnu saab pildi peal tehtud muudatused edastada edasi kui selgelt struktureeritud juhised. See toimib omakorda maskimise, inpainting’i ja outpaintingu kontseptsioonide peal: kasutaja märgib, kus säilitada, kust eemaldada või millist ala ümber kujundada, ning Gemini tõlgendab need märgised tingimustena pildi järgmisele generaatorile.

Tehniliselt võib see hõlmata erinevaid lähenemisi: segmenteerimise, pikslitasandi maskide ja kontekstuaalsete tekstimärkuste kombineerimist, et säilitada pildi ülejäänud osa muutmata ja kohandada vaid valitud elemente. Selline töövoog on eriti kasulik, kui on vaja teha korduvaid, väiksemahulisi muudatusi — näiteks värvi korrigeerimine, tooteasendi muutmine pildil või valgustuse kohendamine —, mis muidu nõuaksid täielikku genereerimise tsüklit või käsitsi pilditöötlust välise tarkvaraga.

Nano Banana Pro: teravamad pildid ja selgem tekst

Gemini visuaalseid võimeid tugevdas veelgi Nano Banana Pro mudel. Google väidab, et see variatsioon toodab rikkalikumat sisu parema detailiga ning parandatud loetavusega fontide ja tekstide osas piltidel. Praktikas tähendab see, et nii vektoriseeritud kui ka raster-tekstid jäävad selgemaks, servad on täpsemad ja vähematel juhtudel ilmneb mööndusi fondi renderdamisel. Kui Nano Banana Pro töötab koos märkimisfunktsiooniga, võib tulemus olla kiirem ja puhtam piltide redigeerimine, kus nii käsitsi joonistatud instruktsioonid kui ka tekstiülekatted tõlgendatakse usaldusväärsemalt.

Tehnilised täpsustused Nano Banana Pro kohta pole täielikult avalikud, kuid mudeli optimeerimine võib hõlmata paremat teravustamist (sh edge enhancement), tekstipõhist juhendamise täpsust (text-conditioning) ja kõrgema eraldusvõimega väljavõtteid. See on oluline just siis, kui genereeritud piltidel peab olema loetav tooteinfo, pisidetailid või brändielemendid — need on tüüpilised nõudmised turundus- ja tootedisaini töövoogudes. Kombineerides Nano Banana Pro paremat pildikvaliteeti Gemini märkimise otsese kasutajaliidesega, loovad ettevõtted lühema silla ideest lõpptoodanguni, kus inimpoolne intent on selgelt kodeeritud visuaalsete märkide abil.

Disaineritele, tootemeeskondadele ja vaba loometööga tegelevatele kasutajatele võib pildimärkimine muuta generatiivse AI-ga suhtlemist: vähem sõltuvust pikkadest ja detailsetest promptidest, rohkem otsest ning käegakatsutavat kontrolli lõpptulemuse üle. Lisaks parandab see koostööd, kuna märkused pildil on intuitiivsed ja kergesti mõistetavad osalejate vahel. Samas tekib uusi kaalutlusi: kuidas hoida versioonihaldust puhtana, kuidas tagada autoriõiguste ja privaatsuse kaitse märgitud failide edasise töötlemise ajal ning kuidas tagada, et AI ei tõlgenda ambitsioonikaid visuaalseid juhiseid ootamatul viisil. Google suundub selgelt sujuvamate üleandmiste poole inimese kavatsuse ja AI-täpsustuste vahel, kuid edu sõltub nii kasutajaliidese disainist kui ka mudeli võimest mõista konteksti täpselt.

Allikas: smarti

"Tehnoloogia liigub kiiremini kui kunagi varem ja ma naudin selle jälgimist. Iga uus seade või rakendus jutustab loo inimlikust loovusest."

Jäta kommentaar

Kommentaarid