Home
Výskum a vývoj
Nová AI od Googlu vám umožní retušovať obrázky iba pomocou textových povelov

Nová AI od Googlu vám umožní retušovať obrázky iba pomocou textových povelov

Výskum a vývoj

26.3.2025

0

ňNa svete je nový model umelej inteligencie Googlu, ktorý dokáže generovať alebo upravovať obrázky tak ľahko, ako môžete vytvárať text – v rámci konverzácie s chatbotom. Nedávno Google rozšíril prístup k natívnym možnostiam generovania obrázkov Gemini 2.0 Flash, čím sprístupnil experimentálnu funkciu každému, kto používa Google AI Studio.

Zdroj Foto: Google / Benj Edwards

Táto multimodálna technológia, ktorá bola v minulosti obmedzená na testerov, integruje možnosti spracovania natívneho textu aj obrazu do jedného modelu AI. Nový model s názvom Gemini 2.0 Flash (Image Generation) Experimental si získal pozornosť vďaka svojej schopnosti odstraňovať vodoznaky z obrázkov, aj keď za cenu artefaktov a zníženej kvality obrazu.

Zdroj Foto: Google / Benj Edwards

To však nie je všetko. Gemini 2.0 Flash dokáže pridávať aj odstraňovať objekty, upravovať scenériu, meniť osvetlenie, pokúšať sa meniť uhly obrázka, približovať alebo odďaľovať a vykonávať ďalšie transformácie. Google vycvičil Gemini 2.0 na veľkom súbore údajov (prevedených na tokeny) a textu.

Zdroj Foto: Google / Benj Edwards

„Znalosti“ modelu o obrázkoch zaberajú rovnaký priestor neurónovej siete ako jeho znalosti o pojmoch sveta z textových zdrojov, takže môže priamo vytvárať obrazové tokeny, ktoré sa konvertujú späť na obrázky a poskytujú sa používateľovi. Začlenenie generovania obrázkov do četu AI nie je samo osebe novinkou – OpenAI integroval svoj generátor obrázkov DALL-E 3 do ChatGPT v septembri minulého roka a ďalšie technologické spoločnosti ako xAI nasledovali tento príklad.

Zdroj Foto: Google / Benj Edwards

Doteraz však každý z týchto četovacích asistentov AI používal samostatný model AI založený na difúzii (ktorý používa iný princíp syntézy ako LLM) na generovanie obrázkov, ktoré sa potom poskytli používateľovi v rámci rozhrania četu. Gemini 2.0 Flash je však veľký jazykový model (LLM) a AI generátor obrázkov v jednom systéme. Je zaujímavé, že GPT-4o od OpenAI je takisto schopný natívneho obrazového výstupu, ale táto spoločnosť ešte neuviedla možnosť skutočného multimodálneho obrazového výstupu.

Zdroj Foto: Google / Benj Edwards

Jedným z dôvodov je možno to, že skutočný multimodálny obrazový výstup je výpočtovo veľmi náročný, pričom výstupná kvalita obrázkov ešte nemusí byť taká dobrá ako pri difúznych modeloch. Ďalším dôvodom môže byť bezpečnosť. Podobne ako multimodálne modely vytrénované na audio dokážu absorbovať krátku ukážku hlasu vzorovej osoby a potom ho bezchybne napodobniť, multimodálne modely obrazového výstupu dokážu relatívne ľahko a presvedčivo falšovať mediálnu realitu, ak sú k dispozícii vhodné tréningové dáta a výpočty. S dostatočne dobrým multimodálnym modelom by sa deepfakes a manipulácie s fotografiami mohli stať ešte triviálnejšími, než sú teraz.

Čo teda Gemini 2.0 Flash dokáže? Podpora pre konverzačné úpravy obrázkov umožňuje používateľom iteratívnym spôsobom upravovať obrázky prostredníctvom dialógu v prirodzenom jazyku vo viacerých po sebe nasledujúcich podnetoch. Môžete mu teda povedať, čo chcete pridať, odstrániť alebo zmeniť.

Zdroj Foto: Google / Benj Edwards

Gemini dokáže takisto deformovať obraz novými spôsobmi, napríklad „zväčšiť“ obraz do fiktívneho prostredia alebo dať postavičke telo a potom ju vložiť do dobrodružnej hry. Samozrejme, môže odstrániť aj vodoznaky. Funguje to, hoci výsledný obrázok sa ani zďaleka nepribližuje rozlíšením alebo kvalitou detailov originálu.

Zdroj Foto: Google / Benj Edward

Model AI jednoducho vyplní priestor vodoznaku najpravdepodobnejším výsledkom na základe svojich tréningových údajov. Obrázky teda nemajú veľmi vysokú kvalitu, ale netreba na nich vykonať žiadnu úpravu okrem zadávania požiadaviek. Adobe Photoshop v súčasnosti umožňuje používateľom manipulovať s obrázkami pomocou AI syntézy na základe písomných výziev pomocou funkcie Generative Fill, ale nie je to také prirodzené. Skutočný multimodálny výstup otvára zaujímavé nové možnosti v oblasti chatbotov.

Zdroj Foto: Google / Benj Edwards

Napríklad Gemini 2.0 Flash dokáže hrať interaktívne grafické hry alebo generovať príbehy s konzistentnými ilustráciami, pričom zachováva kontinuitu postáv a prostredia vo viacerých obrázkoch. Nie je to ani zďaleka dokonalé, ale konzistentnosť znakov je novou schopnosťou AI asistentov. Napriek súčasným nedostatkom Gemini 2.0 Flash sa vznik skutočného multimodálneho obrazového výstupu javí ako významný moment v histórii AI, pretože to naznačuje, ako sa technológia bude ďalej zlepšovať.

Zdroj: arstechnica.com.

^{Zdroj Foto: Google / Ars Technica}

Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať

Photo Deepfake videá už vedia napodobniť aj pulz srdca a môžu byť neodhaliteľné

Deepfake videá už vedia napodobniť aj pulz srdca a môžu byť neodhaliteľné

Photo Koniec ručného retušovania obrázkov. AI Gemini upraví akúkoľvek fotku textovým promptom

Koniec ručného retušovania obrázkov. AI Gemini upraví akúkoľvek fotku textovým promptom

Photo Xiaomi predstavuje vlastný multimodálny AI model

Xiaomi predstavuje vlastný multimodálny AI model