
Nová AI od Googlu vám umožní retušovať obrázky iba pomocou textových povelov
ňNa svete je nový model umelej inteligencie Googlu, ktorý dokáže generovať alebo upravovať obrázky tak ľahko, ako môžete vytvárať text – v rámci konverzácie s chatbotom. Nedávno Google rozšíril prístup k natívnym možnostiam generovania obrázkov Gemini 2.0 Flash, čím sprístupnil experimentálnu funkciu každému, kto používa Google AI Studio.
Zdroj Foto: Google / Benj Edwards
Táto multimodálna technológia, ktorá bola v minulosti obmedzená na testerov, integruje možnosti spracovania natívneho textu aj obrazu do jedného modelu AI. Nový model s názvom Gemini 2.0 Flash (Image Generation) Experimental si získal pozornosť vďaka svojej schopnosti odstraňovať vodoznaky z obrázkov, aj keď za cenu artefaktov a zníženej kvality obrazu.
Zdroj Foto: Google / Benj Edwards
To však nie je všetko. Gemini 2.0 Flash dokáže pridávať aj odstraňovať objekty, upravovať scenériu, meniť osvetlenie, pokúšať sa meniť uhly obrázka, približovať alebo odďaľovať a vykonávať ďalšie transformácie. Google vycvičil Gemini 2.0 na veľkom súbore údajov (prevedených na tokeny) a textu.
Zdroj Foto: Google / Benj Edwards
„Znalosti“ modelu o obrázkoch zaberajú rovnaký priestor neurónovej siete ako jeho znalosti o pojmoch sveta z textových zdrojov, takže môže priamo vytvárať obrazové tokeny, ktoré sa konvertujú späť na obrázky a poskytujú sa používateľovi. Začlenenie generovania obrázkov do četu AI nie je samo osebe novinkou – OpenAI integroval svoj generátor obrázkov DALL-E 3 do ChatGPT v septembri minulého roka a ďalšie technologické spoločnosti ako xAI nasledovali tento príklad.
Zdroj Foto: Google / Benj Edwards
Doteraz však každý z týchto četovacích asistentov AI používal samostatný model AI založený na difúzii (ktorý používa iný princíp syntézy ako LLM) na generovanie obrázkov, ktoré sa potom poskytli používateľovi v rámci rozhrania četu. Gemini 2.0 Flash je však veľký jazykový model (LLM) a AI generátor obrázkov v jednom systéme. Je zaujímavé, že GPT-4o od OpenAI je takisto schopný natívneho obrazového výstupu, ale táto spoločnosť ešte neuviedla možnosť skutočného multimodálneho obrazového výstupu.
Zdroj Foto: Google / Benj Edwards
Jedným z dôvodov je možno to, že skutočný multimodálny obrazový výstup je výpočtovo veľmi náročný, pričom výstupná kvalita obrázkov ešte nemusí byť taká dobrá ako pri difúznych modeloch. Ďalším dôvodom môže byť bezpečnosť. Podobne ako multimodálne modely vytrénované na audio dokážu absorbovať krátku ukážku hlasu vzorovej osoby a potom ho bezchybne napodobniť, multimodálne modely obrazového výstupu dokážu relatívne ľahko a presvedčivo falšovať mediálnu realitu, ak sú k dispozícii vhodné tréningové dáta a výpočty. S dostatočne dobrým multimodálnym modelom by sa deepfakes a manipulácie s fotografiami mohli stať ešte triviálnejšími, než sú teraz.
Čo teda Gemini 2.0 Flash dokáže? Podpora pre konverzačné úpravy obrázkov umožňuje používateľom iteratívnym spôsobom upravovať obrázky prostredníctvom dialógu v prirodzenom jazyku vo viacerých po sebe nasledujúcich podnetoch. Môžete mu teda povedať, čo chcete pridať, odstrániť alebo zmeniť.
Zdroj Foto: Google / Benj Edwards
Gemini dokáže takisto deformovať obraz novými spôsobmi, napríklad „zväčšiť“ obraz do fiktívneho prostredia alebo dať postavičke telo a potom ju vložiť do dobrodružnej hry. Samozrejme, môže odstrániť aj vodoznaky. Funguje to, hoci výsledný obrázok sa ani zďaleka nepribližuje rozlíšením alebo kvalitou detailov originálu.
Zdroj Foto: Google / Benj Edward
Model AI jednoducho vyplní priestor vodoznaku najpravdepodobnejším výsledkom na základe svojich tréningových údajov. Obrázky teda nemajú veľmi vysokú kvalitu, ale netreba na nich vykonať žiadnu úpravu okrem zadávania požiadaviek. Adobe Photoshop v súčasnosti umožňuje používateľom manipulovať s obrázkami pomocou AI syntézy na základe písomných výziev pomocou funkcie Generative Fill, ale nie je to také prirodzené. Skutočný multimodálny výstup otvára zaujímavé nové možnosti v oblasti chatbotov.
Zdroj Foto: Google / Benj Edwards
Napríklad Gemini 2.0 Flash dokáže hrať interaktívne grafické hry alebo generovať príbehy s konzistentnými ilustráciami, pričom zachováva kontinuitu postáv a prostredia vo viacerých obrázkoch. Nie je to ani zďaleka dokonalé, ale konzistentnosť znakov je novou schopnosťou AI asistentov. Napriek súčasným nedostatkom Gemini 2.0 Flash sa vznik skutočného multimodálneho obrazového výstupu javí ako významný moment v histórii AI, pretože to naznačuje, ako sa technológia bude ďalej zlepšovať.
Zdroj: arstechnica.com.
Zdroj Foto: Google / Ars Technica
Zobrazit Galériu