Dana 25. ožujka 2025., OpenAI je predstavio revolucionarno poboljšanje za ChatGPT, integrirajući napredne mogućnosti generiranja slika izravno u platformu putem modela GPT-4o.
Ovo označava prvo značajno unapređenje ChatGPT-ovih alata za vizualnu kreativnost u više od godinu dana, pretvarajući ga iz tekstualnog chatbota u višenamjenski alat. Ova izmjenu je najavio izvršni direktor OpenAI-ja – Sam Altman – tijekom prijenosa uživo.
Dotična značajka omogućuje korisnicima generiranje i uređivanje slika izravno unutar ChatGPT-a, otvarajući svijet mogućnosti za kreatore, profesionalce i povremene korisnike. Ako još niste probali ovaj alat, vrijeme je da to učinite odmah.
Skok iznad DALL-E-a
Prije ove nadogradnje, ChatGPT se oslanjao na DALL-E 3, OpenAI-ov samostalni model za generiranje slika, odnosno za stvaranje vizualnih prikaza. Iako je DALL-E 3 bio impresivan, funkcionirao je kao zaseban sustav, zahtijevajući od korisnika prebacivanje između sučelja za generiranje slika.
Nova značajka temeljena na GPT-4o uklanja ovu poteškoću ugrađivanjem generiranja slika izravno u ChatGPT. Korisnici sada mogu jednostavno opisati što žele – bilo da se radi o detaljnoj infografici, šaljivom stripu ili fotorealističnoj sceni – a GPT-4o će to proizvesti u nekoliko sekundi (op.a. Nekad i unutar par minuta, ovisno o tome kolika je “gužva na serverima”).
Za razliku od svog prethodnika, ovo poboljšanje “razmišlja” duže prije generiranja slika, što rezultira preciznijim, detaljnijim i kontekstualno koherentnim rezultatima, prema tvrdnjama OpenAI-a.
Jedno od značajnih poboljšanja je sposobnost GPT-4o da točno prikazuje tekst unutar slika – poznata slabost ranijih AI generatora slika. Bilo da se radi o jelovniku restorana, prometnom znaku ili višepanelnom stripu s dijalozima, model se nosi s kompleksnim uputama s lakoćom.
Tijekom prijenosa uživo, Altman je prikazao primjere poput znanstvenog dijagrama Newtonovog eksperimenta s prizmom i stripa s četiri panela s dosljednim likovima, demonstrirajući svestranost sustava. Ovaj napredak pozicionira ChatGPT kao izravnog konkurenta alatima poput Midjourneya i Googleovog Gemini 2.0 Flasha, koji su već uzburkali vode u svijetu generiranja slika pomoću AI-a.
Kako funkcionira i tko ga može koristiti
Značajka je intuitivna poput razgovora s ChatGPT-om. Korisnici mogu upisati upit poput “Generiraj sliku omjera 16:9 s zecom u divljini u stilu National Geographica” ili učitati fotografiju i zatražiti uređivanje, poput “Pretvori ovaj selfie u animaciju u stilu Studija Ghiblija.”
GPT-4o podržava prilagođene opcije poput omjera slike, hex kodova boja i prozirnih pozadina, što ga čini fantastičnim za dizajnere i marketinške stručnjake. Autoregresivni pristup – generiranje slika sekvencijalno s lijeva na desno i odozgo prema dolje – također povećava njegovu sposobnost održavanja dosljednosti u složenim kompozicijama.
Ova mogućnost je isprva lansirana za pretplatnike s ChatGPT Pro pretplatom (200 dolara/mjesečno), dok se sada značajka uvodi za korisnike Plus pretplate (20 dolara/mjesečno), Team i čak Free tier korisnike, dok su Enterprise i Education planovi predviđeni za uskoro pristup ovome.
Međutim, besplatni korisnici suočavaju se s privremenim odgodama zbog ogromne gužve. Altman je na X-u primijetio da se “GPU-ovi tope” zbog velike upotrebe, što je dovelo do privremenih ograničenja. Kada se potpuno implementira, besplatni korisnici vjerojatno će dobiti dnevnu kvotu (špekulira se o tri slike), dok će plaćene razine uživaju širi pristup. Programeri također mogu iskoristiti ovo putem OpenAI-ovog API-ja, obećavajući val inovativnih aplikacija.
it's super fun seeing people love images in chatgpt.
but our GPUs are melting.
we are going to temporarily introduce some rate limits while we work on making it more efficient. hopefully won't be long!
chatgpt free tier will get 3 generations per day soon.
— Sam Altman (@sama) March 27, 2025
Kreativna sloboda s ograničenjima
Za razliku od Googleovog Gemini 2.0 Flasha, koji je kritiziran zbog osrednjih ograničenja koja su dopuštala uklanjanje vodenih žigova i prikaze zaštićenih likova, OpenAI je uspostavio ravnotežu između kreativne slobode i odgovornosti.
GPT-4o uključuje “robusne zaštite” protiv golotinje, eksplicitnog nasilja i materijala o seksualnom zlostavljanju djece, dok istovremeno popušta neka prijašnja ograničenja. Korisnici sada mogu generirati slike javnih osoba, “simbola mržnje” (u neutralnim kontekstima) ili stilske imitacije studija poput Pixara – iako oponašanje stilova živih umjetnika ostaje zabranjeno. Svaka slika nosi C2PA metapodatke kako bi se označila kao AI-generirana, osiguravajući transparentnost.
Implikacije i izazovi
Ovo poboljšanje učvršćuje evoluciju ChatGPT-a u sveobuhvatni kreativni alat, brišući granice između tekstualne i vizualne umjetne inteligencije. Za profesionalce, to je ušteda vremena za izradu prototipova dizajna ili prezentacija. Za “hobiste”, to je igralište za eksperimentiranje.
Ipak, postavlja poznata pitanja o AI-u: rasprave o autorskim pravima nad podacima za obuku, potencijal za zloupotrebu u stvaranju deepfakeova i utjecaj na okoliš zbog GPU-intenzivnih procesa. Altmanovo iskreno priznanje o opterećenoj infrastrukturi ističe energetske zahtjeve takvih značajki, temu koju tehnološki divovi moraju adresirati kako AI raste.
Budućnost AI kreativnosti
Nova značajka ChatGPT-a za generiranje slika više je od privlačnog ažuriranja – to je pogled u budućnost multimodalne umjetne inteligencije. Kako se GPT-4o integrira s OpenAI-ovim video alatom Sora i potencijalno drugim medijskim formatima, granice između ljudske i strojne kreativnosti nastavljaju se zamagljivati.
Za sada, ovaj alat osnažuje korisnike da ožive svoje vizije s neviđenom lakoćom, postavljajući novi standard za ono što konverzacijski AI može postići. Bilo da ste dizajner, edukator ili samo znatiželjni, ovo je značajka koju vrijedi istražiti – prije nego što se GPU-ovi ponovno pregriju.
Piše: Boris Plavljanić