PočetnaOstaloTechNova značajka ChatGPT-a: Generiranje slika koje ostavljaju bez daha

Nova značajka ChatGPT-a: Generiranje slika koje ostavljaju bez daha


Dana 25. ožujka 2025., OpenAI je predstavio revolucionarno poboljšanje za ChatGPT, integrirajući napredne mogućnosti generiranja slika izravno u platformu putem modela GPT-4o.

Ovo označava prvo značajno unapređenje ChatGPT-ovih alata za vizualnu kreativnost u više od godinu dana, pretvarajući ga iz tekstualnog chatbota u višenamjenski alat. Ova izmjenu je najavio izvršni direktor OpenAI-ja – Sam Altman – tijekom prijenosa uživo.

Dotična značajka omogućuje korisnicima generiranje i uređivanje slika izravno unutar ChatGPT-a, otvarajući svijet mogućnosti za kreatore, profesionalce i povremene korisnike. Ako još niste probali ovaj alat, vrijeme je da to učinite odmah.

Skok iznad DALL-E-a

Prije ove nadogradnje, ChatGPT se oslanjao na DALL-E 3, OpenAI-ov samostalni model za generiranje slika, odnosno za stvaranje vizualnih prikaza. Iako je DALL-E 3 bio impresivan, funkcionirao je kao zaseban sustav, zahtijevajući od korisnika prebacivanje između sučelja za generiranje slika.

Nova značajka temeljena na GPT-4o uklanja ovu poteškoću ugrađivanjem generiranja slika izravno u ChatGPT. Korisnici sada mogu jednostavno opisati što žele – bilo da se radi o detaljnoj infografici, šaljivom stripu ili fotorealističnoj sceni – a GPT-4o će to proizvesti u nekoliko sekundi (op.a. Nekad i unutar par minuta, ovisno o tome kolika je “gužva na serverima”).

Za razliku od svog prethodnika, ovo poboljšanje “razmišlja” duže prije generiranja slika, što rezultira preciznijim, detaljnijim i kontekstualno koherentnim rezultatima, prema tvrdnjama OpenAI-a.

Credit: OpenAI / ChatGPT-4o (AI-generated)

Jedno od značajnih poboljšanja je sposobnost GPT-4o da točno prikazuje tekst unutar slika  poznata slabost ranijih AI generatora slika. Bilo da se radi o jelovniku restorana, prometnom znaku ili višepanelnom stripu s dijalozima, model se nosi s kompleksnim uputama s lakoćom.

Tijekom prijenosa uživo, Altman je prikazao primjere poput znanstvenog dijagrama Newtonovog eksperimenta s prizmom i stripa s četiri panela s dosljednim likovima, demonstrirajući svestranost sustava. Ovaj napredak pozicionira ChatGPT kao izravnog konkurenta alatima poput Midjourneya i Googleovog Gemini 2.0 Flasha, koji su već uzburkali vode u svijetu generiranja slika pomoću AI-a.

 

Kako funkcionira i tko ga može koristiti

Značajka je intuitivna poput razgovora s ChatGPT-om. Korisnici mogu upisati upit poput “Generiraj sliku omjera 16:9 s zecom u divljini u stilu National Geographica” ili učitati fotografiju i zatražiti uređivanje, poput “Pretvori ovaj selfie u animaciju u stilu Studija Ghiblija.

GPT-4o podržava prilagođene opcije poput omjera slike, hex kodova boja i prozirnih pozadina, što ga čini fantastičnim za dizajnere i marketinške stručnjake. Autoregresivni pristup – generiranje slika sekvencijalno s lijeva na desno i odozgo prema dolje – također povećava njegovu sposobnost održavanja dosljednosti u složenim kompozicijama.

Credit: OpenAI / ChatGPT-4o (AI-generated)

Ova mogućnost je isprva lansirana za pretplatnike s ChatGPT Pro pretplatom (200 dolara/mjesečno), dok se sada značajka uvodi za korisnike Plus pretplate (20 dolara/mjesečno), Team i čak Free tier korisnike, dok su Enterprise i Education planovi predviđeni za uskoro pristup ovome.

Međutim, besplatni korisnici suočavaju se s privremenim odgodama zbog ogromne gužve. Altman je na X-u primijetio da se “GPU-ovi tope” zbog velike upotrebe, što je dovelo do privremenih ograničenja. Kada se potpuno implementira, besplatni korisnici vjerojatno će dobiti dnevnu kvotu (špekulira se o tri slike), dok će plaćene razine uživaju širi pristup. Programeri također mogu iskoristiti ovo putem OpenAI-ovog API-ja, obećavajući val inovativnih aplikacija.

 

Kreativna sloboda s ograničenjima

Za razliku od Googleovog Gemini 2.0 Flasha, koji je kritiziran zbog osrednjih ograničenja koja su dopuštala uklanjanje vodenih žigova i prikaze zaštićenih likova, OpenAI je uspostavio ravnotežu između kreativne slobode i odgovornosti.

GPT-4o uključuje “robusne zaštite” protiv golotinje, eksplicitnog nasilja i materijala o seksualnom zlostavljanju djece, dok istovremeno popušta neka prijašnja ograničenja. Korisnici sada mogu generirati slike javnih osoba, “simbola mržnje” (u neutralnim kontekstima) ili stilske imitacije studija poput Pixara – iako oponašanje stilova živih umjetnika ostaje zabranjeno. Svaka slika nosi C2PA metapodatke kako bi se označila kao AI-generirana, osiguravajući transparentnost.

 

Implikacije i izazovi

Ovo poboljšanje učvršćuje evoluciju ChatGPT-a u sveobuhvatni kreativni alat, brišući granice između tekstualne i vizualne umjetne inteligencije. Za profesionalce, to je ušteda vremena za izradu prototipova dizajna ili prezentacija. Za “hobiste”, to je igralište za eksperimentiranje.

Ipak, postavlja poznata pitanja o AI-u: rasprave o autorskim pravima nad podacima za obuku, potencijal za zloupotrebu u stvaranju deepfakeova i utjecaj na okoliš zbog GPU-intenzivnih procesa. Altmanovo iskreno priznanje o opterećenoj infrastrukturi ističe energetske zahtjeve takvih značajki, temu koju tehnološki divovi moraju adresirati kako AI raste.

Credit: OpenAI / ChatGPT-4o (AI-generated)

Budućnost AI kreativnosti

Nova značajka ChatGPT-a za generiranje slika više je od privlačnog ažuriranja – to je pogled u budućnost multimodalne umjetne inteligencije. Kako se GPT-4o integrira s OpenAI-ovim video alatom Sora i potencijalno drugim medijskim formatima, granice između ljudske i strojne kreativnosti nastavljaju se zamagljivati.

Za sada, ovaj alat osnažuje korisnike da ožive svoje vizije s neviđenom lakoćom, postavljajući novi standard za ono što konverzacijski AI može postići. Bilo da ste dizajner, edukator ili samo znatiželjni, ovo je značajka koju vrijedi istražiti – prije nego što se GPU-ovi ponovno pregriju.

 

Piše: Boris Plavljanić


RELATED ARTICLES

Komentiraj

Please enter your comment!
Please enter your name here

- Advertisment -

Most Popular