Nalazite se
Članak
Objavljeno: 22.03.2025. 20:23

MIT 

AI alat za brzo generiranje visokokvalitetnih slika

Istraživači spajaju najbolje od dvije popularne metode kako bi stvorili generator slike koji koristi manje energije i može raditi lokalno na prijenosnom računalu ili pametnom telefonu.

AI alat za brzo generiranje visokokvalitetnih slika

Sposobnost brzog generiranja visokokvalitetnih slika ključna je za stvaranje realističnih simuliranih okruženja koja se mogu koristiti za osposobljavanje samovozećih automobila za izbjegavanje nepredvidivih opasnosti, čineći ih sigurnijima na stvarnim ulicama.

Ali tehnike generativne umjetne inteligencije koje se sve više koriste za proizvodnju takvih slika imaju nedostatke. Jedna popularna vrsta modela, nazvana difuzijski model, može stvoriti nevjerojatno realistične slike, ali je prespora i računalno zahtjevna za mnoge primjene. S druge strane, autoregresivni modeli koji pokreću LLM-ove poput ChatGPT-a mnogo su brži, ali proizvode slike lošije kvalitete koje su često prožete pogreškama.

Istraživači s MIT-a i Nvidije razvili su novi pristup koji objedinjuje najbolje od obje metode. Njihov hibridni alat za generiranje slika koristi autoregresivni model za brzo snimanje velike slike, a zatim mali difuzijski model za pročišćavanje detalja slike.

Njihov alat, poznat kao HART (hibridni autoregresivni transformator), može generirati slike koje odgovaraju ili premašuju kvalitetu najsuvremenijih difuzijskih modela, ali to rade oko devet puta brže.

Proces generiranja troši manje računalnih resursa od tipičnih difuzijskih modela, što omogućuje lokalno pokretanje HART-a na komercijalnom prijenosnom računalu ili pametnom telefonu. Korisnik treba unijeti samo jedan upit na prirodnom jeziku u HART sučelje za generiranje slike.

MIT-Autoregressive-transformer-01-PRESS_0

HART bi mogao imati širok raspon primjena, kao što je pomoć istraživačima u treniranju robota za obavljanje složenih zadataka iz stvarnog svijeta i pomoć dizajnerima u stvaranju upečatljivih scena za video igre.

Poznato je da popularni modeli difuzije, kao što su Stable Diffusion i DALL-E, proizvode vrlo detaljne slike. Ovi modeli generiraju slike kroz iterativni proces u kojem predviđaju određenu količinu nasumičnog šuma na svakom pikselu, oduzimaju šum, zatim ponavljaju postupak predviđanja i "uklanjanja šuma" više puta dok ne generiraju novu sliku koja je potpuno bez šuma.

Budući da model difuzije uklanja šum iz svih piksela na slici u svakom koraku, a koraka može biti 30 ili više, proces je spor i računalno skup. No budući da model ima višestruke šanse ispraviti pogrešne detalje, slike su visoke kvalitete.

Autoregresivni modeli, koji se obično koriste za predviđanje teksta, mogu generirati slike predviđanjem dijelova slike uzastopno, nekoliko piksela odjednom. Ne mogu se vratiti i ispraviti svoje pogreške, ali proces sekvencijalnog predviđanja puno je brži od difuzije.

Ovi modeli koriste prikaze poznate kao tokeni za izradu predviđanja. Autoregresivni model koristi autokoder za komprimiranje neobrađenih piksela slike u diskretne tokene, kao i za rekonstrukciju slike iz predviđenih tokena. Iako to povećava brzinu modela, gubitak informacija koji se događa tijekom kompresije uzrokuje pogreške kada model generira novu sliku.

Uz HART, istraživači su razvili hibridni pristup koji koristi autoregresivni model za predviđanje komprimiranih, diskretnih slikovnih tokena, zatim model male difuzije za predviđanje rezidualnih tokena. Preostali tokeni kompenziraju gubitak informacija modela hvatanjem detalja izostavljenih diskretnim tokenima.

Budući da difuzijski model predviđa samo preostale detalje nakon što autoregresivni model obavi svoj posao, može izvršiti zadatak u osam koraka, umjesto uobičajenih 30 ili više koraka koje standardni difuzijski model zahtijeva za generiranje cijele slike. Ovo minimalno opterećenje dodatnog difuzijskog modela omogućuje HART-u da zadrži prednost u brzini autoregresijskog modela dok značajno poboljšava njegovu sposobnost generiranja zamršenih detalja slike.

MIT-Autoregressive-transformer-02-PRESS

Tijekom razvoja HART-a, istraživači su se susreli s izazovima u učinkovitoj integraciji modela difuzije za poboljšanje autoregresijskog modela. Otkrili su da je uključivanje modela difuzije u ranim fazama autoregresijskog procesa rezultiralo nakupljanjem pogrešaka. Umjesto toga, njihov konačni dizajn primjene difuzijskog modela za predviđanje samo rezidualnih tokena kao posljednjeg koraka značajno je poboljšao kvalitetu generiranja.

Njihova metoda, koja koristi kombinaciju modela autoregresijskog transformatora sa 700 milijuna parametara i laganog difuzijskog modela s 37 milijuna parametara, može generirati slike iste kvalitete kao one stvorene difuzijskim modelom s 2 milijarde parametara, ali to radi otprilike devet puta brže. Koristi oko 31 postomanje računanja od najsuvremenijih modela.

Štoviše, budući da HART koristi autoregresivni model za obavljanje većine posla, istu vrstu modela koji pokreće LLM, kompatibilniji je za integraciju s novom klasom jedinstvenih generativnih modela vizijskog jezika. U budućnosti bi netko mogao komunicirati s jedinstvenim generativnim modelom jezika vizije, možda tražeći od njega da pokaže međukorake potrebne za sastavljanje komada namještaja.

U budućnosti, istraživači žele ići tim putem i izgraditi modele jezika za slike na vrhu HART arhitekture. Budući da je HART skalabilan i može se generalizirati na više modaliteta, također ga žele primijeniti za generiranje videa i zadatke predviđanja zvuka.

Ovo istraživanje djelomično su financirali MIT-IBM Watson AI Lab, MIT i Amazon Science Hub, MIT AI Hardware Program i Nacionalna znanstvena zaklada SAD-a. GPU infrastrukturu za obuku ovog modela donirala je NVIDIA.

Istraživački rad o HART alatu možete pronaći na ovoj poveznici.

Vezani sadržaji
Ključne riječi MIT Nvidia
Komentari

Učitavam komentare ...

Učitavam