Columbia Engineering
Otkrivanje AI generiranog videa s velikom točnošću
Novi alat otkriva videozapise generirane umjetnom inteligencijom s više od 93 posto točnosti.
Ranije ove godine, zaposlenik jedne multinacionalne korporacije prevarantima je poslao 25 milijuna dolara. Upute za prijenos novca stigle su, mislio je zaposlenik, ravno od financijskog direktora tvrtke. U stvarnosti, kriminalci su upotrijebili AI program za generiranje realističnih videozapisa financijskog direktora i nekoliko drugih kolega u razrađenoj shemi.
Videozapisi koje je stvorila umjetna inteligencija postali su toliko realistični da se ljudi (i postojeći sustavi za otkrivanje) bore da razlikuju prave od lažnih videozapisa. Kako bi riješili ovaj problem, istraživači Columbia Engineeringa sa Sveučilišta Columbia u New Yorku, predvođeni profesorom informatike Junfeng Yangom, razvili su novi alat za otkrivanje videa generiranog umjetnom inteligencijom pod nazivom DIVID ( DIffusion-generated VIdeo Detector).
DIVID poboljšava ranije postojeće metode koje otkrivaju generativne videozapise koje učinkovito identificiraju videozapise generirane starijim AI modelima poput GAN mreža.
GAN je AI sustav s dvije neuronske mreže: jedna stvara lažne podatke, a druga ih procjenjuje kako bi razlikovala lažne od stvarnih. Kroz stalne povratne informacije, obje mreže se poboljšavaju, što rezultira vrlo realističnim sintetičkim videom. Trenutačni alati za otkrivanje pomoću umjetne inteligencije traže znakove poput neobičnog rasporeda piksela, neprirodnih pokreta ili nedosljednosti između frameova koji se obično ne pojavljuju u stvarnim videozapisima.
Yangova grupa je koristila tehniku nazvanu DIRE (DIffusion Reconstruction Error) za otkrivanje slika generiranih difuzijom. DIRE je metoda koja mjeri razliku između ulazne slike i odgovarajuće izlazne slike rekonstruirane prethodno obučenim modelom difuzije.
Ranije ove godine, Yang i suradnici su pomoću alata pod nazivom Raidar omogućili način otkrivanja teksta generiranog umjetnom inteligencijom analizom samog teksta, bez potrebe za pristupom unutarnjem radu velikih jezičnih modela kao što su chatGPT-4, Gemini ili Llama.
Raidar koristi jezični model da preformulira ili izmijeni zadani tekst, a zatim mjeri koliko izmjena sustav napravi. Mnogo izmjena znači da su tekst vjerojatno napisali ljudi, dok manje izmjena znači da je tekst vjerojatno strojno generiran.
Istraživači su koristili isti koncept za razvoj DIVID-a. Ova nova generativna metoda video detekcije može identificirati video generiran difuzijskim modelima.
DIVID radi tako da rekonstruira video i analizira novi rekonstruirani video u usporedbi s izvornim video zapisom. Koristi DIRE vrijednosti za otkrivanje videozapisa generiranih difuzijom budući da metoda funkcionira na hipotezi da bi rekonstruirane slike generirane difuzijskim modelima trebale biti vrlo slične jedna drugoj jer su uzorkovane od distribucije procesa difuzije. Ako postoje značajne izmjene, izvorni je videozapis vjerojatno stvorio čovjek. Ako nije, vjerojatno ga je generirala umjetna inteligencija.
Okvir se temelji na ideji da alati za generiranje umjetne inteligencije stvaraju sadržaj na temelju statističke distribucije velikih skupova podataka, što rezultira sadržajem s više "statističkih sredstava" kao što su distribucije intenziteta piksela, obrasci tekstura i karakteristike šuma u video sličicama, suptilne nedosljednosti, artefakti koji se neprirodno mijenjaju između sličica ili neobične uzorke koji su vjerojatniji u videozapisima generiranim difuzijom nego u stvarnim.
Nasuprot tome, ljudske video kreacije pokazuju individualnost i odstupaju od statističke norme. DIVID je postigao revolucionarnu točnost detekcije do 93,7% za videozapise iz svog referentnog skupa podataka o videozapisima generiranim difuzijom iz Stable Vision Diffusion, Sora, Pika i Gen-2 AI modela.
Istraživači kažu da njihova tehnologija ima potencijal integriranja u obliku dodatka za Zoom za otkrivanje lažnih videopoziva u stvarnom vremenu. Tim također razmatra razvoj web stranice ili dodatka za preglednik kako bi DIVID bio dostupan običnim korisnicima.
Istraživači sada rade na poboljšanju okvira DIVID-a kako bi mogao rukovati različitim vrstama sintetičkih videozapisa iz alata za generiranje videozapisa otvorenog koda.
Istraživački rad, koji uključuje kod i skupove podataka otvorenog koda, predstavljen je na Konferenciji računalnog vida i prepoznavanja uzoraka (CVPR) u Seattleu 18. lipnja 2024. te se može naći na arXiv poslužitelju za preprint putem ove poveznice.
Učitavam komentare ...