University of Texas at Austin
AI pretvara zvučne zapise u slike ulica
Koristeći generativnu umjetnu inteligenciju, istraživači su pretvorili zvukove iz audio snimaka u točne slike s prikaza ulica.
Koristeći generativnu umjetnu inteligenciju, tim istraživača sa Sveučilišta Texas u Austinu pretvorio je zvukove iz audio snimaka u slike s prikaza ulice. Vizualna točnost ovih generiranih slika pokazuje da računala mogu replicirati ljudsku vezu između audio i vizualne percepcije okoline.
U radu objavljenom u časopisu Computers, Environment and Urban Systems, istraživački tim opisuje treniranje AI modela zvuka u sliku pomoću audio i vizualnih podataka prikupljenih iz raznih urbanih i ruralnih uličnih pejzaža, a zatim korištenje tog modela za generiranje slika iz audio snimaka.
Koristeći YouTube video i audio iz gradova u Sjevernoj Americi, Aziji i Europi, tim je stvorio parove audio isječaka od 10 sekundi i fotografija s raznih lokacija i upotrijebio ih za treniranje AI modela koji može proizvesti slike visoke rezolucije iz audio ulaza. Zatim su usporedili AI kreacije zvuka u slike napravljene od 100 audio isječaka s njihovim fotografijama iz stvarnog svijeta, koristeći ljudske i računalne procjene. Računalne procjene uspoređivale su relativne omjere zelenila, zgrada i neba između izvornih i generiranih slika, dok su ljudski "suci" zamoljeni da ispravno usklade jednu od tri generirane slike s audio uzorkom.
Rezultati su pokazali jake korelacije u omjerima neba i zelenila između generiranih slika i slika iz stvarnog svijeta te nešto manju korelaciju u proporcijama zgrada, a ljudski sudionici u prosjeku su imali 80% točnosti u odabiru generiranih slika koje su odgovarale izvornim audio uzorcima.
Uz približne proporcije neba, zelenila i zgrada, generirane slike često su održavale arhitektonske stilove i udaljenosti između objekata svojih slika iz stvarnog svijeta, kao i točan prikaz jesu li zvučni krajolici snimljeni tijekom sunčanih, oblačnih ili noćnih svjetlosnih uvjeta. Autori primjećuju da informacije o osvjetljenju mogu potjecati od varijacija aktivnosti u zvučnim pejzažima. Na primjer, zvukovi prometa ili cvrkut noćnih insekata mogu otkriti doba dana. Takva opažanja unapređuju razumijevanje načina na koji multisenzorni čimbenici doprinose našem doživljaju mjesta.
"Kada zatvorite oči i slušate, zvukovi oko vas stvaraju slike u vašem umu", rekao je Yuhao Kang, asistent profesora geografije i okoliša na UT-u i koautor studije. "Na primjer, udaljeno brujanje prometa postaje užurbani gradski pejzaž, dok vas nježno šuštanje lišća uvodi u mirnu šumu. Svaki zvuk tka živopisnu tapiseriju prizora, kao čarolijom, u kazalištu vaše mašte."
Kangov rad usmjeren je na korištenje geoprostorne umjetne inteligencije za proučavanje interakcije ljudi s njihovim okruženjima. U drugom nedavnom radu objavljenom u časopisu Nature, on i njegovi suautori ispitali su potencijal umjetne inteligencije da uhvati karakteristike koje gradovima daju njihov jedinstveni identitet.
Učitavam komentare ...