Disney Research
VIDEO: AI zna kako zvuči tramvaj
Softver za prepoznavanje slika i videa uskoro će vam moći reći kakve zvukove stvaraju objekti.
Mada kažu da slika govori tisuću riječi, zvuk je podjednako važan za doživljaj svijeta koji gledamo. Znanstvenici Disney Researcha stoga razvijaju sustav računalnog vida koji ne samo što prepoznaje objekte na slikama, već zna i kako zvuče.
Na Europskoj konferenciji računalnog vida, znanstvenici su demonstrirali svoj AI koji je u stanju upariti zvukove sa slikama i videom različitih objekata i događanja poput zatvaranja vrata, istjecanja vode, rada usisavača, automobila, tramvaja, kao što možete vidjeti (i čuti) u ovom videu.
Povezivanje zvuka s objektima ljudima je vrlo jednostavna stvar, no učenje računala o tome predstavlja veliki izazov, pa su znanstvenici Disney Researcha uvježbavali AI za prepoznavanje zvukova na taj način da su mu dali kolekciju videa u kojoj se demonstrira objekt koji stvara specifični zvuk. Na taj način AI je naučio dodjeljivati zvukove određenim objektima, no ukoliko se u zvuku nalazi pozadinska buka, naracija ili zvuk koji dolazi od drugih objekata lako se zbuni. Stoga kažu da je zasad najučinkovitiji u prepoznavanju izoliranog filtriranog zvuka, a ponekad ima poteškoća i s razlikovanjem nekih zvukova, pa mu se recimo zna pomiješati tramvaj i auto.
Disney ovo audio prepoznavanje prikaza razvija s osnovnom idejom da se pomoću umjetne inteligencije olakša dodavanje zvučnih efekata u video tijekom produkcije, no kažu da bi tehnologija također mogla koristiti kao pomoć vizualno hendikepiranim osoba kreiranjem personaliziranog sustava za "slušanje" objekata koji se nalaze na računalnom zaslonu.
Učitavam komentare ...