MIT
Istraživači poboljšavaju periferni vid u AI modelima
Omogućujući modelima da vide svijet kao ljudi, rad bi mogao pomoći u poboljšanju sigurnosti vozača i rasvijetliti ljudsko ponašanje.
Periferni vid omogućuje ljudima da vide oblike koji nisu izravno u našem vidnom polju, iako s manje detalja. Ova sposobnost proširuje naše vidno polje i može biti od pomoći u mnogim situacijama, kao što je otkrivanje vozila koje se približava našem automobilu sa strane.
Za razliku od ljudi, umjetna inteligencija nema periferni vid. Opremanje modela računalnog vida ovom sposobnošću moglo bi im pomoći da učinkovitije otkriju opasnosti koje se približavaju ili da predvide hoće li ljudski vozač primijetiti nadolazeći objekt.
Poduzimajući korak u tom smjeru, istraživači američkog Instituta za tehnologiju u Massachusetsu MIT-a, razvili su skup slikovnih podataka koji im omogućuje simulaciju perifernog vida u modelima strojnog učenja. Otkrili su da su modeli za obuku s ovim skupom podataka poboljšali sposobnost AI-a da detektira objekte na vizualnoj periferiji, iako su modeli i dalje imali lošije rezultate od ljudi.
Njihovi rezultati također su otkrili da, za razliku od ljudi, niti veličina objekata niti količina vizualnog nereda u sceni nisu imali snažan utjecaj na performanse umjetne inteligencije.
“Ovdje se događa nešto fundamentalno. Testirali smo toliko različitih modela, a čak i kad ih treniramo, postaju malo bolji, ali nisu baš kao ljudi. Dakle, pitanje je: Što nedostaje ovim modelima?” kaže Vasha DuTell, postdoktorandica i koautorica rada koji detaljno opisuje ovu studiju.
Odgovor na to pitanje mogao bi pomoći istraživačima da izgrade modele strojnog učenja koji mogu vidjeti svijet više kao ljudi. Osim poboljšanja sigurnosti vozača, takvi bi se modeli mogli koristiti za razvoj zaslona koji je ljudima lakši za gledanje.
Za točniji pristup, istraživači MIT-a započeli su s tehnikom koja se koristi za modeliranje perifernog vida kod ljudi. Poznata kao model popločavanja teksture, ova metoda transformira slike tako da predstavljaju ljudski gubitak vizualnih informacija.
Modificirali su ovaj model kako bi mogao transformirati slike na sličan način, ali na fleksibilniji način koji ne zahtijeva unaprijed poznavanje kamo će osoba ili umjetna inteligencija usmjeriti svoje oči.
Istraživači su koristili ovu modificiranu tehniku za generiranje ogromnog skupa podataka transformiranih slika koje izgledaju teksturalnije u određenim područjima, kako bi predstavile gubitak detalja koji se događa kada čovjek gleda dalje u periferiju.
Zatim su koristili skup podataka za treniranje nekoliko modela računalnog vida i usporedili njihovu izvedbu s onom ljudi na zadatku otkrivanja objekata.
Ljudima i modelima prikazani su parovi transformiranih slika koje su bile identične, osim što je jedna slika imala ciljni objekt smješten na periferiji. Zatim je svaki sudionik zamoljen da odabere sliku s ciljnim objektom.
“Jedna stvar koja nas je stvarno iznenadila je koliko su ljudi dobri u otkrivanju objekata na svojoj periferiji. Prošli smo kroz najmanje 10 različitih skupova slika koje su bile jednostavno prejednostavne. Stalno smo morali koristiti sve manje i manje predmete”.
Istraživači su otkrili da je obuka modela od nule s njihovim skupom podataka dovela do najvećih poboljšanja performansi, poboljšavajući njihovu sposobnost otkrivanja i prepoznavanja objekata. Fino ugađanje modela s njihovim skupom podataka, proces koji uključuje ugađanje prethodno obučenog modela kako bi mogao izvršiti novi zadatak, rezultiralo je manjim dobicima u izvedbi.
Ali u svakom slučaju, strojevi nisu bili tako dobri kao ljudi, a posebno su bili loši u otkrivanju objekata na dalekoj periferiji. Njihova izvedba također nije slijedila iste obrasce kao ljudska.
To bi moglo sugerirati da modeli ne koriste kontekst na isti način na koji ljudi rade ove zadatke otkrivanja. Strategija modela može biti drugačija.
Istraživači planiraju nastaviti istraživati te razlike, s ciljem pronalaska modela koji može predvidjeti ljudsku izvedbu na vizualnoj periferiji. To bi moglo omogućiti sustave umjetne inteligencije koji upozoravaju vozače na opasnosti koje možda ne vide, na primjer. Također se nadaju da će inspirirati druge istraživače da provedu dodatne studije računalnog vida sa svojim javno dostupnim skupom podataka.
Čitavu studiju možete pronaći na ovoj poveznici.
Učitavam komentare ...