Carnegie Mellon University

Zatvori

Istraživanje kako AI percipira ljudske ruke

Jedna od najtežih stvari za računalni vid je rekonstrukcija 3D modela ljudskih ruku.

Natjerati sustave umjetne inteligencije da robusno percipiraju ljude ostaje jedan od najsloženijih izazova u računalnom vidu. 3D rekonstrukcija ruke iz jedne RGB slike posebno je izazovna zbog artikuliranih pokreta, samookluzije i interakcije s objektima. Postojeće SOTA metode koriste transformatore temeljene na pažnji za učenje 3D poze i oblika ruku, ali ne uspijevaju postići robusnu i točnu izvedbu zbog nedovoljnog modeliranja zajedničkih prostornih odnosa.

Na Institutu za robotiku Sveučilišta Carnegie Mellon, istraživači su izradili novi model po imenu Hamba, koji nudi posebno zanimljiv pristup rekonstrukciji 3D ruku iz jedne slike, ne zahtijevajući nikakvo prethodno poznavanje specifikacija kamere ili konteksta tijela osobe.

Ono što izdvaja Hambu je njezino odstupanje od konvencionalnih arhitektura temeljenih na transformatorima. Umjesto toga, koristi modeliranje prostora stanja temeljeno na arhitekturi dubokog učenja Mambi, što je prvi put da je takav pristup primijenjen na artikuliranu 3D rekonstrukciju oblika. Model također poboljšava Mambin originalni proces skeniranja uvođenjem dvosmjernog skeniranja vođenog grafikonom, koje koristi mogućnosti učenja grafikona Graph Neural Networks za snimanje prostornih odnosa između zglobova šake s izuzetnom preciznošću.

Hamba postiže najsuvremeniju izvedbu na mjerilima kao što je FreiHAND, sa srednjom pogreškom položaja po vrhu od samo 5,3 milimetra, što je preciznost koja naglašava njegov potencijal za aplikacije u stvarnom svijetu.

Osim svojih tehničkih dostignuća, Hamba ima šire implikacije na interakciju između ljudi i računala, omogućavanjem strojevima da bolje percipiraju i tumače ljudske ruke, postavlja temelje za buduće sustave opće umjetne inteligencije (AGI) i robote koji su sposobni razumjeti ljudske emocije i namjere s više nijansi.

Istraživački tim se sada planira pozabaviti ograničenjima modela dok istražuje njegov potencijal za rekonstrukciju 3D ljudskih modela cijelog tijela iz pojedinačnih slika, još jedan važan izazov sa širokom primjenom u industrijama, od zdravstvene zaštite do zabave.