EchoSpeech

Zatvori

AI naočale mogu prepoznati neizgovorene riječi

Nove naočale omogućuju kontinuirano prepoznavanje do 31 nevokalizirane naredbe, na temelju pokreta usana i usta.

Glasovne komande u pametnim telefonima, naočalama i drugim gadgetima su cool stvar, ali ponekad nam ne odgovara da baš svi oko nas čuju komande koje izgovaramo. Pored toga često nam ne odgovara ni da svi čuju naš telefonski razgovor.

Znanstvenici Sveučilišta Cornell iz SciFi Laba stoga su razvili EchoSpeech naočale za prepoznavanje govora koje koriste akustični senzor i umjetnu inteligenciju za kontinuirano prepoznavanje do 31 nevokalizirane naredbe, na temelju pokreta usana i usta.

Nosivo sučelje male snage zahtijeva samo nekoliko minuta korisničkih podataka za obuku prije nego što prepozna naredbe i može se pokrenuti na pametnom telefonu, kažu istraživači.

Naočale je razvio Ruidong Zhang , doktorand na polju informacijskih znanosti koji kaže: "Za ljude koji ne mogu vokalizirati zvuk, ova tehnologija tihog govora mogla bi biti izvrstan ulaz za glasovni sintetizator. To bi moglo pacijentima vratiti njihov glas".

U svom sadašnjem obliku, EchoSpeech bi se mogao koristiti za komunikaciju s drugima putem pametnog telefona na mjestima gdje je govor nezgodan ili neprikladan, poput bučnog restorana ili tihe knjižnice. Sučelje za tihi govor također se može upariti s pisaljkom i koristiti sa softverom za dizajn kao što je CAD, bez potrebe za tipkovnicom i mišem.

Opremljene parom mikrofona i zvučnicima manjim od gumica za brisanje, EchoSpeech naočale postaju nosivi sonarni sustav pokretan umjetnom inteligencijom, koji šalje i prima zvučne valove preko lica i osjeća pokrete usta. Algoritam dubokog učenja, koji su također razvili istraživači SciFi Laba, zatim analizira te profile odjeka u stvarnom vremenu, s približno 95% točnosti.

"Premještamo sonar na tijelo", rekao je Cheng Zhang, "jer stvarno gura naprijed polje performansi i privatnosti. Mali je, niske potrošnje energije i osjetljiv na privatnost, a sve su to značajke važne za implementaciju novih, nosivih tehnologija u stvarnom svijetu."

Tehnologija akustičnog senzora kao što je EchoSpeech uklanja potrebu za nosivim video kamerama. Budući da su audio podaci mnogo manji od slikovnih ili video podataka, zahtijevaju manju propusnost za obradu i mogu se prenijeti na pametni telefon putem Bluetootha u stvarnom vremenu, rekao je François Guimbretière, profesor informacijskih znanosti u Cornell Bowers CIS i koautor studije. "A budući da se podaci obrađuju lokalno na vašem pametnom telefonu umjesto da se prenose u oblak, informacije osjetljive na privatnost nikada ne napuštaju vašu kontrolu."

Trajanje baterije također se eksponencijalno poboljšava, rekao je Cheng Zhang. Deset sati s akustičnim senzorom naspram 30 minuta s kamerom.

U predstojećem radu, istraživači SciFi Laba istražuju aplikacije pametnih naočala za praćenje pokreta lica, očiju i gornjeg dijela tijela.

Čitavu studiju koja će biti predstavljena na konferenciji Udruženja za računalne strojeve o ljudskim faktorima u računalnim sustavima (CHI) ovog mjeseca u Hamburgu, možete pronaći na ovoj poveznici.