MIT

Zatvori

Slijepe točke modela računalnog vida

Istraživači bioraznolikosti testirali su vizualne sustave koliko dobro mogu dohvatiti relevantne slike prirode.

Pokušajte fotografirati svaku od otprilike 11.000 vrsta drveća u Sjevernoj Americi i imat ćete samo djelić od milijuna fotografija u skupovima podataka o prirodi. Ove goleme zbirke snimaka, u rasponu od leptira do grbavih kitova, odličan su istraživački alat za ekologe jer pružaju dokaze o jedinstvenom ponašanju organizama, rijetkim uvjetima, obrascima migracije i reakcijama na zagađenje i druge oblike klimatskih promjena.

Iako su sveobuhvatni, skupovi podataka slika prirode još nisu toliko korisni koliko bi mogli biti, jer je pretraživati te baze podataka i dohvaćati slike koje su najrelevantnije za vašu hipotezu jako dugotrajno.

Bilo bi vam bolje s automatiziranim istraživačkim pomoćnikom, ili sustavima umjetne inteligencije koji se nazivaju multimodalni vision language modeli (VLM-ovi) koji su uvježbani i na tekstu i na slikama, što im olakšava uočavanje sitnijih detalja, poput određenih stabala u pozadini fotografije.

Tim s američkog Instituta za tehnologiju iz Massachusettsa MIT, iz Laboratorija za računalnu znanost i umjetnu inteligenciju (CSAIL), Sveučilišnog koledža u Londonu i organizacije iNaturalist, osmislio je test performansi za svaki VLM u lociranju i reorganiziranju najrelevantnijih rezultata unutar skupa podataka "INQUIRE" tima, sastavljenog od 5 milijuna slika divljih životinja i 250 upita za pretraživanje od strane ekologa i drugih stručnjaka za biološku raznolikost.

U tim procjenama istraživači su otkrili da veći, napredniji VLM-ovi, koji su uvježbani na mnogo više podataka, ponekad istraživačima mogu dati rezultate koje žele vidjeti. Modeli su imali prilično dobre rezultate na jednostavnim upitima o vizualnom sadržaju, kao što je prepoznavanje krhotina na grebenu, ali su imali velike probleme s upitima koji zahtijevaju stručno znanje, kao što je prepoznavanje specifičnih bioloških stanja ili ponašanja.

Na primjer, VLM-ovi su donekle lako otkrili primjere meduza na plaži, ali su se borili s više tehničkih upita poput "aksantizma kod zelene žabe", stanja koje ograničava njihovu sposobnost da im koža postane žuta.

Njihova otkrića pokazuju da modeli trebaju mnogo više podataka za obuku specifičnih za domenu za obradu teških upita. Doktorand MIT-a, Edward Vendrow, koji je sudjelovao u radu na skupu podataka u novom radu , vjeruje da bi VLM-ovi jednog dana mogli biti izvrsni pomoćnici u istraživanju, upoznavanjem s više informativnih podataka.

"Želimo izgraditi sustave pretraživanja koji pronalaze točne rezultate koje znanstvenici traže pri praćenju bioraznolikosti i analizi klimatskih promjena", kaže Vendrow. "Multimodalni modeli još uvijek ne razumiju složeniji znanstveni jezik, ali vjerujemo da će INQUIRE biti važno mjerilo za praćenje kako se poboljšavaju u razumijevanju znanstvene terminologije i u konačnici pomaže istraživačima da automatski pronađu točne slike koje im trebaju."

Eksperimenti tima pokazali su da su veći modeli uglavnom bili učinkovitiji i za jednostavnija i za složenija pretraživanja zbog opsežnih podataka za obuku. Prvo su upotrijebili skup podataka INQUIRE kako bi testirali mogu li VLM-ovi suziti skup od 5 milijuna slika na prvih 100 najrelevantnijih rezultata. Za jednostavne upite pretraživanja kao što je "greben sa strukturama koje je napravio čovjek i ostacima", relativno veliki modeli poput" SigLIP-a pronašli su podudarne slike, dok su CLIP modeli manje veličine imali problema. Prema Vendrowu, veći VLM-ovi tek počinju biti korisni pri rangiranju težih upita.

Vendrow i njegovi kolege također su procijenili koliko dobro multimodalni modeli mogu ponovno rangirati tih 100 rezultata, reorganizirajući koje su slike najrelevantnije za pretragu. U ovim testovima, čak su i veliki LLM-ovi poput GPT-4o, imali problema. Njegov rezultat preciznosti iznosio je samo 59,6 posto, što je najveći rezultat postignut od strane bilo kojeg modela.

Istraživači su ove rezultate predstavili na Konferenciji o sustavima obrade neuronskih informacija NeurIPS i u svojem radu objavljenom ovdje.

Unapređujući svoj projekt, istraživači rade s iNaturalistom na razvoju sustava upita koji će bolje pomoći znanstvenicima i drugim znatiželjnicima da pronađu slike koje zapravo žele vidjeti. Njihov radni demo omogućuje korisnicima filtriranje pretraživanja prema vrstama, omogućujući brže otkrivanje relevantnih rezultata poput, recimo, različitih boja očiju mačaka.

Vendrow i jedan od glavnih autora Omiros Pantazis, koji je nedavno doktorirao na Sveučilišnom koledžu u Londonu, također imaju za cilj poboljšati sustav ponovnog rangiranja povećanjem postojećih modela kako bi se osigurali bolji rezultati.