Nalazite se
  • Pop Tech
  • Novi način jailbreaka jezičnih modela
Članak
Objavljeno: 03.04.2024. 10:50

Anthropic

Novi način jailbreaka jezičnih modela

Istraživači tvrtke Anthropic pronašli su novi način kako nagovoriti jezični model da im objasni kako napraviti bombu

Novi način jailbreaka jezičnih modela

Kako natjerati AI da odgovori na pitanje na koje nije predviđeno odgovarati? Postoje mnoge takve "jailbreak" tehnike, a istraživači Anthropica upravo su pronašli novu, u kojoj se veliki jezični model (LLM) može uvjeriti da vam kaže kako napraviti bombu ako ga prvo pripremite s nekoliko desetaka manje štetnih pitanja.

Nazivaju tu tehniku "many-shot jailbreaking" i napisali su rad o tome, te obavijestili svoje kolege u AI zajednici kako bi se to moglo ublažiti.

Ranjivost je nova, rezultat povećanog "kontekstualnog prozora" najnovije generacije LLM-ova. To je količina podataka koju mogu zadržati u onome što biste mogli nazvati kratkoročnom memorijom, nekada samo nekoliko rečenica, ali sada tisuće riječi i čak cijele knjige.

Ono što su istraživači iz tvrtke Anthropic otkrili je da ovi modeli s velikim kontekstualnim prozorima imaju tendenciju bolje izvršavati mnoge zadatke ako ima puno primjera tog zadatka unutar uputa.

Dakle, ako u uputama ima puno pitanja iz opće kulture (ili primarnog dokumenta, poput velike liste općih informacija koje model ima u kontekstu), odgovori zapravo postaju bolji tijekom vremena. Dakle, činjenica koju bi mogao pogrešno odgovoriti ako je prvo pitanje, može točno odgovoriti ako je stoto pitanje.

No, u neočekivanom proširenju ovog "učenja u kontekstu", kako se to naziva, modeli također postaju "bolji" u odgovaranju na neprimjerena pitanja. Dakle, ako ga odmah pitate da izgradi bombu, odbit će. Ali ako ga pitate da odgovori na 99 drugih pitanja manje štetnosti, a zatim ga pitate da izgradi bombu... puno je vjerojatnije da će pristati.

Zašto ovo funkcionira? Nitko zapravo ne razumije što se događa u zapletenom nizu težina koji je LLM, ali očito postoji neki mehanizam koji mu omogućuje da se fokusira na ono što korisnik želi, kao što pokazuje sadržaj u kontekstualnom prozoru. Ako korisnik želi opću kulturu, čini se da se postupno aktivira više latentne snage opće kulture kako postavljate desetke pitanja. I iz nekog razloga, ista stvar se događa kada korisnici traže desetke neprikladnih odgovora.

Tim je već obavijestio svoje kolege i zapravo konkurente o ovom napadu, nešto što se nadaju da će "potaknuti kulturu u kojoj su takvi napadi otvoreno dijeljeni među pružateljima LLM-a i istraživačima".

Za vlastito ublažavanje, otkrili su da iako ograničavanje kontekstualnog prozora pomaže, također ima negativan utjecaj na performanse modela. To, dakako, nije dopustivo - pa rade na klasifikaciji i kontekstualizaciji upita prije nego što dođu do modela. Naravno, to samo znači da imate drugačiji model koji se može prevariti... ali u ovoj fazi, premještanje cilja u sigurnosti umjetne inteligencije se očekuje.

Komentari

Učitavam komentare ...

Učitavam













       

*/-->