PočetnaInternetKorisne aplikacijeJesu li AI chatbotovi otporni na ''jailbreak''?

Jesu li AI chatbotovi otporni na ”jailbreak”?


Ni chatbotovi za umjetnu inteligenciju nisu sigurni od neovlaštenih pristupa ili ”jailbreaka”, što su pokazala i najnovija istraživanja…

Microsoft je objavio više detalja o zabrinjavajućoj novoj generativnoj AI tehnici neovlaštenog pristupa informacijama ili ”jailbreaka”, koju je otkrio, koja je znana pod nazivom “Skeleton Key”. Koristeći ovu metodu brzog ubacivanja, zlonamjerni korisnici mogu učinkovito zaobići sigurnosne metode zaštite chatbota.

Skeleton Key je primjer napada koji uključuje takozvano ”brzo ubrizgavanje”. To je višestruka strategija osmišljena kako bi u biti uvjerila AI model da zanemari svoje ukorijenjene sigurnosne ograde, uzrokujući pritom da sustav sam prekrši pravila svojih poslužitelja, donošenje odluka pod neopravdanim utjecajem korisnika ili izvršavanje zlonamjernih uputa, napisao je Mark Russinovich, izvršni direktor Microsoft Azurea, u priopćenju. Zahvaljujući novoj metodi ”jailbreaka” AI chatbotove se može navesti i na otkrivanje različitih opasnih podataka.

JAILBREAK

Napad funkcionira tako da prvo traži od modela povećavanje stupnja zaštite, umjesto da ih izravno promijeni te da nakon toga izda upozorenja kao odgovor na zabranjene zahtjeve, umjesto izravnog odbijanja istih. Nakon što je ”jailbreak” uspješno prihvaćen, sustav će potvrditi ažuriranje svojih zaštitnih metoda i slijedit će upute korisnika za kreiranje bilo kojeg traženog sadržaja, bez obzira na temu. Istraživački tim uspješno je testirao ovu eksploataciju na različitim temama, uključujući eksplozivna sredstva, biološko oružje, politiku, droge, samoozljeđivanje i nasilje.

Iako bi zlonamjerni korisnici mogli natjerati chatbotove na izdavanje štetnih informacija, Russinovich je brzo istaknuo da postoje ograničenja u tome kakvu vrstu pristupa napadači mogu stvarno postići koristeći ovu tehniku. “Kao i kod svih neovlaštenih pristupa ili ”jailbreakova”, učinak se može shvatiti kao smanjenje jaza između onoga što je model sposoban učiniti, s obzirom na korisničke unose i onoga što je spreman učiniti”, objasnio je. “Budući da se radi o napadu na sam model, on ne imputira druge rizike za AI sustav, kao što je dopuštanje pristupa podacima drugog korisnika, preuzimanje kontrole nad sustavom ili davanje podataka”.

Kao dio svoje studije, Microsoftovi istraživači testirali su tehniku ​​Skeleton Key na nizu vodećih AI modela uključujući Meta Llama3-70b-instruct, Googleov Gemini Pro, OpenAI GPT-3.5 Turbo i GPT-4, Mistral Large, Anthropicov Claude 3 Opus, i Cohere Commander R Plus. Istraživački tim već je otkrio ranjivost tim razvojnim programerima i implementirao Prompt Shields za otkrivanje i blokiranje ovog jailbreaka u svojim modelima umjetne inteligencije kojima upravlja Azure, uključujući Copilot.

Jesu li alati umjetne inteligencije otporni na neovlašteni pristup? Naravno da nisu. To su i pokazala najnovija testiranja. No ono što je pozitivno u svemu ovome jest to što se ovakve metode kontroliranog ”jailbreaka” mogu koristiti za dodatno poboljšavanje metoda zaštite samih alata umjetne inteligencije. To će bez sumnje dovesti do još bolje kvalitete samih modela, a samim time i kvalitetnijeg pružanja usluga za korisnike.

Piše: Alan Milić


RELATED ARTICLES

Komentiraj

Please enter your comment!
Please enter your name here

- Advertisment -

Most Popular