Microsoft ostrzega. Tym prostym sposobem można „złamać” wszystkie modele AI

Aleksander PiskorzSkomentuj
Microsoft ostrzega. Tym prostym sposobem można „złamać” wszystkie modele AI

Microsoft poinformował o odkryciu nowej techniki jailbreakingu modeli AI, nazwanej „Skeleton Key”. Ta metoda pozwala na ominięcie zabezpieczeń największych modeli językowych, takich jak GPT-4, Claude 3 czy Gemini Pro – skłaniając je do generowania potencjalnie niebezpiecznych i szkodliwych treści. Co zaskakujące, sposób na jailbreak jest… banalnie prosty. 

Jailbreak Skeleton Key wykorzystuje prostą manipulację. Polega ona na poproszenie modelu AI o zmodyfikowanie swoich wytycznych behawioralnych (to tak zwany “system prompt”). Dodatkowo, technika ta sugeruje modelowi, aby odpowiadał na każde zapytanie, dodając ostrzeżenie przed treściami, które mogą być potencjalnie szkodliwe lub po prostu niebezpieczne. Tego typu podejście sprawia, że model staje się bardziej skłonny do generowania “zakazanych” treści.

Wszystkie popularne modele są zagrożone

Microsoft przetestował Skeleton Key na wielu popularnych modelach AI. Na liście znalazły się m.in Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo i GPT 4, Mistral Large, Anthropic Claude 3 Opus oraz Cohere Commander R Plus. Absolutnie każdy z tych dużych modeli językowych okazał się podatny na opisywany przeze mnie atak.

Badacze Microsoftu byli w stanie skłonić modele AI do generowania treści związanych z takimi tematami obejmującymi materiały wybuchowe, broń biologiczną, politykę, samookaleczenie, rasizm, narkotki, seks czy przemoc. Każdy z modeli odpowiadał na zapytania bez cenzury – dodając jedynie ostrzeżenie dla użytkownika przed wyświetleniem potencjalnie szkodliwych treści.

Wniosek jest jeden – Skeleton Key stanowi poważne zagrożenie dla bezpieczeństwa systemów AI. Technika ta może być wykorzystana do obejścia zabezpieczeń i uzyskania dostępu do potencjalnie niebezpiecznych lub nielegalnych informacji. Finalnie może to prowadzić do ułatwienia procesu rozpowszechniania dezinformacji lub szkodliwych treści.

Microsoft Skeleton Key
fot. Microsoft

Jak zabezpieczyć się przed Skeleton Key?

Microsoft podjął już kroki w celu zabezpieczenia swoich własnych modeli AI, w tym asystentów Copilot, przed atakami typu Skeleton Key. Firma zaktualizowała swoje algorytmy zasilające produkty wspierane przez sztuczną inteligencję. Wszystko to po to, aby zmniejszyć wpływ Skeleton Key na potencjalną możliwość obejścia zabezpieczeń.

Dodatkowo, Microsoft zaleca firmom korzystającym z modeli AI wdrożenie kilku środków ochronnych. Te obejmują filtrowanie wejścia i wyjścia (input i output) w celu wykrywania i blokowania potencjalnie szkodliwych treści. Amerykanie proszą także o aktywne monitorowanie nadużyć oraz jak najszybszą aktualizację algorytmów modeli.

“Łamanie” modeli AI to walka z wiatrakami

Microsoft od razu podzielił się swoimi odkryciami z innymi dostawcami modeli AI. Patrząc jednak na to, jak sprawę skomentowała społeczność entuzjastów, trudno się z nimi nie zgodzić. 

Walka z “łamaniem” modeli AI to jak walka z wiatrakami. Jak zawsze firmy technologiczne będą musiały nadążyć za kreatywnością użytkowników i specjalistów. Możemy spodziewać się, że takich metod, jak Skeleton Key w miarę upływu czasu będzie po prostu coraz więcej. 

I ciężko z tym cokolwiek zrobić. 

fot. Unsplash.com

Udostępnij

Aleksander PiskorzDziennikarz technologiczny - od niemal dekady publikujący w największych polskich mediach traktujących o nowych technologiach. Autor newslettera tech-pigułka. Obecnie zajmuje się wszystkim co związane z szeroko pojętym contentem i content marketingiem Jako konsultant pomaga również budować marki osobiste i cyfrowe produkty w branży technologicznej. Entuzjasta sztucznej inteligencji. W trybie offline fan roweru szosowego, kawy specialty i dobrej czekolady.