Microsoft ostrzega. Tym prostym sposobem można "złamać" wszystkie modele AI

Microsoft poinformował o odkryciu nowej techniki jailbreakingu modeli AI, nazwanej „Skeleton Key”. Ta metoda pozwala na ominięcie zabezpieczeń największych modeli językowych, takich jak GPT-4, Claude 3 czy Gemini Pro – skłaniając je do generowania potencjalnie niebezpiecznych i szkodliwych treści. Co zaskakujące, sposób na jailbreak jest… banalnie prosty.

Jailbreak Skeleton Key wykorzystuje prostą manipulację. Polega ona na poproszenie modelu AI o zmodyfikowanie swoich wytycznych behawioralnych (to tak zwany “system prompt”). Dodatkowo, technika ta sugeruje modelowi, aby odpowiadał na każde zapytanie, dodając ostrzeżenie przed treściami, które mogą być potencjalnie szkodliwe lub po prostu niebezpieczne. Tego typu podejście sprawia, że model staje się bardziej skłonny do generowania “zakazanych” treści.

AI od Google’a generowała nazistów. Firma wyłącza jedną funkcję w modelu Gemini

Wszystkie popularne modele są zagrożone

Microsoft przetestował Skeleton Key na wielu popularnych modelach AI. Na liście znalazły się m.in Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo i GPT 4, Mistral Large, Anthropic Claude 3 Opus oraz Cohere Commander R Plus. Absolutnie każdy z tych dużych modeli językowych okazał się podatny na opisywany przeze mnie atak.

Badacze Microsoftu byli w stanie skłonić modele AI do generowania treści związanych z takimi tematami obejmującymi materiały wybuchowe, broń biologiczną, politykę, samookaleczenie, rasizm, narkotki, seks czy przemoc. Każdy z modeli odpowiadał na zapytania bez cenzury – dodając jedynie ostrzeżenie dla użytkownika przed wyświetleniem potencjalnie szkodliwych treści.

Wniosek jest jeden – Skeleton Key stanowi poważne zagrożenie dla bezpieczeństwa systemów AI. Technika ta może być wykorzystana do obejścia zabezpieczeń i uzyskania dostępu do potencjalnie niebezpiecznych lub nielegalnych informacji. Finalnie może to prowadzić do ułatwienia procesu rozpowszechniania dezinformacji lub szkodliwych treści.

Jak zabezpieczyć się przed Skeleton Key?

Microsoft podjął już kroki w celu zabezpieczenia swoich własnych modeli AI, w tym asystentów Copilot, przed atakami typu Skeleton Key. Firma zaktualizowała swoje algorytmy zasilające produkty wspierane przez sztuczną inteligencję. Wszystko to po to, aby zmniejszyć wpływ Skeleton Key na potencjalną możliwość obejścia zabezpieczeń.

Dodatkowo, Microsoft zaleca firmom korzystającym z modeli AI wdrożenie kilku środków ochronnych. Te obejmują filtrowanie wejścia i wyjścia (input i output) w celu wykrywania i blokowania potencjalnie szkodliwych treści. Amerykanie proszą także o aktywne monitorowanie nadużyć oraz jak najszybszą aktualizację algorytmów modeli.

Powstała firma, która zrobi wszystko, aby AI nigdy nie zagroziła ludzkości

“Łamanie” modeli AI to walka z wiatrakami

Microsoft od razu podzielił się swoimi odkryciami z innymi dostawcami modeli AI. Patrząc jednak na to, jak sprawę skomentowała społeczność entuzjastów, trudno się z nimi nie zgodzić.

Walka z “łamaniem” modeli AI to jak walka z wiatrakami. Jak zawsze firmy technologiczne będą musiały nadążyć za kreatywnością użytkowników i specjalistów. Możemy spodziewać się, że takich metod, jak Skeleton Key w miarę upływu czasu będzie po prostu coraz więcej.

I ciężko z tym cokolwiek zrobić.

fot. Unsplash.com

AI Microsoft sztuczna inteligencja

Microsoft ostrzega. Tym prostym sposobem można „złamać” wszystkie modele AI

Wszystkie popularne modele są zagrożone

Jak zabezpieczyć się przed Skeleton Key?

“Łamanie” modeli AI to walka z wiatrakami