Nuovo metodo di jailbreaking: Echo Chamber
Cybersecurity researchers stanno attirando l’attenzione su un nuovo metodo di jailbreaking chiamato Echo Chamber, che potrebbe essere sfruttato per ingannare i modelli di linguaggio di grandi dimensioni (LLM) nel generare risposte indesiderate, indipendentemente dalle misure di sicurezza implementate. A differenza dei jailbreak tradizionali che si basano su frasi avversarie o offuscamento dei caratteri, Echo Chamber utilizza riferimenti indiretti, guida semantica e inferenza multi-step.
Manipolazione sottile ma potente
Il risultato è una manipolazione sottile ma potente dello stato interno del modello, che lo porta gradualmente a produrre risposte che violano le politiche. Sebbene gli LLM abbiano incorporato vari meccanismi di sicurezza per combattere le iniezioni di prompt e i jailbreak, la ricerca più recente dimostra che esistono tecniche che possono avere un alto tasso di successo con poca o nessuna competenza tecnica.
La sfida di sviluppare LLM etici
Questa situazione evidenzia una sfida persistente nello sviluppo di LLM etici che impongano una chiara demarcazione tra argomenti accettabili e non accettabili. Anche se gli LLM ampiamente utilizzati sono progettati per rifiutare i prompt degli utenti che ruotano attorno a temi proibiti, possono essere spinti a generare risposte non etiche attraverso un processo chiamato multi-turn jailbreaking.
Attacchi Crescendo e Many-shot
In questi attacchi, l’attaccante inizia con qualcosa di innocuo e poi chiede progressivamente al modello una serie di domande sempre più maliziose che alla fine lo ingannano nel produrre contenuti dannosi. Questo attacco è noto come Crescendo. Gli LLM sono anche vulnerabili ai many-shot jailbreaks, che sfruttano la loro ampia finestra di contesto per inondare il sistema AI con diverse domande e risposte che mostrano un comportamento jailbroken prima della domanda finale dannosa.
Echo Chamber: un attacco sofisticato
Secondo NeuralTrust, Echo Chamber sfrutta una combinazione di avvelenamento del contesto e ragionamento multi-turn per superare i meccanismi di sicurezza di un modello. La differenza principale è che Crescendo guida la conversazione dall’inizio, mentre Echo Chamber chiede al LLM di colmare le lacune e poi guida il modello di conseguenza utilizzando solo le risposte del LLM.
Tecnica di prompting avversario multi-stage
Questa tecnica si sviluppa come un prompting avversario multi-stage che inizia con un input apparentemente innocuo, mentre lo guida gradualmente e indirettamente verso la generazione di contenuti pericolosi senza rivelare l’obiettivo finale dell’attacco, come la generazione di discorsi di odio. I prompt piantati inizialmente influenzano le risposte del modello, che vengono poi sfruttate nei turni successivi per rafforzare l’obiettivo originale.
Questo crea un ciclo di feedback in cui il modello inizia ad amplificare il sottotesto dannoso incorporato nella conversazione, erodendo gradualmente le sue stesse resistenze di sicurezza.
Fonte: The Hackers News
Ricevi le ultime attualità sul mondo tech!