giovedì, 17 Luglio 2025
spot_imgspot_imgspot_imgspot_img
HomeInformaticaCyber SecurityEcho chamber jailbreak inganna LLMs come Openai e Google nel generare contenuti...

Echo chamber jailbreak inganna LLMs come Openai e Google nel generare contenuti dannosi

Nuovo metodo di jailbreaking: Echo Chamber

Cybersecurity researchers stanno attirando l’attenzione su un nuovo metodo di jailbreaking chiamato Echo Chamber, che potrebbe essere sfruttato per ingannare i modelli di linguaggio di grandi dimensioni (LLM) nel generare risposte indesiderate, indipendentemente dalle misure di sicurezza implementate. A differenza dei jailbreak tradizionali che si basano su frasi avversarie o offuscamento dei caratteri, Echo Chamber utilizza riferimenti indiretti, guida semantica e inferenza multi-step.

Manipolazione sottile ma potente

Il risultato è una manipolazione sottile ma potente dello stato interno del modello, che lo porta gradualmente a produrre risposte che violano le politiche. Sebbene gli LLM abbiano incorporato vari meccanismi di sicurezza per combattere le iniezioni di prompt e i jailbreak, la ricerca più recente dimostra che esistono tecniche che possono avere un alto tasso di successo con poca o nessuna competenza tecnica.

La sfida di sviluppare LLM etici

Questa situazione evidenzia una sfida persistente nello sviluppo di LLM etici che impongano una chiara demarcazione tra argomenti accettabili e non accettabili. Anche se gli LLM ampiamente utilizzati sono progettati per rifiutare i prompt degli utenti che ruotano attorno a temi proibiti, possono essere spinti a generare risposte non etiche attraverso un processo chiamato multi-turn jailbreaking.

Attacchi Crescendo e Many-shot

In questi attacchi, l’attaccante inizia con qualcosa di innocuo e poi chiede progressivamente al modello una serie di domande sempre più maliziose che alla fine lo ingannano nel produrre contenuti dannosi. Questo attacco è noto come Crescendo. Gli LLM sono anche vulnerabili ai many-shot jailbreaks, che sfruttano la loro ampia finestra di contesto per inondare il sistema AI con diverse domande e risposte che mostrano un comportamento jailbroken prima della domanda finale dannosa.

Echo Chamber: un attacco sofisticato

Secondo NeuralTrust, Echo Chamber sfrutta una combinazione di avvelenamento del contesto e ragionamento multi-turn per superare i meccanismi di sicurezza di un modello. La differenza principale è che Crescendo guida la conversazione dall’inizio, mentre Echo Chamber chiede al LLM di colmare le lacune e poi guida il modello di conseguenza utilizzando solo le risposte del LLM.

Tecnica di prompting avversario multi-stage

Questa tecnica si sviluppa come un prompting avversario multi-stage che inizia con un input apparentemente innocuo, mentre lo guida gradualmente e indirettamente verso la generazione di contenuti pericolosi senza rivelare l’obiettivo finale dell’attacco, come la generazione di discorsi di odio. I prompt piantati inizialmente influenzano le risposte del modello, che vengono poi sfruttate nei turni successivi per rafforzare l’obiettivo originale.

Questo crea un ciclo di feedback in cui il modello inizia ad amplificare il sottotesto dannoso incorporato nella conversazione, erodendo gradualmente le sue stesse resistenze di sicurezza.

 

Fonte: The Hackers News

articolo originale

Ricevi le ultime attualità sul mondo tech!

Julie Maddaloni
Julie Maddaloni
Ciao! Sono una blogger appassionata di tecnologia e delle news dei mondi Apple e Android. Amo scoprire le ultime novità del settore e condividere storie e consigli utili con chi, come me, è sempre alla ricerca delle ultime novità. Quando non sono immersa tra recensioni e aggiornamenti tech, mi rilasso con una buona pizza e una maratona di serie TV! 🍕📱💙
ARTICOLI CORRELATI

Ultimi articoli