Google svela le misure di sicurezza per l’intelligenza artificiale generativa
- 1 Google svela le misure di sicurezza per l’intelligenza artificiale generativa
- 2 Strategie di difesa stratificate
- 3 Modelli di apprendimento automatico e salvaguardie di sistema
- 4 Misure di sicurezza avanzate
- 5 Conferma utente e notifiche di mitigazione
- 6 La sfida delle iniezioni di prompt indirette
Google ha recentemente rivelato le diverse misure di sicurezza che sta integrando nei suoi sistemi di intelligenza artificiale generativa (AI) per mitigare le nuove minacce come le iniezioni di prompt indirette e migliorare la sicurezza complessiva dei sistemi AI agentici. A differenza delle iniezioni di prompt dirette, dove un attaccante inserisce direttamente comandi malevoli in un prompt, le iniezioni di prompt indirette coinvolgono istruzioni malevole nascoste all’interno di fonti di dati esterne.
Strategie di difesa stratificate
Queste fonti esterne possono assumere la forma di messaggi email, documenti o persino inviti a eventi nel calendario, che ingannano i sistemi AI inducendoli a esfiltrare dati sensibili o a compiere altre azioni malevole. Il colosso tecnologico ha implementato una strategia di difesa “stratificata” progettata per aumentare la difficoltà, il costo e la complessità necessari per portare a termine un attacco contro i suoi sistemi.
Modelli di apprendimento automatico e salvaguardie di sistema
Questi sforzi comprendono il rafforzamento del modello, l’introduzione di modelli di apprendimento automatico (ML) appositamente costruiti per individuare istruzioni malevole e salvaguardie a livello di sistema. Inoltre, le capacità di resilienza del modello sono completate da una serie di ulteriori barriere di sicurezza integrate in Gemini, il modello GenAI di punta dell’azienda.
Misure di sicurezza avanzate
Tra queste misure troviamo i classificatori di contenuti per iniezioni di prompt, capaci di filtrare le istruzioni malevole per generare risposte sicure. Il rinforzo del pensiero sulla sicurezza inserisce marcatori speciali nei dati non affidabili (ad esempio, email) per garantire che il modello si allontani da istruzioni avversarie, se presenti, una tecnica chiamata spotlighting. La sanitizzazione del markdown e la redazione di URL sospetti utilizzano Google Safe Browsing per rimuovere URL potenzialmente malevoli e impiegano un sanitizzatore di markdown per prevenire il rendering di URL di immagini esterne, prevenendo così difetti come EchoLeak.
Conferma utente e notifiche di mitigazione
Il framework di conferma utente richiede la conferma dell’utente per completare azioni rischiose. Le notifiche di mitigazione della sicurezza per l’utente finale coinvolgono l’avviso agli utenti riguardo alle iniezioni di prompt. Tuttavia, Google ha sottolineato che gli attori malevoli stanno sempre più utilizzando attacchi adattivi progettati specificamente per evolversi e adattarsi con il red teaming automatizzato (ART) per bypassare le difese testate, rendendo inefficaci le mitigazioni di base.
La sfida delle iniezioni di prompt indirette
Le iniezioni di prompt indirette rappresentano una vera sfida per la sicurezza informatica, dove i modelli AI a volte faticano a distinguere tra istruzioni genuine degli utenti e comandi manipolativi incorporati nei dati che recuperano. Google DeepMind ha osservato che la robustezza contro le iniezioni di prompt indirette richiederà difese in profondità, imposte a ogni livello di uno stack di sistemi AI, dal modo in cui un modello può nativamente comprendere quando viene attaccato, attraverso il livello applicativo, fino alle difese hardware sull’infrastruttura di servizio.
Questi sviluppi emergono mentre nuove ricerche continuano a trovare varie tecniche per bypassare le protezioni di sicurezza di un modello di linguaggio di grandi dimensioni (LLM).
Fonte: The Hackers News
Ricevi le ultime attualità sul mondo tech!