HomeIAAddestrare i modelli di linguaggio a depurare autonomamente il proprio linguaggio

Addestrare i modelli di linguaggio a depurare autonomamente il proprio linguaggio

Man mano che maturiamo dall’infanzia, il nostro vocabolario — così come i modi in cui lo utilizziamo — si espande, e le nostre esperienze diventano più ricche, permettendoci di pensare, ragionare e interagire con gli altri con specificità e intenzione. Di conseguenza, le nostre scelte di parole si evolvono per allinearsi ai nostri valori personali, etica, norme culturali e punti di vista. Nel tempo, la maggior parte di noi sviluppa una sorta di “guida” interna che ci consente di comprendere il contesto dietro una conversazione; spesso ci indirizza anche a evitare di condividere informazioni e sentimenti che sono, o potrebbero essere, dannosi o inappropriati.

Modelli di linguaggio e moderazione

Si scopre che i modelli di linguaggio di grandi dimensioni (LLM) — addestrati su ampi dataset pubblici e quindi spesso con pregiudizi e linguaggio tossico incorporati — possono acquisire una capacità simile di moderare il proprio linguaggio. Un nuovo metodo sviluppato dal MIT, dal MIT-IBM Watson AI Lab e da IBM Research, chiamato self-disciplined autoregressive sampling (SASA), consente agli LLM di detossificare i propri output senza sacrificare la fluidità. A differenza di altri metodi di detossificazione, questo algoritmo di decodifica apprende un confine tra sottospazi tossici e non tossici all’interno della rappresentazione interna dell’LLM, senza alterare i parametri del modello, la necessità di riaddestramento o un modello di ricompensa esterno.

Il processo di inferenza

Durante l’inferenza, l’algoritmo valuta il valore di tossicità della frase parzialmente generata: i token (parole) già generati e accettati, insieme a ciascun nuovo token potenziale che potrebbe essere ragionevolmente scelto per la vicinanza al confine del classificatore. Successivamente, seleziona un’opzione di parola che colloca la frase nello spazio non tossico, offrendo infine un modo rapido ed efficiente per generare un linguaggio meno tossico.

Valori umani e generazione di linguaggio

“Volevamo scoprire un modo con qualsiasi modello di linguaggio esistente [che], durante il processo di generazione, la decodifica potesse essere soggetta a valori umani; l’esempio qui che stiamo prendendo è la tossicità,” afferma l’autrice principale dello studio Ching-Yun “Irene” Ko PhD ’24, ex stagista laureata presso il MIT-IBM Watson AI Lab e attuale ricercatrice presso il Thomas J. Watson Research Center di IBM a New York. I coautori di Ko includono Luca Daniel, professore nel Dipartimento di Ingegneria Elettrica e Informatica del MIT (EECS), membro del MIT-IBM Watson AI Lab e consulente di laurea di Ko; e diversi membri del MIT-IBM Watson AI Lab e/o IBM Research — Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury e Tejaswini Pedapati. Il lavoro sarà presentato alla International Conference on Learning Representations.

Alla ricerca dei guardrail

Le risorse di addestramento dietro gli LLM includono quasi sempre contenuti raccolti da spazi pubblici come internet e altri dataset facilmente disponibili. Di conseguenza, parolacce e linguaggio offensivo o sgradevole sono una componente, sebbene parte di esso sia nel contesto di opere letterarie. Ne consegue quindi che gli LLM possono innatamente produrre — o essere indotti a generare — contenuti pericolosi e/o pregiudizievoli, che spesso contengono parole sgradevoli o odiose.

 

Fonte: MIT

Per saperne di più

foto credit: Photo: AdobeStock

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia, della buona musica e dello sport, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso. Mi dedico per passione anche a scrivere pronostici sportivi dettagliati anche grazie all'analisi approfondita delle statistiche, grazie all'IA.
TI POTREBBERO INTERESSARE

ARTICOLI CONSIGLIATI

Earth-2 NVIDIA

NVIDIA Earth-2: i nuovi modelli AI meteo promettono previsioni...

Negli Stati Uniti, in queste ore, una grossa tempesta invernale sta mettendo in crisi la solita routine: apri l’app meteo, guardi la previsione, poi apri un’altra app… e trovi numeri diversi, spesso lontani tra loro. È il tipo di scenario che ti ricorda quanto la meteorologia, anche nel 2026, resti una scienza difficile da “impacchettare” in una notifica.In mezzo a questo caos, NVIDIA ha scelto un timing quasi perfetto per presentare la sua nuova famiglia di modelli AI per il meteo, parte del progetto Earth-2. E qui la notizia non è solo “una big tech fa un modello”. È un salto di ambizione: NVIDIA parla di strumenti aperti, più veloci, e con performance che — almeno sulla carta — mettono pressione anche ai nomi grossi già in campo.
Gemini 3 Pro

Gemini 3 Pro: l’intelligenza artificiale di Google entra in...

Con il rilascio di Gemini 3 Pro, Google ha fatto un passo deciso verso un’intelligenza artificiale più “umana” — capace non solo di rispondere,...
Claude AI Logo

Anthropic presenta Claude Sonnet 4.5: nuovo modello avanzato per...

Anthropic ha appena lanciato Claude Sonnet 4.5, evoluzione importante della serie Sonnet che mira a spingere oltre i limiti ciò che i modelli AI...
Logo Chat GPT

ChatGPT diventa negozio: arriva Instant Checkout

OpenAI ha introdotto Instant Checkout, una funzione che consente agli utenti di acquistare articoli direttamente all’interno di ChatGPT, senza uscire dall’interfaccia. Per ora, il...