martedì, 9 Dicembre 2025
HomeIAAddestrare i modelli di linguaggio a depurare autonomamente il proprio linguaggio

Addestrare i modelli di linguaggio a depurare autonomamente il proprio linguaggio

Man mano che maturiamo dall’infanzia, il nostro vocabolario — così come i modi in cui lo utilizziamo — si espande, e le nostre esperienze diventano più ricche, permettendoci di pensare, ragionare e interagire con gli altri con specificità e intenzione. Di conseguenza, le nostre scelte di parole si evolvono per allinearsi ai nostri valori personali, etica, norme culturali e punti di vista. Nel tempo, la maggior parte di noi sviluppa una sorta di “guida” interna che ci consente di comprendere il contesto dietro una conversazione; spesso ci indirizza anche a evitare di condividere informazioni e sentimenti che sono, o potrebbero essere, dannosi o inappropriati.

Modelli di linguaggio e moderazione

Si scopre che i modelli di linguaggio di grandi dimensioni (LLM) — addestrati su ampi dataset pubblici e quindi spesso con pregiudizi e linguaggio tossico incorporati — possono acquisire una capacità simile di moderare il proprio linguaggio. Un nuovo metodo sviluppato dal MIT, dal MIT-IBM Watson AI Lab e da IBM Research, chiamato self-disciplined autoregressive sampling (SASA), consente agli LLM di detossificare i propri output senza sacrificare la fluidità. A differenza di altri metodi di detossificazione, questo algoritmo di decodifica apprende un confine tra sottospazi tossici e non tossici all’interno della rappresentazione interna dell’LLM, senza alterare i parametri del modello, la necessità di riaddestramento o un modello di ricompensa esterno.

Il processo di inferenza

Durante l’inferenza, l’algoritmo valuta il valore di tossicità della frase parzialmente generata: i token (parole) già generati e accettati, insieme a ciascun nuovo token potenziale che potrebbe essere ragionevolmente scelto per la vicinanza al confine del classificatore. Successivamente, seleziona un’opzione di parola che colloca la frase nello spazio non tossico, offrendo infine un modo rapido ed efficiente per generare un linguaggio meno tossico.

Valori umani e generazione di linguaggio

“Volevamo scoprire un modo con qualsiasi modello di linguaggio esistente [che], durante il processo di generazione, la decodifica potesse essere soggetta a valori umani; l’esempio qui che stiamo prendendo è la tossicità,” afferma l’autrice principale dello studio Ching-Yun “Irene” Ko PhD ’24, ex stagista laureata presso il MIT-IBM Watson AI Lab e attuale ricercatrice presso il Thomas J. Watson Research Center di IBM a New York. I coautori di Ko includono Luca Daniel, professore nel Dipartimento di Ingegneria Elettrica e Informatica del MIT (EECS), membro del MIT-IBM Watson AI Lab e consulente di laurea di Ko; e diversi membri del MIT-IBM Watson AI Lab e/o IBM Research — Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury e Tejaswini Pedapati. Il lavoro sarà presentato alla International Conference on Learning Representations.

Alla ricerca dei guardrail

Le risorse di addestramento dietro gli LLM includono quasi sempre contenuti raccolti da spazi pubblici come internet e altri dataset facilmente disponibili. Di conseguenza, parolacce e linguaggio offensivo o sgradevole sono una componente, sebbene parte di esso sia nel contesto di opere letterarie. Ne consegue quindi che gli LLM possono innatamente produrre — o essere indotti a generare — contenuti pericolosi e/o pregiudizievoli, che spesso contengono parole sgradevoli o odiose.

 

Fonte: MIT

Per saperne di più

foto credit: Photo: AdobeStock

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia, della buona musica e della SEO, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
ARTICOLI CORRELATI

ARTICOLI CONSIGLIATI

Gemini 3 Pro

Gemini 3 Pro: l’intelligenza artificiale di Google entra in...

Con il rilascio di Gemini 3 Pro, Google ha fatto un passo deciso verso un’intelligenza artificiale più “umana” — capace non solo di rispondere,...
Claude AI Logo

Anthropic presenta Claude Sonnet 4.5: nuovo modello avanzato per...

Anthropic ha appena lanciato Claude Sonnet 4.5, evoluzione importante della serie Sonnet che mira a spingere oltre i limiti ciò che i modelli AI...
Logo Chat GPT

ChatGPT diventa negozio: arriva Instant Checkout

OpenAI ha introdotto Instant Checkout, una funzione che consente agli utenti di acquistare articoli direttamente all’interno di ChatGPT, senza uscire dall’interfaccia. Per ora, il...

Perché i minuscoli cervelli delle api potrebbero essere la...

Una nuova scoperta sul volo delle api e il suo impatto sull'intelligenza artificiale Una recente ricerca dell'Università di Sheffield ha rivelato come le api utilizzino...