martedì, 15 Aprile 2025
spot_imgspot_imgspot_imgspot_img
HomeIAAddestrare i modelli di linguaggio a depurare autonomamente il proprio linguaggio

Addestrare i modelli di linguaggio a depurare autonomamente il proprio linguaggio

Man mano che maturiamo dall’infanzia, il nostro vocabolario — così come i modi in cui lo utilizziamo — si espande, e le nostre esperienze diventano più ricche, permettendoci di pensare, ragionare e interagire con gli altri con specificità e intenzione. Di conseguenza, le nostre scelte di parole si evolvono per allinearsi ai nostri valori personali, etica, norme culturali e punti di vista. Nel tempo, la maggior parte di noi sviluppa una sorta di “guida” interna che ci consente di comprendere il contesto dietro una conversazione; spesso ci indirizza anche a evitare di condividere informazioni e sentimenti che sono, o potrebbero essere, dannosi o inappropriati.

Modelli di linguaggio e moderazione

Si scopre che i modelli di linguaggio di grandi dimensioni (LLM) — addestrati su ampi dataset pubblici e quindi spesso con pregiudizi e linguaggio tossico incorporati — possono acquisire una capacità simile di moderare il proprio linguaggio. Un nuovo metodo sviluppato dal MIT, dal MIT-IBM Watson AI Lab e da IBM Research, chiamato self-disciplined autoregressive sampling (SASA), consente agli LLM di detossificare i propri output senza sacrificare la fluidità. A differenza di altri metodi di detossificazione, questo algoritmo di decodifica apprende un confine tra sottospazi tossici e non tossici all’interno della rappresentazione interna dell’LLM, senza alterare i parametri del modello, la necessità di riaddestramento o un modello di ricompensa esterno.

Il processo di inferenza

Durante l’inferenza, l’algoritmo valuta il valore di tossicità della frase parzialmente generata: i token (parole) già generati e accettati, insieme a ciascun nuovo token potenziale che potrebbe essere ragionevolmente scelto per la vicinanza al confine del classificatore. Successivamente, seleziona un’opzione di parola che colloca la frase nello spazio non tossico, offrendo infine un modo rapido ed efficiente per generare un linguaggio meno tossico.

Valori umani e generazione di linguaggio

“Volevamo scoprire un modo con qualsiasi modello di linguaggio esistente [che], durante il processo di generazione, la decodifica potesse essere soggetta a valori umani; l’esempio qui che stiamo prendendo è la tossicità,” afferma l’autrice principale dello studio Ching-Yun “Irene” Ko PhD ’24, ex stagista laureata presso il MIT-IBM Watson AI Lab e attuale ricercatrice presso il Thomas J. Watson Research Center di IBM a New York. I coautori di Ko includono Luca Daniel, professore nel Dipartimento di Ingegneria Elettrica e Informatica del MIT (EECS), membro del MIT-IBM Watson AI Lab e consulente di laurea di Ko; e diversi membri del MIT-IBM Watson AI Lab e/o IBM Research — Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury e Tejaswini Pedapati. Il lavoro sarà presentato alla International Conference on Learning Representations.

Alla ricerca dei guardrail

Le risorse di addestramento dietro gli LLM includono quasi sempre contenuti raccolti da spazi pubblici come internet e altri dataset facilmente disponibili. Di conseguenza, parolacce e linguaggio offensivo o sgradevole sono una componente, sebbene parte di esso sia nel contesto di opere letterarie. Ne consegue quindi che gli LLM possono innatamente produrre — o essere indotti a generare — contenuti pericolosi e/o pregiudizievoli, che spesso contengono parole sgradevoli o odiose.

 

Fonte: MIT

articolo originale

foto credit: Photo: AdobeStock

Ricevi le ultime attualità sul mondo tech!

Salvatore Macrì
Salvatore Macrìhttps://sotutto.it
Amante della tecnologia, della buona musica e della SEO, scrivo articoli per puro divertmento e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
RELATED ARTICLES

Ultimi articoli