sabato, 22 Febbraio 2025
spot_imgspot_imgspot_imgspot_img
HomeIACome i cervelli umani, i grandi modelli linguistici elaborano dati diversi in...

Come i cervelli umani, i grandi modelli linguistici elaborano dati diversi in modo generale

Modelli di linguaggio e il loro funzionamento

I modelli di linguaggio di grandi dimensioni (LLM) moderni sono in grado di svolgere una vasta gamma di compiti su diversi tipi di dati. Ad esempio, possono comprendere molte lingue, generare codice informatico, risolvere problemi matematici o rispondere a domande su immagini e audio. I ricercatori del MIT hanno esplorato il funzionamento interno degli LLM per capire meglio come elaborano dati così diversi, trovando somiglianze con il cervello umano.

Il cervello umano e il “hub semantico”

I neuroscienziati ritengono che il cervello umano abbia un “hub semantico” nel lobo temporale anteriore, che integra informazioni semantiche da varie modalità, come dati visivi e input tattili. Questo hub semantico è collegato a “raggi” specifici per modalità che indirizzano le informazioni all’hub. I ricercatori del MIT hanno scoperto che gli LLM utilizzano un meccanismo simile, elaborando astrattamente i dati da diverse modalità in un modo centralizzato e generalizzato.

Interventi nel “hub semantico” dei LLM

Un modello che ha l’inglese come lingua dominante si affida a questa lingua come mezzo centrale per elaborare input in giapponese o ragionare su aritmetica, codice informatico, ecc. Inoltre, i ricercatori dimostrano che possono intervenire nell’hub semantico di un modello utilizzando il testo nella lingua dominante del modello per modificare i suoi output, anche quando il modello sta elaborando dati in altre lingue.

Implicazioni per il futuro degli LLM

Queste scoperte potrebbero aiutare gli scienziati a formare futuri LLM in grado di gestire meglio dati diversi. “Gli LLM sono grandi scatole nere. Hanno raggiunto prestazioni molto impressionanti, ma abbiamo pochissima conoscenza dei loro meccanismi interni. Spero che questo possa essere un primo passo per capire meglio come funzionano, in modo da poterli migliorare e controllare meglio quando necessario”, afferma Zhaofeng Wu, studente laureato in ingegneria elettrica e informatica (EECS) e autore principale di un articolo su questa ricerca.

Collaborazioni e presentazioni

I co-autori di Wu includono Xinyan Velocity Yu, studente laureato presso l’Università della California del Sud (USC); Dani Yogatama, professore associato presso USC; Jiasen Lu, scienziato ricercatore presso Apple; e l’autore senior Yoon Kim, professore assistente di EECS al MIT e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL). La ricerca sarà presentata alla International Conference on Learning Representations.

Integrazione di dati diversi

I ricercatori hanno basato il nuovo studio su lavori precedenti che suggerivano che gli LLM centrati sull’inglese utilizzano l’inglese per eseguire processi di ragionamento su varie lingue. Wu e i suoi collaboratori hanno ampliato questa idea, avviando uno studio approfondito sui meccanismi che gli LLM utilizzano per elaborare dati diversi.

Meccanismi di elaborazione degli LLM

Un LLM, composto da molti strati interconnessi, divide il testo di input in parole o sotto-parole chiamate token. Il modello assegna una rappresentazione a ciascun token, che gli consente di esplorare le relazioni tra i token e generare la parola successiva in una sequenza. Nel caso di immagini o audio, questi token corrispondono a particolari regioni di un’immagine o sezioni di un clip audio.

 

Fonte: MIT

articolo originale

foto credit: Credit: MIT News, iStock

Ricevi le ultime attualità sul mondo tech!

Salvatore Macrì
Salvatore Macrìhttps://sotutto.it
Amante della tecnologia, della buona musica e della SEO, scrivo articoli per puro divertmento e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
RELATED ARTICLES

Ultimi articoli