venerdì, 21 Febbraio 2025
spot_imgspot_imgspot_imgspot_img
HomeIACome i cervelli umani, i grandi modelli linguistici elaborano dati diversi in...

Come i cervelli umani, i grandi modelli linguistici elaborano dati diversi in modo generale

Mentre i primi modelli linguistici erano limitati all’elaborazione del testo, i moderni modelli linguistici di grandi dimensioni (LLM) sono in grado di gestire una vasta gamma di compiti su diversi tipi di dati. Questi modelli avanzati possono comprendere molte lingue, generare codice informatico, risolvere problemi matematici e persino rispondere a domande su immagini e audio.

Un gruppo di ricercatori del MIT ha esplorato il funzionamento interno degli LLM per comprendere meglio come questi modelli elaborano dati così diversi. Hanno scoperto che esistono somiglianze con il cervello umano. I neuroscienziati suggeriscono che il cervello umano possiede un “hub semantico” nel lobo temporale anteriore, che integra informazioni semantiche da varie modalità, come dati visivi e input tattili. Questo hub è collegato a “raggi” specifici della modalità che indirizzano le informazioni verso di esso.

Analogamente, i ricercatori del MIT hanno scoperto che gli LLM utilizzano un meccanismo simile, elaborando in modo astratto i dati provenienti da diverse modalità in modo centralizzato e generalizzato. Ad esempio, un modello con l’inglese come lingua dominante potrebbe utilizzare l’inglese come mezzo centrale per elaborare input in giapponese o per ragionare su aritmetica e codice informatico.

Inoltre, i ricercatori hanno dimostrato che è possibile intervenire nel centro semantico di un modello utilizzando il testo nella lingua dominante del modello per modificare le sue uscite, anche quando il modello elabora dati in altre lingue. Questo approccio ha portato a prestazioni molto impressionanti, ma c’è ancora molto da scoprire sui meccanismi interni di questi modelli.

“Spero che questo possa essere un primo passo per capire meglio come funzionano, in modo da poterli migliorare e controllare meglio quando necessario”, afferma Zhaofeng Wu, studente laureato in ingegneria elettrica e informatica (EECS) e autore principale di un articolo su questa ricerca. I suoi coautori includono Xinyan Velocity Yu, studente laureato presso l’Università della California del Sud (USC); Dani Yogatama, professore associato presso l’USC; Jiasen Lu, ricercatore scientifico di Apple; e l’autore senior Yoon Kim, assistente professore di EECS al MIT e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL).

Fonte: Science Daily

articolo originale

Ricevi le ultime attualità sul mondo tech!

Salvatore Macrì
Salvatore Macrìhttps://sotutto.it
Amante della tecnologia, della buona musica e della SEO, scrivo articoli per puro divertmento e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso.
RELATED ARTICLES

Ultimi articoli