HomeIACome i cervelli umani, i grandi modelli linguistici elaborano dati diversi in...

Come i cervelli umani, i grandi modelli linguistici elaborano dati diversi in modo generale

Mentre i primi modelli linguistici erano limitati all’elaborazione del testo, i moderni modelli linguistici di grandi dimensioni (LLM) sono in grado di gestire una vasta gamma di compiti su diversi tipi di dati. Questi modelli avanzati possono comprendere molte lingue, generare codice informatico, risolvere problemi matematici e persino rispondere a domande su immagini e audio.

Un gruppo di ricercatori del MIT ha esplorato il funzionamento interno degli LLM per comprendere meglio come questi modelli elaborano dati così diversi. Hanno scoperto che esistono somiglianze con il cervello umano. I neuroscienziati suggeriscono che il cervello umano possiede un “hub semantico” nel lobo temporale anteriore, che integra informazioni semantiche da varie modalità, come dati visivi e input tattili. Questo hub è collegato a “raggi” specifici della modalità che indirizzano le informazioni verso di esso.

Analogamente, i ricercatori del MIT hanno scoperto che gli LLM utilizzano un meccanismo simile, elaborando in modo astratto i dati provenienti da diverse modalità in modo centralizzato e generalizzato. Ad esempio, un modello con l’inglese come lingua dominante potrebbe utilizzare l’inglese come mezzo centrale per elaborare input in giapponese o per ragionare su aritmetica e codice informatico.

Inoltre, i ricercatori hanno dimostrato che è possibile intervenire nel centro semantico di un modello utilizzando il testo nella lingua dominante del modello per modificare le sue uscite, anche quando il modello elabora dati in altre lingue. Questo approccio ha portato a prestazioni molto impressionanti, ma c’è ancora molto da scoprire sui meccanismi interni di questi modelli.

“Spero che questo possa essere un primo passo per capire meglio come funzionano, in modo da poterli migliorare e controllare meglio quando necessario”, afferma Zhaofeng Wu, studente laureato in ingegneria elettrica e informatica (EECS) e autore principale di un articolo su questa ricerca. I suoi coautori includono Xinyan Velocity Yu, studente laureato presso l’Università della California del Sud (USC); Dani Yogatama, professore associato presso l’USC; Jiasen Lu, ricercatore scientifico di Apple; e l’autore senior Yoon Kim, assistente professore di EECS al MIT e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL).

Fonte: Science Daily

Per saperne di più

Salvatore Macrì
Salvatore Macrìhttps://it.linkedin.com/in/salmacri
Amante della tecnologia, della buona musica e dello sport, scrivo articoli per passione e per delucidare delle tematiche legate alla vita quotidiana per rendere questo mondo meno complicato. Sensibile ai temi ambientali e strenue sostenitore di una "green revolution" che nasca dal basso. Mi dedico per passione anche a scrivere pronostici sportivi dettagliati anche grazie all'analisi approfondita delle statistiche, grazie all'IA.
TI POTREBBERO INTERESSARE

ARTICOLI CONSIGLIATI

Earth-2 NVIDIA

NVIDIA Earth-2: i nuovi modelli AI meteo promettono previsioni...

Negli Stati Uniti, in queste ore, una grossa tempesta invernale sta mettendo in crisi la solita routine: apri l’app meteo, guardi la previsione, poi apri un’altra app… e trovi numeri diversi, spesso lontani tra loro. È il tipo di scenario che ti ricorda quanto la meteorologia, anche nel 2026, resti una scienza difficile da “impacchettare” in una notifica.In mezzo a questo caos, NVIDIA ha scelto un timing quasi perfetto per presentare la sua nuova famiglia di modelli AI per il meteo, parte del progetto Earth-2. E qui la notizia non è solo “una big tech fa un modello”. È un salto di ambizione: NVIDIA parla di strumenti aperti, più veloci, e con performance che — almeno sulla carta — mettono pressione anche ai nomi grossi già in campo.
Gemini 3 Pro

Gemini 3 Pro: l’intelligenza artificiale di Google entra in...

Con il rilascio di Gemini 3 Pro, Google ha fatto un passo deciso verso un’intelligenza artificiale più “umana” — capace non solo di rispondere,...
Claude AI Logo

Anthropic presenta Claude Sonnet 4.5: nuovo modello avanzato per...

Anthropic ha appena lanciato Claude Sonnet 4.5, evoluzione importante della serie Sonnet che mira a spingere oltre i limiti ciò che i modelli AI...
Logo Chat GPT

ChatGPT diventa negozio: arriva Instant Checkout

OpenAI ha introdotto Instant Checkout, una funzione che consente agli utenti di acquistare articoli direttamente all’interno di ChatGPT, senza uscire dall’interfaccia. Per ora, il...