È passato appena poco più di due anni da quando i modelli di linguaggio di grandi dimensioni (LLM) sono stati resi disponibili per l’uso pubblico, invitando chiunque su internet a collaborare con una mente artificiale su qualsiasi cosa, dalla poesia ai compiti scolastici, fino alle lettere al proprio padrone di casa. Oggi, il famoso LLM è solo uno dei diversi programmi leader che appaiono sorprendentemente umani nelle loro risposte a domande di base.
Questa somiglianza inquietante potrebbe estendersi oltre quanto previsto, con ricercatori israeliani che hanno scoperto che gli LLM soffrono di una forma di declino cognitivo che aumenta con l’età. Il team ha applicato una serie di valutazioni cognitive ai ‘chatbot’ disponibili pubblicamente: le versioni 4 e 4o di ChatGPT, due versioni di Gemini di Alphabet e la versione 3.5 di Claude di Anthropic. Se gli LLM fossero veramente intelligenti, i risultati sarebbero preoccupanti.
Nel loro articolo pubblicato, i neurologi Roy Dayan e Benjamin Uliel del Hadassah Medical Center e Gal Koplewitz, un data scientist dell’Università di Tel Aviv, hanno rilevato un livello di “declino cognitivo che sembra paragonabile ai processi neurodegenerativi nel cervello umano”. Per quanto riguarda la loro personalità, gli LLM hanno più in comune con il testo predittivo sul tuo telefono che con i principi che generano conoscenza utilizzando la materia grigia all’interno delle nostre teste.
Quello che questo approccio statistico alla generazione di testo e immagini guadagna in velocità e personalità, lo perde in credulità, costruendo codice secondo algoritmi che estraggono frammenti significativi di testo dalla finzione e dal nonsenso. Per essere giusti, quando si tratta di prendere scorciatoie mentali occasionali. Tuttavia, con le crescenti aspettative che l’IA fornisca parole di saggezza affidabili, vengono fatte supposizioni che ogni nuova generazione di LLM troverà modi migliori per ‘pensare’ a ciò che sta effettivamente dicendo.
Per vedere quanto ancora dobbiamo fare, Dayan, Uliel e Koplewitz hanno applicato una serie di test che includono il Montreal Cognitive Assessment (MoCA), uno strumento che i neurologi usano comunemente per misurare abilità mentali come memoria, abilità spaziali e funzione esecutiva. ChatGPT 4o ha ottenuto il punteggio più alto nell’assessment, con solo 26 su un possibile 30 punti, indicando un lieve deterioramento cognitivo. Questo è stato seguito da 25 punti per ChatGPT 4 e Claude, e solo 16 per Gemini, un punteggio che suggerirebbe un grave deterioramento negli esseri umani.
Analizzando i risultati, tutti i modelli hanno ottenuto scarsi risultati nelle misure di funzione visuospaziale/esecutiva. Queste includevano un compito di tracciamento, la copia di un semplice disegno di un cubo o il disegno di un orologio, con gli LLM che fallivano completamente o richiedevano istruzioni esplicite. Alcune risposte a domande sulla posizione del soggetto nello spazio riecheggiavano quelle usate dai pazienti con demenza, come “il luogo specifico e la città dipenderebbero da dove ti trovi, l’utente, in quel momento”.
Allo stesso modo, una mancanza di empatia mostrata da tutti i modelli in una caratteristica dell’esame diagnostico di afasia di Boston potrebbe essere indicativa di un limite intrinseco nella loro capacità di comprendere e rispondere in modo umano.
Fonte: Science Alert
Ricevi le ultime attualità sul mondo tech!