C’è una cosa che, usando un chatbot moderno, dà quasi fastidio: il tono. Anche quando sbaglia, spesso lo fa con una sicurezza da professore in cattedra. Ed è proprio qui che il nuovo lavoro del MIT CSAIL diventa interessante. Non parla dell’ennesimo modello più potente, più veloce o più “intelligente”, ma di qualcosa di molto più concreto: insegnare all’AI a capire quando non dovrebbe essere così convinta della propria risposta.
Il problema non è solo l’allucinazione
Quando si parla di allucinazioni dell’AI, di solito ci si concentra sull’errore: una data inventata, una fonte inesistente, una spiegazione credibile ma falsa. Il punto, però, è che l’errore diventa molto più pericoloso quando viene presentato con sicurezza assoluta.
Secondo i ricercatori del MIT, molti modelli di ragionamento vengono addestrati con sistemi di ricompensa troppo binari: risposta giusta, premio; risposta sbagliata, penalità. Tutto qui. Il problema è che questo schema non distingue tra un modello che ragiona davvero e uno che indovina per fortuna. Nel tempo, il modello impara che conviene comunque rispondere, anche quando le basi sono fragili.
È un difetto sottile, ma decisivo. Perché un’AI che dice “sono sicura al 95%” quando in realtà ha ragione una volta su due non è solo imprecisa: è fuorviante.
Come funziona RLCR
La tecnica presentata dal MIT si chiama RLCR, cioè Reinforcement Learning with Calibration Rewards. In pratica, durante l’addestramento il modello non deve limitarsi a produrre una risposta, ma deve anche stimare quanto è sicuro di quella risposta. La novità sta nella ricompensa: oltre al classico punteggio per la correttezza, viene introdotto il Brier score, una misura usata per valutare quanto una previsione probabilistica sia ben calibrata.
Tradotto: se il modello risponde con grande sicurezza e sbaglia, viene penalizzato. Se invece è troppo incerto su una risposta corretta, viene penalizzato anche lì. L’obiettivo non è creare un’AI timida, che dice sempre “non lo so”, ma un sistema capace di dosare meglio la propria affidabilità.
Nei test citati dal MIT, RLCR ha ridotto l’errore di calibrazione fino al 90%, mantenendo o migliorando l’accuratezza su diversi benchmark, compresi dataset mai visti dal modello durante l’addestramento. Questo è il dettaglio più importante: non si tratta solo di rendere l’AI più prudente, ma di farlo senza renderla meno utile.
Perché questa ricerca conta davvero
La questione non riguarda soltanto chi usa ChatGPT per farsi aiutare con una mail o una ricetta. Nei settori dove le decisioni pesano — medicina, finanza, diritto, ricerca scientifica — sapere quanto fidarsi di una risposta è quasi importante quanto la risposta stessa.
Altri lavori recenti vanno nella stessa direzione: la calibrazione della fiducia, l’astensione e la capacità di segnalare incertezza stanno diventando temi centrali per ridurre le allucinazioni e rendere i modelli meno inclini a “tirare a indovinare”. Alcuni studi parlano proprio del rischio di modelli addestrati come “bravi studenti da test”, spinti a dare sempre una risposta pur di massimizzare il punteggio.
Ed è qui che, da osservatore tech, vedo il cambio di passo. Per anni l’industria ha inseguito soprattutto la performance: più parametri, più benchmark, più velocità. Ora inizia a emergere una domanda più matura: un modello sa riconoscere i propri limiti?
Non è una bacchetta magica
Attenzione però a non vendere questa ricerca come la cura definitiva alle allucinazioni. Un modello ben calibrato può comunque sbagliare. Può stimare male la propria incertezza in domini nuovi, può essere influenzato dal modo in cui viene posta la domanda, può diventare troppo conservativo se il sistema di ricompensa non è bilanciato bene.
Il vero valore di RLCR, almeno oggi, è aprire una strada più credibile: non basta chiedere all’AI “sei sicura?”, perché spesso i modelli sono bravissimi anche a sembrare riflessivi. Serve incorporare questa capacità nel training, non appiccicarla sopra con un prompt gentile.
Cosa cambia davvero
A mio parere questa è una delle direzioni più sane per l’AI dei prossimi anni. Meno spettacolare di una demo con video generativi o agenti autonomi, certo. Ma molto più utile nella vita reale.
Un assistente AI davvero affidabile non dovrebbe solo rispondere bene. Dovrebbe anche saper dire: “qui ho pochi elementi”, “questa risposta è probabile ma non certa”, “meglio verificare”. Può sembrare una piccola sfumatura linguistica, invece è una differenza enorme. Perché la fiducia non nasce da un tono sicuro, nasce dalla capacità di ammettere il dubbio.
FAQ
Che cosa ha sviluppato il MIT?
Il MIT CSAIL ha presentato RLCR, una tecnica di addestramento che aiuta i modelli AI a produrre risposte accompagnate da stime di fiducia più accurate.
Questo elimina le allucinazioni dell’AI?
No. Può ridurre il rischio di risposte sbagliate presentate con troppa sicurezza, ma non rende i modelli infallibili.
Perché è importante che un’AI dica “non lo so”?
Perché in molti contesti l’utente non deve solo ricevere una risposta, ma capire quanto quella risposta sia affidabile. Una buona stima dell’incertezza rende l’AI più trasparente e meno pericolosa.





