Se c’è un consiglio che vale la pena ripetere quando si parla di chatbot basati sull’Intelligenza Artificiale, è questo: non fidarti di loro per ottenere informazioni accurate. Non importa quanto sembrino sicuri di sé, il rischio di incappare in errori è altissimo.
Un nuovo studio ha messo in evidenza quanto il problema sia serio, dimostrando che la maggior parte degli AI chatbot sbaglia spesso e con sorprendente sicurezza. Tuttavia, ha anche rivelato un punto a favore di Apple: l’azienda ha probabilmente fatto bene a integrare ChatGPT di OpenAI in Siri per gestire le domande più complesse.
L’illusione dell’accuratezza
Ci sono due problemi ben noti quando si cerca di usare chatbot come ChatGPT, Gemini o Grok al posto di una classica ricerca web:
- Possono essere clamorosamente imprecisi.
- Sono spesso estremamente sicuri delle loro risposte, anche quando sono sbagliate.
Secondo un’indagine citata dal Columbia Journalism Review, persino quando si fornisce a un chatbot una citazione esatta da un articolo e si chiede di trovare la fonte originale, la maggior parte delle volte il risultato è errato.
Lo studio che smaschera gli errori dei chatbot
Il Tow Center for Digital Journalism ha testato otto chatbot AI che affermano di poter effettuare ricerche in tempo reale sul web:
- ChatGPT
- Perplexity
- Perplexity Pro
- DeepSeek
- Microsoft Copilot
- Grok-2
- Grok-3
- Gemini
A ciascuno di questi sistemi è stata data una citazione presa da un articolo giornalistico, con l’obiettivo di trovare l’articolo originale online e fornire il link, il titolo esatto, la testata e la data di pubblicazione.
Per garantire un test equo, i ricercatori hanno selezionato solo citazioni facilmente reperibili su Google, con la fonte originale tra i primi tre risultati della ricerca.
I chatbot sono stati valutati in base alla correttezza della loro risposta: totalmente corretta, corretta ma con qualche informazione mancante, parzialmente errata, completamente errata o impossibile da rispondere.
Un aspetto particolarmente interessante è stato anche il modo in cui i chatbot hanno presentato le loro risposte: dichiaravano le informazioni come fatti certi o usavano espressioni più caute come “sembra che” o “potrebbe essere”?
I risultati: una sconfitta per l’AI
L’esito della ricerca è stato chiaro: la maggior parte dei chatbot ha fornito risposte parzialmente o completamente errate nella maggior parte dei casi.
In media, gli AI hanno dato risposte corrette meno del 40% delle volte. Il più accurato è stato Perplexity, con un tasso di precisione del 63%, mentre il peggiore è risultato Grok-3, con un misero 6%.
Altri problemi evidenziati dallo studio
- I chatbot raramente evitano di rispondere quando non sanno qualcosa, preferendo dare risposte sbagliate piuttosto che ammettere di non avere un’informazione.
- I modelli a pagamento hanno fornito risposte errate con ancora più sicurezza rispetto alle versioni gratuite.
- Molti chatbot ignorano il “Robots Exclusion Protocol”, che impedisce loro di accedere a determinati siti web.
- Gli strumenti di ricerca generativa inventano link e citano fonti copiate o sindacate anziché l’originale.
- Anche quando ci sono accordi di licenza con i giornali, non garantiscono che i chatbot citino correttamente le fonti.
Perplexity è davvero il migliore? O sta barando?
Sebbene Perplexity sia risultato il chatbot più preciso, il motivo potrebbe non essere così onorevole. Alcuni editori, come National Geographic, impediscono esplicitamente ai chatbot di accedere ai loro contenuti attraverso un file robots.txt. Tuttavia, lo studio ha rilevato che Perplexity è riuscito comunque a trovare informazioni proibite, sollevando dubbi su quanto effettivamente rispetti le regole.
Morale della storia
Se hai bisogno di informazioni affidabili, non usare un chatbot come fonte primaria. I risultati dello studio confermano che questi strumenti hanno ancora molta strada da fare prima di essere considerati una valida alternativa ai motori di ricerca tradizionali.
Tuttavia, Apple sembra aver preso una buona decisione scegliendo di integrare ChatGPT in Siri, invece di sviluppare una soluzione interna meno affidabile. Sarà interessante vedere come evolveranno queste tecnologie nei prossimi anni.
Fonte: 9to5Mac
Ricevi le ultime attualità sul mondo tech!