Perché i modelli linguistici si inventano le risposte

Dagli errori statistici agli incentivi sbagliati: cosa c’è davvero dietro le cosiddette “allucinazioni” dell’intelligenza artificiale

I modelli linguistici, come quelli usati nelle chatbot, a volte “si inventano” informazioni. Non è un bug, ma una conseguenza prevedibile di come sono progettati e valutati. Studi recenti dimostrano che le allucinazioni dell’AI derivano da errori statistici inevitabili e da meccanismi di valutazione che spingono i modelli a “rischiare” una risposta plausibile piuttosto che ammettere di non sapere qualcosa.


Che cosa sono le “allucinazioni” dell’intelligenza artificiale?

Nel contesto dell’AI, il termine hallucination indica quando un modello linguistico genera una risposta che sembra credibile ma è falsa o inventata. Ad esempio, può fornire una data storica errata, citare una fonte che non esiste o inventarsi numeri e fatti.

Non si tratta di un errore di distrazione: è una caratteristica che emerge dal modo in cui questi sistemi funzionano. I modelli non hanno conoscenza diretta del mondo, ma si basano su pattern linguistici: prevedono la parola più probabile data una certa sequenza di testo.

Il risultato? A volte “riempiono i vuoti” con risposte che suonano bene, anche se non sono vere.


Il paper che svela l’origine statistica delle hallucination

Un recente studio pubblicato da un gruppo di ricercatori propone un’analisi semplice ma potente: le allucinazioni dell’AI si comportano come gli errori di un classico test di classificazione binaria. In altre parole, sono una conseguenza matematica prevedibile.

Il modello ha due scelte:

  • Dire qualcosa (anche se non è sicuro)

  • Non dire nulla o ammettere incertezza

Il problema è che i modelli vengono premiati più spesso quando “tentano” una risposta rispetto a quando si fermano. Questo porta a un comportamento molto umano: meglio azzardare che lasciare in bianco.

Un esempio tipico: se chiedi a un modello “Quando è nato il pittore Giacomo Balla?”, ma nel suo set di dati non c’è la risposta esatta, genererà una data comunque, basandosi su contesto o analogie. Magari si avvicina… ma potrebbe sbagliare di decenni.


Il ruolo degli incentivi: meglio sembrare sicuri che precisi

Un aspetto cruciale, evidenziato anche da un’analisi di TechCrunch, riguarda il modo in cui i modelli vengono valutati. Durante l’addestramento e i test, le risposte più premiate sono quelle corrette, ben formulate, sicure.

Ma c’è un problema: dire “non lo so” o “non posso rispondere con certezza” non viene quasi mai premiato, anche se sarebbe la risposta più onesta. Questo crea un incentivo perverso: la sicurezza vince sull’affidabilità.

Il risultato è che i modelli imparano a rispondere comunque, anche quando non hanno abbastanza informazioni per farlo correttamente.


Perché non basta avere più dati

Una possibile obiezione è: “Basta addestrare il modello con più dati”. Ma lo studio dimostra che anche un modello perfettamente allenato, con dati accurati, commetterebbe comunque errori se non può distinguere con chiarezza tra affermazioni vere e false.

Questo perché le informazioni rare o ambigue sono sempre soggette a incertezza, e il sistema non ha un vero meccanismo interno per gestirla.


I problemi delle risposte “inventate”

Le allucinazioni possono sembrare innocue in una conversazione casuale, ma diventano critiche in contesti seri, come:

  • Informazione scientifica o medica

  • Consulenze legali

  • Risposte su argomenti storici o culturali

In questi casi, una risposta sbagliata ma detta con sicurezza può fuorviare gli utenti e causare danni.


Le soluzioni allo studio: come ridurre le hallucination

I ricercatori propongono diverse strategie per affrontare il problema:

1. Cambiare i criteri di valutazione

Se i modelli venissero premiati anche quando riconoscono l’incertezza o segnalano la mancanza di dati, imparerebbero a essere più prudenti. Serve però un cambiamento sistemico, che coinvolge sviluppatori, ricercatori e aziende.

2. Usare sistemi di supporto alle risposte

Tecniche già in uso aiutano a migliorare l’affidabilità:

  • RAG (Retrieval-Augmented Generation): il modello consulta fonti esterne prima di rispondere

  • Verifica incrociata con altri modelli: un secondo modello valuta se la risposta è attendibile

  • Strumenti di autocontrollo interno: il sistema controlla se la risposta è coerente prima di proporla

3. Dare al modello la possibilità di dire “non so”

Una soluzione tanto semplice quanto potente: lasciare che il modello possa dichiarare di non avere una risposta sicura, anziché costringerlo a inventare.


Perché questo è un problema “socio-tecnico”

Secondo lo studio, non è solo una questione tecnica. Serve una riflessione culturale su come vogliamo che rispondano questi sistemi.

Vogliamo modelli che sembrano “intelligenti” anche quando sbagliano? O modelli che si comportano in modo responsabile, anche a costo di sembrare incerti?

Cambiare gli algoritmi è solo una parte della soluzione. Il vero cambiamento passa da nuovi criteri di valutazione, nuovi obiettivi e nuove aspettative da parte degli utenti.


In sintesi

  • Le hallucination dei modelli linguistici sono previste dalla statistica: derivano da incertezza e da come viene premiato il modello.

  • Gli attuali meccanismi di valutazione spingono i modelli a “tentare” risposte, anche quando non sono sicuri.

  • Riformare i criteri di addestramento e valutazione è essenziale per ottenere modelli più affidabili.

  • Serve un cambio di mentalità: premiare l’accuratezza e la prudenza più della sicurezza apparente.