ChatGPT è in grado di risolvere un rebus? (spoiler: no)

Testiamo i limiti del modello O3 nel decifrare un enigma di media difficoltà

Abbiamo messo alla prova il modello O3 di ChatGPT con un rebus fotografico: dopo quasi undici minuti di tentativi, l’IA ha indovinato la frase “Rediger manifesti”, ma solo grazie a una serie di ricerche sul web, rivelando così la distanza che ancora separa questi sistemi da un’autentica risoluzione autonoma dei problemi.

Il contesto: modelli di ragionamento e chain of thought

Negli ultimi mesi OpenAI ha presentato O3 come il suo modello di punta per il reasoning avanzato. A differenza dei modelli “base”, gli O-series analizzano le richieste in più passaggi, esplicitando una catena di ragionamento (chain of thought) che dovrebbe portarli a risposte più articolate e precise. Nelle demo ufficiali dominano esercizi di logica, analisi di tabelle complesse e descrizione di immagini ad alta risoluzione. Finora, però, pochi test indipendenti avevano misurato le prestazioni del modello su enigmi enigmistici, un terreno dove l’intuito umano – fatto di associazioni culturali e colpi d’occhio – resta difficilmente imitabile.

Il rebus: struttura e soluzione

Il rebus scelto dall’autore del video – due parole, 7+9 lettere – è considerato di media difficoltà:

  • Un re con la lettera D posata sul capo

  • Due uccelli che, a un’osservazione più attenta, risultano essere germani reali, accompagnati dalla lettera F

  • Una rosa dei venti in cui la direzione est è indicata con una I al posto della consueta E

Componendo i tre indizi si ottiene “Re + D” = “Red”, “germani + F” = “german f” ⇒ “ger”, e “est + I” = “esti”. La fusione fonetica produce la formula “Rediger manifesti”.

Il test passo dopo passo

L’esperimento è stato condotto in una chat temporanea: nessuna memoria attiva e nessun contesto precedente. Dopo aver ricevuto l’immagine, il modello ha:

  1. Individuato il re (“Questa figura corrisponde alla parola re, buon inizio”).

  2. Applicato la funzione crop per isolare i soggetti, concentrandosi prima sugli uccelli, poi sulla rosa dei venti.

  3. Tentato varie combinazioni di lettere, senza però riconoscere i germani reali né l’anomalia della I sostitutiva nella bussola.

L’intervento della ricerca esterna

Quando la sequenza logica interna si è esaurita, ChatGPT ha deciso di consultare il web:

  • prima ha cercato “rebus 79 Bussola germani reali”,

  • poi ha affinato con combinazioni che includevano autore e parole chiave,

  • infine ha aperto una pagina Facebook dove il rebus era già stato pubblicato e discusso.

Una volta trovata la frase “rediger manifesti”, l’IA ha eseguito un ultimo controllo lessicale su un dizionario online, verificando che “rediger” (forma letteraria di “redigere”) fosse semanticamente corretta. Solo allora ha dichiarato la soluzione definitiva.

Confronto con altri modelli

L’autore ha replicato il test su due sistemi concorrenti:

  • Gemini 2.5 di Google → ha ammesso subito di non possedere strumenti adeguati alla soluzione.

  • Claude 4 Sonnet di Anthropic → ha proposto una risposta errata e si è bloccato dopo alcuni prompt di correzione.

Il confronto rafforza l’idea che gli LLM, pur evoluti, faticano sui giochi enigmistici basati su conoscenze visive e deduzioni culturali non standardizzate.

Cosa ci dice questo esperimento

  1. Strategie diverse, stesso limite – O3 riesce a “ragionare” finché le sue euristiche interne trovano corrispondenze familiari; al primo vero ostacolo ricorre alla ricerca esterna.

  2. Velocità contro profondità – Il modello ha impiegato oltre 10 minuti per arrivare a una soluzione che un enigmista esperto avrebbe individuato in pochi secondi.

  3. Verifica automatica – L’auto-controllo su dizionari digitali dimostra una capacità di fact-checking che riduce il rischio di errori grossolani, ma non sostituisce la deduzione diretta.

Limiti attuali e prospettive future

La prova del rebus mette in luce un nodo cruciale: la fusione tra ragionamento interno e uso di strumenti esterni. Finché la sinergia funziona, il modello può sembrare “creativo”; quando si affida troppo al web, però, trasforma il compito di problem solving in information retrieval.

Gli sviluppatori puntano a potenziare:

  • Riconoscimento visivo fine-grained (distinguere tra anatre e germani).

  • Reasoning multimodale che colleghi lettere anomale a sostituzioni fonetiche.

  • Tempi di latenza inferiori per evitare che l’utente percepisca l’esitazione dell’IA.

Tuttavia, finché gli algoritmi non incorporeranno basi di conoscenza culturalmente sfumate, enigmi come quello del video continueranno a rappresentare una sfida.

Conclusione

L’esperimento conferma che O3 è straordinario nel combinare analisi di immagini, testo e ricerche online, ma il suo “pensiero” resta eterodiretto: senza l’àncora di Internet, fatica a produrre una soluzione completa. In altre parole, come uno studente che sbircia il foglio del vicino, il modello risponde correttamente solo dopo aver “copiato” l’informazione mancante. La strada verso una vera autonomia cognitiva dei sistemi di intelligenza artificiale appare ancora lunga.