Google lancia TurboQuant, l’algoritmo che comprime la memoria dell’intelligenza artificiale fino a sei volte

La nuova tecnica di Google Research promette di ridurre drasticamente il consumo di memoria dei grandi modelli linguistici senza alcuna perdita di precisione, aprendo scenari inediti per la sostenibilità e l’accessibilità dell’IA

Si chiama TurboQuant e potrebbe rappresentare uno dei progressi più significativi nell’efficienza dei sistemi di intelligenza artificiale degli ultimi anni. Il team di Google Research ha presentato un algoritmo capace di comprimere la memoria di lavoro dei modelli linguistici di grandi dimensioni di almeno sei volte, con un’accelerazione fino a otto volte nelle operazioni di calcolo, il tutto senza compromettere minimamente la qualità dei risultati. Una svolta che ha già fatto tremare le borse dei produttori di chip per memoria.


Cosa sono i modelli linguistici di grandi dimensioni e perché la memoria è il loro tallone d’Achille

Per capire la portata di questa innovazione, è necessario fare un passo indietro e comprendere come funzionano i cosiddetti Large Language Models (LLM), i modelli alla base di assistenti virtuali, motori di ricerca avanzati e strumenti di generazione di testo. Quando un sistema del genere elabora una domanda o genera una risposta, non riparte ogni volta da zero: tiene traccia di tutte le parole e i concetti già elaborati, archiviandoli in una struttura chiamata KV cache (dall’inglese key-value cache, ovvero “memoria chiave-valore”).

Si tratta di una sorta di blocco note digitale ad altissima velocità: invece di ricalcolare ogni volta le relazioni tra le parole di un testo, il modello consulta questo archivio temporaneo, recuperando istantaneamente le informazioni già elaborate. Il problema è che, più il testo è lungo e complesso, più questa memoria cresce in modo esponenziale. Nei sistemi più avanzati, la KV cache può occupare decine di gigabyte di memoria ad alta banda, le cosiddette HBM (High Bandwidth Memory), componenti tra le più costose e strategiche dell’hardware per l’IA.

Questa dipendenza dalla memoria ha rappresentato fino ad oggi uno dei principali ostacoli alla diffusione capillare dell’intelligenza artificiale: i costi di gestione dei data center, i consumi energetici, la necessità di hardware specializzato e costosissimo hanno reso l’IA avanzata appannaggio quasi esclusivo delle grandi aziende tecnologiche. TurboQuant nasce per attaccare direttamente questo collo di bottiglia.


Come funziona TurboQuant: la compressione senza perdita di qualità

Al cuore di TurboQuant c’è una tecnica matematica nota come quantizzazione vettoriale, una forma di compressione dei dati già utilizzata in altri contesti — dal formato audio MP3 alla compressione JPEG delle immagini. L’idea di base è ridurre la precisione numerica con cui i dati vengono rappresentati: invece di usare numeri con molte cifre decimali, si utilizzano valori approssimati che occupano meno spazio.

Il problema delle tecniche tradizionali, però, è che questa semplificazione introduce errori e richiede l’archiviazione di costanti di correzione per ogni blocco di dati, un overhead che parzialmente vanifica il risparmio ottenuto con la compressione. TurboQuant risolve questo problema attraverso un processo in due fasi:

  1. Prima fase — PolarQuant: i vettori numerici che rappresentano le informazioni nella KV cache vengono trasformati da coordinate cartesiane (il classico sistema x, y, z) a coordinate polari (raggio e angolo). È come passare dall’indicazione “vai 3 isolati a est e 4 a nord” a “vai 5 isolati in direzione nord-est a 37 gradi”. Questa trasformazione geometrica rende la distribuzione degli angoli altamente prevedibile e uniforme, eliminando la necessità di normalizzazioni per ogni blocco di dati e quindi azzerando l’overhead di memoria. La prima fase utilizza la maggior parte della potenza di compressione disponibile per catturare il “senso” essenziale del vettore originale.
  2. Seconda fase — QJL (Quantized Johnson-Lindenstrauss): il piccolo errore residuo lasciato dalla prima fase viene ulteriormente compresso utilizzando il trasformatore di Johnson-Lindenstrauss, una tecnica matematica che riduce dati complessi ad alta dimensionalità preservando le relazioni fondamentali tra i punti. L’algoritmo riduce ogni valore a un singolo bit di segno (+1 o -1), creando un sistema di correzione degli errori che richiede memoria praticamente trascurabile. Questa seconda fase elimina i bias sistematici nei calcoli di attenzione, garantendo risultati precisi nonostante la compressione estrema.

Il risultato combinato è la capacità di comprimere la KV cache fino a soli 3 bit per valore, partendo dai 16 o 32 bit abitualmente impiegati, senza alcuna degradazione nelle risposte del modello.


I numeri: 6 volte meno memoria, 8 volte più veloce

I test condotti da Google Research su benchmark standard per contesti lunghi — tra cui LongBench, Needle In A Haystack e ZeroSCROLLS — hanno prodotto risultati che hanno sorpreso la comunità scientifica. I modelli open source Gemma e Mistral, sottoposti a compressione con TurboQuant, hanno mantenuto prestazioni equivalenti alla precisione piena anche negli scenari più difficili.

I dati più rilevanti emersi dalla sperimentazione:

  • Riduzione della memoria di almeno 6 volte nella KV cache, con compressione a soli 3 bit senza perdita di accuratezza
  • Accelerazione fino a 8 volte nel calcolo dei logits di attenzione con la versione a 4 bit, misurata su acceleratori Nvidia H100
  • Zero necessità di riaddestramento: TurboQuant funziona come uno strato di ottimizzazione applicabile ai modelli già in produzione, senza modificare i pesi della rete neurale
  • Overhead computazionale trascurabile: il sistema non rallenta l’elaborazione durante l’utilizzo normale
  • Indipendenza dai dati: l’algoritmo non richiede calibrazioni specifiche per ogni dataset, al contrario delle tecniche concorrenti

Il test del “ago nel pagliaio” (needle in a haystack) — uno degli esami più severi per i modelli a contesto lungo, che verifica la capacità di recuperare un’informazione precisa sepolta in enormi quantità di testo — è stato superato da TurboQuant praticamente senza perdite.


Il mercato trema: giù i titoli dei produttori di memoria

L’annuncio ha avuto immediate ripercussioni sui mercati finanziari globali. Se un modello di intelligenza artificiale riesce a fare lo stesso lavoro con sei volte meno memoria, la domanda di chip HBM — oggi in forte crescita proprio per supportare l’espansione dell’IA — potrebbe subire una flessione significativa.

Alla notizia, i titoli dei due maggiori produttori mondiali di chip di memoria, SK Hynix e Samsung, sono scesi rispettivamente del 6% e di quasi il 5% in Borsa a Seoul. La giapponese Kioxia ha perso quasi il 6%, mentre negli Stati Uniti anche Sandisk e Micron hanno registrato cali significativi.

L’impatto, però, va contestualizzato. Come sottolineano diversi analisti, TurboQuant rappresenta un’evoluzione, non una rivoluzione, e non altera il quadro della domanda di lungo periodo nel settore. L’algoritmo, infatti, ottimizza la fase di inferenza — cioè il momento in cui il modello risponde a una richiesta — ma non incide sulla fase di addestramento, che continua a richiedere quantità enormi di memoria e resterà un motore trainante per la domanda di hardware avanzato.

Il CEO di Cloudflare, Matthew Prince, ha definito TurboQuant il “momento DeepSeek” di Google — un riferimento ai guadagni di efficienza ottenuti dal modello cinese DeepSeek, addestrato a una frazione del costo dei suoi rivali pur rimanendo competitivo nei risultati.  Il parallelo non è casuale: entrambe le innovazioni dimostrano che la corsa all’IA non si gioca solo sul fronte dell’hardware più potente, ma anche — e forse soprattutto — su quello dell’ingegnosità algoritmica.


Il paragone con la serie Silicon Valley: “È il vero Pied Piper”

Sui social media, la presentazione di TurboQuant ha scatenato un’ondata di reazioni ironiche che hanno associato l’algoritmo di Google a Pied Piper, la startup immaginaria protagonista della serie televisiva Silicon Valley. Nella finzione, Pied Piper sviluppava un algoritmo di compressione rivoluzionario capace di ridurre drasticamente le dimensioni dei file senza perdita di qualità — la fantasia di ogni ingegnere informatico.

Il parallelo nasce dalla promessa, simile almeno nelle intenzioni, di comprimere dati senza comprometterne la qualità. La battuta si è diffusa rapidamente in rete, con sviluppatori e ricercatori che hanno già prodotto implementazioni indipendenti dell’algoritmo nelle ore successive alla pubblicazione del paper, verificando empiricamente i risultati dichiarati da Google.

Google non ha ancora rilasciato il codice sorgente in forma aperta, ma un rilascio open source è atteso nel secondo trimestre del 2026, probabilmente in concomitanza con la presentazione formale del paper alla conferenza ICLR 2026, prevista per il 23-25 aprile.


Applicazioni concrete: dalla ricerca semantica ai dispositivi personali

Le implicazioni di TurboQuant vanno ben oltre l’ottimizzazione dei data center. I ricercatori di Google identificano due aree di impatto principale:

Ricerca semantica a grande scala. I motori di ricerca moderni non si limitano a trovare corrispondenze di parole chiave, ma comprendono il significato delle query attraverso la ricerca vettoriale: ogni testo, immagine o concetto viene rappresentato come un punto in uno spazio matematico ad alta dimensionalità, e la ricerca consiste nel trovare i punti più “vicini” — ovvero più simili — a una query. TurboQuant permette di costruire e interrogare indici vettoriali enormi con memoria minima, tempi di preprocessing quasi nulli e precisione ai massimi livelli, rendendo la ricerca semantica su scala Google più veloce ed economica.

Modelli su dispositivi a basse risorse. Ridurre di sei volte il fabbisogno di memoria durante l’inferenza significa che modelli avanzati — oggi praticabili solo su server con hardware dedicato — potrebbero girare su smartphone, tablet o dispositivi embedded. Questo aprirebbe scenari di IA locale, senza dipendenza dal cloud, con implicazioni significative per la privacy, la latenza e i costi per l’utente finale.

Una riduzione della memoria necessaria significa anche minori consumi energetici, maggiore scalabilità e la possibilità di eseguire modelli avanzati anche su dispositivi meno potenti, con potenziale accelerazione della diffusione dell’IA in molti settori, dalle applicazioni aziendali ai dispositivi personali.


Chi c’è dietro la ricerca e dove verrà presentata

TurboQuant è frutto di una collaborazione all’interno dell’ecosistema Google Research e Google DeepMind. Il lavoro è firmato dal ricercatore Amir Zandieh e dal VP e Google Fellow Vahab Mirrokni, in collaborazione con Praneeth Kacham (Google), Majid Hadian (Google DeepMind), Insu Han (professore assistente al KAIST, l’istituto tecnologico avanzato della Corea del Sud), Majid Daliri (dottorando alla New York University), Lars Gottesbüren e Rajesh Jayaram (entrambi ricercatori Google).

L’algoritmo verrà presentato ufficialmente alla conferenza ICLR 2026 (International Conference on Learning Representations), uno degli appuntamenti più prestigiosi al mondo per la ricerca nel campo del machine learning, in programma ad aprile 2026. PolarQuant sarà invece presentato ad AISTATS 2026, altra conferenza di riferimento nel campo.


Un’innovazione che vale soprattutto per le sue fondamenta matematiche

Ciò che distingue TurboQuant da molte ottimizzazioni ingegneristiche è la solidità delle sue basi teoriche. I tre algoritmi — TurboQuant, QJL e PolarQuant — non sono soluzioni empiriche sviluppate per tentativi ed errori, ma metodi con dimostrazioni matematiche formali di efficienza, che operano vicino ai limiti teorici inferiori della compressione senza perdita di qualità.

TurboQuant non è un nuovo paradigma, ma è esattamente il tipo di innovazione che separa una tecnologia promettente da un’infrastruttura sostenibile. E, come spesso accade, sarà il bilancio economico a decidere se è davvero una svolta o solo un elegante esercizio accademico.

Va ricordato, come sottolineano diversi esperti del settore, che la distanza tra un risultato di laboratorio e un sistema che gestisce miliardi di richieste quotidiane in ambiente di produzione rimane considerevole. I benchmark dimostrano prestazioni eccellenti, ma la prova definitiva di TurboQuant sarà la sua integrazione nei prodotti commerciali — a partire, con ogni probabilità, dai modelli Gemini di Google stesso.

L’intelligenza artificiale, dopo anni dominati dalla logica del “più grande è meglio”, sembra avviarsi verso una fase di maturità ingegneristica: meno corsa alla potenza bruta, più ottimizzazione intelligente. TurboQuant è un segnale preciso di questa direzione.