TurboQuant: Læsning af gennembruddet inden for KV-cachekomprimering
Del
Læsetid: 10 min | Hvordan Googles 3-bit komprimering gør langkontekst-LLM'er billigere, og hvad det fortæller os om de næste 18 måneders AI-inferens
Der er et stille problem i enhver lang samtale, du har med en stor sprogmodel, og det er grunden til, at disse samtaler bliver dyre. Det kaldes KV-cachen, og ved lange kontekstlængder kan den forbruge mere hukommelse end selve modellen. Den 24. marts offentliggjorde et team hos Google Research TurboQuant, som komprimerer cachen til tre bits pr. værdi uden målbart nøjagtighedstab og uden finjustering. Seks gange mindre hukommelse. Op til otte gange hurtigere opmærksomhed på en H100. Det er værd at forstå ordentligt, fordi KV-cachekomprimering er et af de problemer med størst indflydelse på den anvendte AI lige nu, og TurboQuant er det hidtil klareste offentlige signal om, at feltet har vendt en drejning.
Jeg driver Kentino. En del af det indebærer at læse artikler som denne omhyggeligt, så vores kunder – minere, bygherrer, nysgerrige europæere, der følger AI- og kryptostakken – ikke behøver det. Denne artikel er mit forsøg på at forklare, hvad TurboQuant rent faktisk gør, hvordan det passer ind i den bredere bølge af KV-cachekomprimeringsforskning fra 2025-2026, og hvad en fornuftig person bør forvente af de næste atten måneder.
KV-cacheproblemet, ærligt sagt
Når en transformer genererer tekst, tager hvert nyt token sig af alle tidligere tokens. For at undgå at genberegne nøgle- og værditensorerne for disse tidligere tokens på hvert eneste trin, gemmer modellen dem. Dette lager er KV-cachen.
Cachen vokser lineært med kontekstlængden. Dobbelt så mange samtaler, dobbelt så mange cacher. For en mellemstor 8B-model, der kører en kontekst på 128k tokens i FP16, KV-cachen kan nemt nå op på flere titusindvis af gigabyte i en enkelt session. Vægten kan være seksten. Cachen overskygger dem.
Tre praktiske konsekvenser følger.
For det første er langkontekst-inferens hukommelsesbundet, før den er beregningsbundet. Du løber tør for VRAM længe før du løber tør for FLOP'er.
For det andet skaleres omkostningerne ved servering dårligt. Hver samtidig bruger har brug for sin egen cache. En GPU, der ellers kunne batche halvtreds korte samtaler, kunne håndtere fem lange.
For det tredje forbliver inferens på enheden og på kanten uden for rækkevidde for de modeller, der rent faktisk ville være nyttige der, fordi det er cachen, ikke vægtene, der nægter at passe.
At komprimere KV-cachen godt – altså aggressivt, billigt og uden at forringe outputkvaliteten – er derfor ikke en mindre optimering. Det ændrer, hvilke arbejdsbelastninger der er brugbare, og hvilke der ikke er. Det er det problem, TurboQuant adresserer.
Hvad TurboQuant rent faktisk gør
TurboQuant er en to-trins algoritme. Begge trin er træningsfri og data-uvidende, hvilket betyder ingen finjustering, intet kalibreringsdatasæt, ingen justering pr. model. Du anvender det, og det virker. Det betyder mere end kompressionsforholdet, ærligt talt, fordi det er det, der gør det muligt for metoden at falde ind i en eksisterende inferensstak uden friktion.
Fase et: PolarQuant
Den første fase er PolarQuant, en separat artikel af den samme gruppe (Zandieh, Mirrokni et al., AISTATS 2026). Ideen er strukturel snarere end statistisk.
Kvantisering af højdimensionelle vektorer i kartesiske koordinater er akavet. Den naturlige bevægelse - normalisering til enhedssfæren og derefter kvantisering af retningen - viser sig at være dyr, fordi beregning af normen for hver vektor er den flaskehals, man forsøgte at undgå. Tidligere metoder betalte den pris og mistede stadig nøjagtighed ved lave bitbredder.
PolarQuant gør to ting for at undgå fælden. Den anvender først en tilfældig rotation, hvilket noget kontraintuitivt gør geometrien af vektorfordelingen mere forudsigelig og håndterbar. Derefter konverterer den til polære koordinater - en radius for størrelse, en vinkel for retning - og kortlægger disse på et cirkulært gitter, der kan kvantiseres uden normaliseringstrinnet. Resultatet er en ren repræsentation af hver vektor med få bits, der bevarer dens essentielle geometri.
Fase to: QJL
PolarQuant alene efterlader en restfejl. Trin to, kvantiseret Johnson-Lindenstrauss (QJL), retter den med en ekstra bit pr. værdi.
Johnson-Lindenstrauss-transformationen er et klassisk resultat: man kan projicere højdimensionelle vektorer ind i et meget lavere dimensionelt rum med en tilfældig lineær afbildning og omtrent bevare parvise afstande. QJL går videre ved kun at beholde fortegnsbitten for hver projiceret koordinat - plus en, minus en, intet andet. Ingen lagringsoverhead ud over selve bitten.
Det, QJL leverer, matematisk set, er en upartisk estimator af opmærksomhedsscorer. Den korrigerer residualet fra PolarQuant uden at genindføre den bias, som naive lav-bit-ordninger lider af. Det er tricket. Ét bit tegn, omhyggeligt valgt, er nok til at rydde op i den første fase-fejl.
Numrene
Kombineret lander de to trin på tre bits pr. værdi, seks gange mindre end FP16 baseline. På en NVIDIA H100 kører attention logit-beregningen op til otte gange hurtigere ved 4-bit versus 32-bit. Google testede Gemma, Mistral og Llama-3.1-8B-Instruct på tværs af LongBench, Needle In A Haystack, ZeroSCROLLS, RULER og L-Eval. Nøjagtigheden blev bevaret på tværs af alle fem benchmarks med lang kontekst. En vektorsøgningssidetest på GloVe-200 viste også bedre 1@k-genkaldelse mod PQ- og RabbiQ-baselines, hvilket tyder på, at metoden generaliserer specifikt ud over KV-caches.
| metric | Værdi |
|---|---|
| Bits pr. cachelagret værdi | 3 bits |
| Reduktion af KV-cachehukommelse | 6 × |
| H100 opmærksomhedshastighedsforøgelse (4-bit vs. 32-bit) | op til 8 × |
| Finjustering nødvendig | Ingen |
| Nødvendige kalibreringsdata | Ingen |
| Tab af målt nøjagtighed | Nul på tværs af LongBench, NIAH, ZeroSCROLLS, RULER, L-Eval |
| Testede modeller | Gemma, Mistral, Llama-3.1-8B-Instruktion |
Den fulde beskrivelse findes på Google Research-blogTurboQuant vil blive præsenteret på ICLR 2026 i Rio de Janeiro.
Den bredere bølge
TurboQuant er ikke alene. Det er den mest fremtrædende nye metode inden for et hurtigt udviklende forskningsområde, og at læse den uden kontekst overdriver dens nyhedsværdi. Adskillige andre metoder fra slutningen af 2025 og begyndelsen af 2026 angriber den samme flaskehals fra forskellige vinkler.
| Metode | Venue | Tilgang | Hovedresultat |
|---|---|---|---|
| TurboQuant | ICLR 2026 | PolarQuant + QJL, online inferens | 3 bits, 6 × hukommelse, op til 8 × øget opmærksomhed, nul tab af præcision |
| KVTC (NVIDIA) | ICLR 2026 | Transformationskodning — PCA + adaptiv kvantisering + entropikodning | Op til 20× komprimering til offline cache-lagring og genbrug |
| ChunkKV | OpenReview, september 2025 | Semantisk-chunk-komprimeringsenhed | Op til +8.7% præcision ved samme kompressionsforhold |
| PM-KVQ | 2025 | Progressiv blandet præcision til ræsonnementsmodeller | 2.73–5.18× gennemløb vs. FP16, +8% på ræsonnementsbenchmarks |
| KVPress (NVIDIA) | Åben ramme | Benchmarking og implementeringsudstyr | Lader praktikere teste disse metoder i stor skala |
Hver niche er rettet mod en forskellig niche. KVTC er til offline genbrug – lagring af en cache fra én samtale og indlæsning af den i en anden, hvor du har råd til tungere kodningsarbejde til gengæld for meget højere komprimering. ChunkKV er til tilfælde, hvor du har brug for at komprimere aggressivt, men bevare semantisk betydning, hvilket er vigtigt for opgaver, hvor det gør mere ondt at miste et token end at miste et ciffer af præcision. PM-KVQ er indstillet til de lange tankekæde-arbejdsbyrder, som ræsonnementsmodeller producerer. KVPress er det rørsystem, der lader resten af os sammenligne dem alle ærligt.
TurboQuants karakteristiske bidrag er kombinationen af træningsfri drift, online inferensegnethed og en beviseligt upartisk estimator. Det er den, der har størst sandsynlighed for at lande i produktionsframeworks først, netop fordi den ikke beder om noget fra modeloperatoren.
Hvad dette låser op
Jeg trækker mig tilbage fra papiret og tænker over, hvor det fører hen: de praktiske effekter er lettere at navngive end at størrelsessætte.
Langkontekstinferens bliver væsentligt billigere. Hvis din KV-cache er seks gange mindre, kan du batche flere brugere på den samme GPU eller betjene længere kontekster på det samme budget, eller begge dele. Enhver, der kører en inferenstjeneste, mærker dette i deres marginaler inden for et kvarter efter integration.
Edge-implementering bliver mulig for klasser af modeller, der tidligere var utilgængelige. En 8B-model med lang kontekst på en arbejdsstations GPU, eller en 3B-model på en bærbar computer, skifter fra "næsten mulig" til "rutinemæssig", når cachen krymper med denne faktor. On-prem-implementering for virksomheder, der ikke kan sende data til cloud-API'er - juridisk, medicinsk, industriel telemetri - får et lignende løft.
Hardwarehistorien følger direkte, og det er her, det holder op med at være abstrakt. Komprimering som TurboQuant ændrer ikke hvilke GPU'er der findes; den ændrer hvilke arbejdsbelastninger. passer — og lige nu er de arbejdsbyrder, folk rent faktisk ønsker at køre on-prem, de kinesiske åbne frontiermodeller, der stille og roligt har overtaget SOTA-sædet frem til 1. kvartal 2026.
Det er værd at nævne det nuværende sortiment eksplicit, fordi det er det, kunderne spørger os om. Kimi K2.5 fra Moonshot AI — 1T samlede parametre, 32B aktiv, Ministeriet for Økonomi, 256K kontekst, MIT-licens — udgivet 27. januar og fører an i kode- og matematikbenchmarks blandt åbne vægte. GLM-5 fra Z.ai — 744 mia. i alt / 40B aktiv, 204K kontekst, MIT-licenseret — i øjeblikket øverst på open-weights Intelligence Index og SWE-bench-verificeret. MiniMax M2.5 — 229 mia. i alt / 10B aktiv, 200K kontekst — udgivet 12. februar, aggressivt prissat, 80%+ SWE-bænk. Qwen3-Coder-Next fra Alibaba — 80 mia. i alt / 3B aktiv, 256K kontekst indfødt, kan udvides til 1M med YRN — plus den bredere Qwen3-familie fra tæt 0.8B-27B gennem 397B-A17B MoE. Alle åbne vægte. Alle kan sendes i dag.
Vi bygger maskiner hos Kentino specifikt til denne arbejdsbyrde, så lad mig være konkret omkring matematikken. Vores flagskibs-inferensserver er en 4× NVIDIA RTX 4090 bygge - 96 DK af samlet VRAM, AMD EPYC 7542 på en ASRock Rack ROMED8-2T, 256 DK of DDR4-2666 ECC RDIMM, 2 TB NVMe, dobbelt 2 kW strømforsyninger, i en 24U-rackOvenover bygger vi 4× RTX 5090 og 8× RTX 5090 konfigurationer (128 DK og 256 DK samlet VRAM) og datacenterkvalitet 4× L40 / L40S (192 DK puljet ECC) til vedvarende belastning i virksomhedsklassen og produktionsbetjening døgnet rundt.
Det, TurboQuant ændrer i dette billede, er KV-cache-termen. Moderne MoE-modeller bruger allerede komprimeret opmærksomhed (MLA-stil latent opmærksomhed hos Kimi, GQA i Qwen3), så deres KV-cache pr. token er mindre end ældre Llama-klassenumre til at starte med. Anvend TurboQuant ovenpå, og du får en anden ~6 ×Den praktiske effekt er, at det kontekstvindue, som en given boks rent faktisk kan tjene – i modsætning til at reklamere – springer meningsfuldt over. vægte bevægede sig ikke. Flaskehalsen gjorde.
| Kentino server build | Poolet VRAM | Model der sidder komfortabelt | Med TurboQuant KV-kompression |
|---|---|---|---|
| 4× RTX 4090 (AMD EPYC 7542, 256 DK ECC) | 96 DK | Qwen3-Coder-Next 80 mia. i alt (FP8), Qwen3 tæt 27B (FP16) | Qwen3-Coder-Next @ 256K kontekst native enkeltbruger eller 80B @ 128K for ~3-4 samtidige brugere |
| 4× RTX 5090 | 128 DK | Qwen3-Coder-Next med headroom, Qwen3 32B (FP16), MoE 100B-klasse (INT4) | Qwen3-Coder-Next @ 1M kontekst via YRNeller 80B @ 256K samtidig |
| 8× RTX 5090 | 256 DK | MiniMax M2.5 (FP8, ~ 230 GB), Qwen3 397B-A17B (INT4), GLM-5 (INT4) | MiniMax M2.5 @ fuld 200K kontekst produktionsvisning eller Qwen3 397B @ 128K samtidig |
| 4× L40 / L40S | 192 DK ECC | MiniMax M2.5 (INT4), Qwen3-Coder-Next produktion 24/7 | Servering i virksomhedsklasse med ECC ved langvarig kontekst, vedvarende belastning |
To ærlige forbehold. For det første, Kimi K2.5 og GLM-5 fuldt ud FP8 (1T og 744 mia. i alt vægte) overstiger stadig, hvad disse bokse indeholder — for dem, du ser på en klynge eller accepterer aggressiv INT4 kvantisering. For det andet afhænger de nøjagtige tokengrænser af batchstørrelse, modellens specifikke opmærksomhedskonfiguration og framework (vLLM, SGLang, TensorRT-LLM alle implementerer lav-bit KV forskelligt). Men retningen er den, der betyder noget: a 4× RTX 4090 en boks, der for et år siden gav mening til 13B kompakte modeller, er nu det rigtige svar på Qwen3-Coder-Next i sin fulde længde 256K kontekst. En 4× RTX 5090 håndterer 80B aktiv-klasses kodemodel komfortabelt med plads til samtidige brugere. En 8× RTX 5090 or 4× L40S åbner op MiniMax M2.5 og de større Qwen3 MoE-varianter i produktionsskala. Hardwaren blev ikke større; arbejdsbyrden blev mindre.
Og enhver inferensarbejdsbyrde, der kører kontinuerligt på operationel telemetri, drager proportionalt fordel. Optimering af mineflåden er et reelt eksempel: operatører som OneMiners køre AI-drevne effektivitetssystemer på tværs af tusindvis af ASIC'er, og inferenslaget under disse systemer skalerer direkte med, hvor meget kontekst hver model kan indeholde billigt. Denne forskningsklasse transformerer ikke sådanne arbejdsbyrder natten over, men den ændrer kurven for, hvad der er overkommeligt.
Den ærlige prognose er trinvis. 6 × Hukommelsesreduktion på én flaskehals skaber ikke en ny verden. Det skaber en lidt billigere, lidt længerevarende og lidt mere udrullelig version af den verden, vi allerede har. Det er stadig en stor mængde penge og ingeniørarbejde sparet, samlet set på tværs af branchen.
Hvad skal man se i 2026-2027
Et par specifikke ting, i nogenlunde rækkefølge efter sandsynlighed.
Framework-integration. vLLM, TensorRT-LLMog SGLang vil tilegne sig TurboQuant-lignende metoder inden for få måneder, sandsynligvis via KVPress som benchmarking-laget. Den open source Triton-implementering, som Google-teamet har udgivet, gør dette næsten mekanisk.
Support på hardwareniveau. NVIDIA har signaleret interesse for low-bit attention primitiver gennem både KVTC og KVPress. Forvent, at Blackwell-generationens værktøjer vil behandle 3-4 bit KV-formater som førsteklasses borgere snarere end eksperimentelle.
Konsolidering af metoder. De fem ovenstående tilgange løser overlappende problemer. En samlet stak – geometrisk komprimering i PolarQuant-stil til online opmærksomhed, entropikodning i KVTC-stil til offline lagring og semantisk gruppering i ChunkKV-stil som frontend – er det sandsynlige slutpunkt. Ingen enkelt artikel når dertil; stakken dannes over et års integrationsarbejde.
Reelle omkostningsreduktioner i servering. Ved udgangen af 2026 burde omkostningerne ved langkontekstinferens være synligt lavere end i dag, og størstedelen af gevinsten skulle komme fra kompression snarere end nyt silicium. Det er den reneste måde at forudsige, at denne type arbejde vil have haft succes.
Luk
TurboQuant er et reelt fremskridt på en reel flaskehals, og den ankom i en forskningsbølge, der løser problemet fra flere vinkler på én gang. De overordnede tal er imponerende på deres egne præmisser - tre bit, seks gange, otte gange - men den vigtigste egenskab er, at den ikke kræver noget af modeloperatøren. Træningsfri, data-uvidende metoder er, hvad der implementeres.
Hvis du kører langkontekstinferens i en hvilken som helst skala, er det værd at spore. Hvis du ikke gør det, er det stadig værd at forstå, fordi økonomien i de modeller, du i sidste ende vil bruge, stille og roligt bestemmes af artikler som denne.