Google 研究團隊日前正式發表一項名為「TurboQuant」的全新免訓練壓縮演算法,這項技術能將大型語言模型(LLM)的鍵值快取(KV caches)大幅壓縮至僅 3 位元,且過程中模型準確度不受影響,為當前 AI 運算領域龐大的記憶體資源消耗提供顯著的硬體最佳化解方。
事實陳述與技術突破
根據在輝達(Nvidia)H100 GPU 上進行的基準測試結果,採用 4 位元版本的 TurboQuant 在計算注意力對數(attention logits)時,相較於未經量化的 32 位元金鑰,其效能提升高達 8 倍,同時將 KV 快取記憶體需求量降低至少 6 倍。這項創新技術的關鍵在於其獨特的「兩階段處理流程」。
第一階段導入了名為 PolarQuant 的技術,其核心原理是將數據向量從傳統的 Cartesian 座標轉換為極座標(polar coordinates)。透過此轉換,每個向量被巧妙地分離成代表大小的半徑(radius)及代表方向的角度(angles)。由於在極座標下,角度的分佈具有高度可預測性且非常集中,PolarQuant 得以直接省略傳統量化器必須執行的、極度消耗運算資源的每區塊正規化步驟,進而實現高品質壓縮並達成零量化常數儲存消耗的成果。
第二階段則是一層 1 位元(1-bit)的錯誤修正層,採用 Quantized Johnson-Lindenstrauss (QJL)演算法。QJL 演算法會將殘餘的量化誤差投影到較低維度的空間,接著將每個數值進一步縮減至僅剩一個單一符號位元。此數學轉換幾乎不增加額外運算成本,同時能有效消除計算注意力分數時產生的系統性偏差,確保模型高精準度。
業界影響與效能驗證
Google 團隊已使用 Gemma 與 Mistral 等開源模型,在多個業界標準的長文本基準測試中全面評估 TurboQuant 的實際效能,涵蓋 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 以及 L-Eval 等項目。特別是在 LongBench 的資訊檢索任務中,TurboQuant 即使在 KV 記憶體壓縮至少 6 倍的嚴苛條件下,依然取得了完美的下游分數。而在包含問答、程式碼生成及文章摘要等多元任務的 LongBench 測試中,TurboQuant 的表現不僅追平,甚至在所有任務上都超越了 KIVI 基準線。
此外,TurboQuant 在向量搜尋領域亦展現強大實力。在 GloVe 資料集的評測中,即使面對如 Product Quantization 和 RabbiQ 等依賴龐大碼本與特定資料集微調的現有基準技術,TurboQuant 依舊取得了最高的 1@k 召回率(recall ratios)。Google 官方特別強調,TurboQuant 最具商業價值的優勢在於它完全不需要任何訓練或微調,且在執行時期的資源消耗微乎其微。這些優異特性使得 TurboQuant 能夠非常輕易且無縫地部署於現有的生產級推論系統以及大規模的向量搜尋系統之中。
背景補充與後續觀察
隨著大型語言模型的應用日益廣泛,模型需要處理的上下文長度不斷擴張,記憶體瓶頸已成為產業界亟待解決的難題。在 AI 模型生成文字的過程中,KV 快取扮演著至關重要的角色,主要功能是儲存先前已計算過的注意力數據,避免大型語言模型在每一個 token 生成步驟中重複繁複計算。然而,上下文長度擴大導致 KV 快取佔用的記憶體空間爆炸性成長,成為系統主要的記憶體瓶頸。
過去業界多半採用傳統的向量量化方法來縮減快取體積,但此方法需額外儲存量化常數,導致每個數值產生數個位元的記憶體消耗。面對超大型上下文長度時,這些微小的額外開銷會不斷複合累加,最終嚴重侵蝕量化所帶來的記憶體節省效益。TurboQuant 則旨在徹底消除這些額外開銷。
這項技術的詳細研究論文由 Google 研究科學家 Amir Zandieh 與副總裁 Vahab Mirrokni 共同撰寫。該研究團隊預計將於下個月舉辦的 2026 年國際學習表徵會議(ICLR 2026)上,正式發表這項有望大幅降低 AI 運算門檻的重大研究成果。