事件總覽:Google 研究團隊近期發表了名為「TurboQuant」的全新壓縮演算法,這項技術能將大型語言模型(LLM)的鍵值快取(KV caches)大幅壓縮,有望從根本上解決 AI 運算長久以來的記憶體瓶頸,為記憶體產業帶來巨大變革。
📅 過去挑戰:AI 發展的記憶體瓶頸浮現
話說回來,隨著大型語言模型應用日趨廣泛,模型需要處理的上下文長度也跟著爆炸性成長,這直接導致了記憶體消耗成為業界亟待克服的難題。大家可能都聽過,AI 模型在生成文字時,KV 快取扮演著不可或缺的角色,它負責儲存先前計算過的注意力數據,讓 LLM 不必重複進行繁複的計算,大幅提升效率。不過,當上下文長度越來越長,這些 KV 快取佔用的記憶體空間也隨之飆升,逐漸成為整個系統最主要的記憶體瓶頸。
過去,業界多半會採用傳統的向量量化(vector quantization)方法來縮減快取體積。這種做法雖然能減少整體大小,但系統必須額外儲存量化常數,每個數值都會因此產生幾位元的記憶體消耗。有趣的是,當我們面對超大型的上下文長度時,這些看似微小的額外開銷會不斷累積,最終嚴重侵蝕掉量化所帶來的記憶體節省效益,反而讓問題變得更複雜。
📅 近期突破:Google TurboQuant 演算法正式亮相
為了一勞永逸地解決傳統量化帶來的額外開銷,Google 研究團隊日前正式發表了「TurboQuant」這項革命性的免訓練(training-free)壓縮演算法。這項技術最驚人的地方在於,它能夠將大型語言模型的鍵值快取(KV caches)大幅壓縮至僅剩 3 位元(3 bits),而且整個過程完全不會造成模型準確度的損失。這無疑是當前記憶體資源消耗龐大的 AI 運算領域,所引頸期盼的硬體最佳化解方。
根據在輝達(Nvidia)H100 GPU 上進行的基準測試結果顯示,採用 4 位元版本的 TurboQuant,在計算注意力對數(attention logits)時,相較於未經量化的 32 位元金鑰,其效能提升了高達 8 倍,同時將 KV 快取記憶體的需求量降低了至少 6 倍。這不僅是技術上的里程碑,更是為 AI 運算硬體優化指明了一條清晰的道路。
📅 技術核心:兩階段創新壓縮機制揭秘
說真的,TurboQuant 演算法之所以能達到如此驚人的壓縮效果,關鍵在於它透過創新的「兩階段處理流程」來運作。第一階段導入了一種名為 PolarQuant 的技術。PolarQuant 的核心原理是將數據向量從傳統的 Cartesian coordinates 轉換為 polar coordinates,巧妙地將每個向量分離成代表大小的 radius 和代表方向的 angles。由於在極座標下,angles 的分布具有高度的可預測性且非常集中,PolarQuant 因此能夠直接省略傳統量化器必須執行的、極度消耗運算資源的每區塊正規化(per-block normalization)步驟,實現了高品質壓縮且零量化常數儲存消耗的卓越成果。
第二階段則是一層 1 位元(1-bit)的錯誤修正層(error correction layer),採用了 Quantized Johnson-Lindenstrauss (QJL)演算法。QJL 演算法會將殘餘的量化誤差投影到較低維度的空間中,接著將每個數值進一步縮減至僅剩一個單一符號位元(single sign bit)。這項數學轉換幾乎沒有增加任何額外的運算成本,同時還能有效消除在計算注意力分數時所產生的系統性偏差,確保模型的高精準度,這點對於追求極致效能的 AI 應用來說至關重要。
📅 實測數據:多模型驗證效能卓越
為了驗證實際效能,Google 團隊可不是紙上談兵,他們使用了 Gemma 與 Mistral 等開源模型,在多個業界標準的長文本基準測試中進行了全面評估,涵蓋了 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 以及 L-Eval 等項目。結果證明,在 LongBench 的資訊檢索任務中,TurboQuant 即使在將 KV 記憶體壓縮至少 6 倍的嚴苛條件下,依然取得了完美的下游分數。更令人印象深刻的是,在包含問答、程式碼生成以及文章摘要等多元任務的 LongBench 測試中,TurboQuant 的表現不僅追平,甚至在所有任務上都超越了 KIVI 基準線,展現了其廣泛的適用性與卓越的效能。
此外,TurboQuant 在向量搜尋領域也展現了強大的實力。在 GloVe 資料集的評測中,即使面對如 Product Quantization 和 RabbiQ 等依賴龐大碼本與特定資料集微調的現有基準技術,TurboQuant 依舊取得了最高的 1@k 召回率(recall ratios)。這證明了它在不同應用場景下的普適性和高效性。
至今影響與未來展望
Google 官方特別強調,TurboQuant 最具商業價值的優勢在於它完全不需要任何訓練或微調(no training or fine-tuning),且在執行時期的資源消耗微乎其微。這些優異特性使得 TurboQuant 能夠非常輕易且無縫地部署於現有的生產級推論系統以及大規模的向量搜尋系統之中,大幅降低 AI 運算的門檻與成本。
這項技術的詳細研究論文由 Google 研究科學家 Amir Zandieh 與副總裁 Vahab Mirrokni 共同撰寫。相關報導指出,該研究團隊預計將於下個月舉辦的 2026 年國際學習表徵會議(ICLR 2026)上,正式發表這項有望大幅降低 AI 運算門檻的重大研究成果。可以預見,TurboQuant 的問世將加速 AI 技術的普及,並對記憶體產業的未來發展帶來深遠的影響,或許我們真的看到了 AI 記憶體瓶頸的終結者。