在 AI 浪潮席捲全球的今日,企業如何突破現有基礎設施的瓶頸,以滿足日益複雜的 AI 推論需求?這不僅是技術挑戰,更是決定 AI 應用能否規模化落地的關鍵。Supermicro 在 NVIDIA GTC 2026 大會上,率先推出了業界首批基於 NVIDIA BlueField-4 STX 參考架構的語境記憶體(CMX)儲存伺服器,旨在為 AI 推論效能帶來革命性的提升,特別是應對那些耗時甚久的 AI 查詢與多階段「連鎖思維」代理人工作負載。
現象觀察:AI 工作負載對儲存架構的嚴峻考驗
現今的 AI 應用,尤其是大型語言模型(LLM)的推論過程,已不再是單純的數據計算,而是涉及複雜的語境記憶與多步驟的推理鏈。你可能會發現,當你與 AI 代理人進行互動時,它需要不斷回溯先前的對話紀錄與中間生成的語義標記(tokens),以維持對話的連貫性與準確性。然而,傳統的儲存架構往往難以高效地處理這種「即時回溯」的需求,導致 AI 查詢延遲、運算資源浪費,甚至因為本地儲存空間不足而被迫重新運算,這不僅耗時,更是巨大的能源消耗。
這種現象,就像是要求一位記憶力超群的學者,每次回答問題都必須從頭翻閱所有文獻,而非直接從腦中提取關鍵資訊。顯然,這效率極低。
原因剖析:STX 架構與 CMX 伺服器的核心價值
為了解決上述痛點,NVIDIA 推出了全新的模組化參考架構 STX,其核心目標就是加速 AI 的完整生命週期。Supermicro 的 CMX 儲存伺服器正是基於此架構打造,專為優化 AI 推論的語境記憶管理而生。Supermicro 董事長兼執行長梁見後(Charles Liang)對此強調:
「Supermicro 持續引領市場,不斷推出創新的機架級架構,以滿足快速發展的 AI 工廠客戶群所需。去年我們推出 Petascale JBOF(Just a Bunch of Flash),成功驗證搭載 NVIDIA BlueField-3 DPU 的 JBOF 方案切實可行。現在我們以此為基石,發展出 CMX 儲存伺服器。此款最新的儲存架構原型,充分展現我們與 NVIDIA 緊密無間的合作關係,以及我們矢志率先將革命性技術帶入市場的決心。」
這背後的技術奧秘在於,CMX 伺服器能夠將這些關鍵的「語境記憶標記」(contextual tokens)儲存為鍵值(KV)快取,並由 NVIDIA 的推論協調層 NVIDIA Dynamo 負責高效管理。這樣一來,當 AI 系統需要調用先前或中間的語義標記時,可以直接從快取中快速讀取,而非重新運算,這就大幅減少了不必要的運算負擔與能源消耗。說真的,這就像為 AI 大腦建立了一個專屬的「快速記憶庫」,讓它能更流暢地思考。
影響評估:加速 AI 應用落地與綠色運算效益
CMX 儲存伺服器的問世,預計將對 AI 產業帶來多重正面影響。首先,它能顯著加快 AI 模型的輸出結果,提升使用者體驗與業務效率。其次,透過避免重複運算,能有效節省龐大的電力消耗,符合當前綠色運算與永續發展的趨勢。這對營運 AI 工廠的企業來說,不僅是成本的降低,更是企業社會責任的體現。
Supermicro 不僅止於推出硬體,更積極與軟體合作夥伴及業界領先的 SSD 供應商(如 Micron、Samsung、Phison)合作,進行 STX 解決方案的移植、驗證與最佳化。這確保了從底層硬體到上層應用的無縫整合。此外,在 GTC 2026 大會期間,Supermicro 還基於 RTX PRO 6,000 Blackwell Server Edition GPU,與 Cloudian、DDN、Everpure、IBM、Nutanix、VAST Data、WEKA 等儲存夥伴,共同推出了 7 款 AI 資料平台解決方案。這些方案旨在幫助企業更好地處理資料,以支援各種 AI 工作負載。
趨勢預測:AI 基礎設施的模組化與智慧化未來
從 Supermicro 此次的發表,我們可以清楚預見 AI 基礎設施的未來發展方向:模組化、智慧化與高效能化。NVIDIA STX 這樣的模組化參考架構,將使得硬體供應商能更快速地推出針對特定 AI 挑戰的解決方案。而 CMX 儲存伺服器所展現的語境記憶管理能力,也預示著未來 AI 系統將更加重視「智慧儲存」在推論環節中的關鍵作用。這不僅是儲存技術的革新,更是整個 AI 運算生態系邁向更高效、更節能的里程碑。
隨著 AI 應用場景日益多元,對其基礎設施的要求也水漲船高。Supermicro 與 NVIDIA 的緊密合作,以及其在機架級架構上的持續創新,無疑將繼續引領市場,為全球的 AI 工廠客戶提供更具前瞻性的解決方案。這就好像在 AI 的高速公路上,他們不只是提供更好的引擎,更是在鋪設一條更智慧、更暢通的道路。