
隨著人工智慧發展進入新階段,大型語言模型訓練雖然主導了初期發展,但市場普遍預期「AI推理」將成為未來更龐大的商機。相較於耗費龐大算力的訓練過程,推理更依賴記憶體效能,且作為持續性的運作過程,對成本效益的要求更高。傳統上,圖形處理器(GPU)等AI加速器會搭配高頻寬記憶體來優化效能,但如今輝達(NVDA)與Cerebras Systems(CBRS)正將目光轉向晶片上的靜態隨機存取記憶體(SRAM),藉此大幅提升AI推理的工作速度。這項全新方法雖然能顯著提升推理速度,但SRAM體積龐大的物理特性,也使得晶片尺寸、記憶體容量與資料中心冷卻基礎設施之間面臨取捨。
Cerebras(CBRS)打造巨型晶片,速度狂飆15倍但成本高昂
為了解決SRAM體積龐大的物理限制,Cerebras Systems(CBRS)選擇打造晶圓尺寸的超大晶片,將龐大的運算能力與SRAM整合在單一晶片上。然而,這種複雜的製造過程伴隨著高昂成本與良率挑戰。儘管台積電(TSM)在先進製程上具備極高的良率優勢,但面對如此昂貴的晶圓級晶片,傳統的良率標準仍顯不足。為此,Cerebras加入了備用核心來應對潛在的晶片缺陷,並搭配專屬的散熱與電源管理系統。這使得該公司不單獨販售晶片,而是以完整的CS-3伺服器機櫃形式出售或出租,雖然號稱推理速度比傳統GPU快上15倍,但也成為一種極度昂貴的高階解決方案。
輝達(NVDA)斥資200億美元整合LPU,發揮CUDA生態系優勢
另一方面,輝達(NVDA)透過斥資200億美元「收購」Groq,取得了專為AI推理設計的語言處理單元(LPU)。儘管LPU同樣採用SRAM技術,但其為一般尺寸晶片,這意味著單一晶片上的SRAM容量極小,必須透過大規模且複雜的叢集將眾多LPU連接起來,從而降低了整體效率。相較之下,Cerebras的晶片速度快上6倍,但用途較為單一,僅限於推理。然而,輝達的最大優勢在於其強大的CUDA軟體平台,並成功將GPU與LPU整合至專為推理打造的完整機櫃系統中。搭配高頻寬記憶體的GPU負責理解使用者提示詞,而配備SRAM的LPU則接手解碼工作,實現幾乎無延遲的極速反應。
估值過高成隱憂,輝達(NVDA)憑藉主流地位穩居優勢
在AI推理市場的激烈競爭中,Cerebras Systems(CBRS)獲得了OpenAI的大規模支持,具備顛覆市場的潛力,但其股價面臨極高的估值壓力,仍需證明自己能跨越小眾市場的局限。相對而言,輝達(NVDA)早已在大型語言模型訓練領域站穩龍頭地位,透過結合GPU與LPU的策略,成功將小眾產品推向主流市場。綜合評估兩家公司的市場定位與技術整合能力,輝達在生態系的完整度與主流市場的掌握度上,展現出更穩健的競爭優勢與營運潛力。
發表
我的網誌