
中國人工智慧初創公司深度探索發布了其實驗性模型DeepSeek-V3.2-Exp,專注於優化長文字的訓練與推論效率,同時降低API使用成本。
在最新消息中,中國人工智慧初創公司深度探索(DeepSeek)於週一在Hugging Face上宣佈推出其旗艦產品的實驗版本——DeepSeek-V3.2-Exp。這款新模型基於先前的DeepSeek-V3.1-Terminus進行改良,新增的Sparse Attention機制旨在提升長文字場景下的訓練和推論效率。
據DeepSeek表示,此次實驗性發布是該公司持續研究更高效變壓器架構的一部分,特別關注在處理延伸文字序列時的計算效率。此外,DeepSeek還大幅降低了新模型的API使用成本,輸入費用從$0.07減至$0.028,而對於快取未命中的情況則從$0.56降至$0.28;輸出費用則由$1.68降至$0.42。
深度探索在AI模型市場引起廣泛關注,其聲稱以較低成本訓練先進模型,與美國競爭者相比具有明顯優勢。最近的研究顯示,DeepSeek的R1模型訓練成本為294,000美元,並使用了超過500個Nvidia H800 GPU。而根據各種報導,微軟支援的OpenAI GPT-4模型則需使用逾10,000個GPU進行訓練。
隨著DeepSeek繼續擴充套件其技術邊界,業界不禁期待其年末推出的AI代理能否成功挑戰OpenAI的領導地位,將如何影響整體市場格局。
點擊下方連結,開啟「美股K線APP」,獲得更多美股即時資訊喔!
https://www.cmoney.tw/r/56/9hlg37
發表
我的網誌


