
DeepSeek (DEEPSEEK) 最新發布的DeepSeek-V3.2-Exp模型,專注於提升長文本處理效率,並降低API使用成本。這款實驗性版本於週一在Hugging Face平台上公布,代表著這家中國人工智慧新創公司對下一代架構的持續探索。
DeepSeek Sparse Attention提升運算效率
DeepSeek-V3.2-Exp模型引入了DeepSeek Sparse Attention機制,這項技術旨在優化長文本場景中的訓練和推理效率。根據DeepSeek的聲明,這次的實驗性發布是公司研究更高效轉換器架構的成果,特別著重於提升處理長文本序列的運算效率。
API成本顯著下降
在API成本方面,DeepSeek也進行了調整。新模型的輸入成本從每次快取命中0.07美元降至0.028美元,快取未命中則從0.56美元降至0.28美元。輸出成本也從1.68美元降至0.42美元,這些調整可能使其在AI市場中更具競爭力。
DeepSeek在AI市場中引起關注
DeepSeek因其在AI模型市場中聲稱能以美國競爭對手一小部分的成本訓練先進模型而受到矚目。最近,該公司發布了一項研究,顯示其專注於推理的R1模型耗費29.4萬美元,並使用略多於500張輝達(NVDA)的H800 GPU進行訓練。相比之下,據多方報導指出,微軟(MSFT)支持的OpenAI的GPT-4模型則使用了超過1萬張GPU進行訓練。
發表
我的網誌