
DeepSeek發表研究報告,指出其R1模型的訓練成本僅294,000美元,並首次確認使用Nvidia A100晶片進行開發。
中國人工智慧新創公司DeepSeek在最新研究中驚人地宣稱,其R1模型的訓練成本僅為294,000美元,遠低於美國競爭對手。根據發布於《自然》雜誌的論文,該模型使用了超過500顆Nvidia H800 GPU進行訓練。不過,這一說法曾遭到業界質疑,特斯拉CEO馬斯克也暗示DeepSeek可能獲得了50,000顆H100晶片,但因美方出口管制無法公開討論。
此外,在補充論文中,DeepSeek首次承認擁有Nvidia的A100晶片並在初期開發階段使用。研究團隊指出,他們利用A100 GPU進行小型模型的實驗,隨後成功擴充套件至660B引數的R1-Zero和R1模型。DeepSeek的研究顯示,透過強化學習(RL),大型語言模型能有效提升推理能力,且在數學、程式設計和STEM領域的任務上表現優越,超越傳統監督學習的模型。
目前,DeepSeek正積極探索如何持續改進其技術,未來或將對市場造成更大衝擊。
點擊下方連結,開啟「美股K線APP」,獲得更多美股即時資訊喔!
https://www.cmoney.tw/r/56/9hlg37
發表
我的網誌


