“AI界的拼多多”DeepSeek發(fā)布新模型

  澎湃新聞   2024-12-28 17:07:02

12月26日晚間,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡稱“深度求索”)宣布,全新系列模型DeepSeek-V3首個(gè)版本上線并同步開源。

深度求索表示,DeepSeek-V3在知識類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5顯著提升,接近當(dāng)前表現(xiàn)最好的模型Anthropic公司于10月發(fā)布的Claude-3.5-Sonnet-1022。在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3大幅超過了其他所有開源閉源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度從20TPS(Transactions Per Second每秒完成的事務(wù)數(shù)量)大幅提高至60TPS,相比V2.5模型實(shí)現(xiàn)了3倍的提升,能夠帶來更加流暢的使用體驗(yàn)。

DeepSeek-V3和其他模型的比較。圖片來源:Deep Seek微信公眾號

Meta AI研究科學(xué)家田淵棟對DeepSeek-V3各個(gè)方向上的進(jìn)展都表示贊賞,稱“這是一項(xiàng)了不起的工作”。

據(jù)官方技術(shù)論文披露,DeepSeek-V3模型的總訓(xùn)練成本為557.6萬美元,而GPT-4o等模型的訓(xùn)練成本約為1億美元。深度求索表示,“這是一個(gè)全新的開始?!?。

公開信息顯示,深度求索成立于2023年7月17日,由知名量化資管巨頭幻方量化創(chuàng)立,幻方量化創(chuàng)始人梁文峰在量化投資和高性能計(jì)算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗(yàn)。成立半年后,發(fā)布了第一代大模型DeepSeek Coder;2024年5月發(fā)布了其第二代開源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek V2模型因在中文綜合能力評測中的出色表現(xiàn),且以極低的推理成本引發(fā)行業(yè)關(guān)注,被稱為“AI界的拼多多”。DeepSeek-V3模型API服務(wù)定價(jià)為每百萬輸入tokens為0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens價(jià)格為8元,并享有45天的優(yōu)惠價(jià)格體驗(yàn)期。

責(zé)編:周順

一審:周順

二審:段涵敏

三審:楊又華

來源:澎湃新聞

我要問