性能比肩GPT-4o,來自杭州的國產(chǎn)大模型引全球關注,它強在哪?

  潮新聞   2025-01-03 07:38:16

一個來自杭州的大模型在全球AI界刷屏。

近日,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)宣布,全新系列開源模型DeepSeek-V3首個版本上線。

消息一經(jīng)發(fā)布,就迅速在行業(yè)內引發(fā)關注和熱議,被海外科技圈視為“來自東方的神秘力量”。主要原因在于模型的預訓練成本極低,比OpenAI最新推出的AI大模型GPT-4o的低十幾倍。

DeepSeek-V3模型究竟是“何方神圣”?為什么會引起國內外關注?

和世界頂尖的閉源模型“不分伯仲”

當前,AI對于我們來說并不陌生。

2022年,ChatGPT橫空出世,敲開了人工智能的一扇門,給人們帶來了很多驚喜。隨之而來的,各種生成型AI產(chǎn)品如雨后春筍般冒出。

而這次在全球刷屏的DeepSeek-V3是“AI大模型”。簡單來說,它的作用相當于像ChatGPT這樣“人工智能聊天機器人”的“大腦”。

深度求索網(wǎng)頁截圖

“DeepSeek-V3和常見的AI大模型一樣,能夠針對用戶提出的問題提供詳細解答,無論是寫代碼、寫文章、知識問答、陪伴聊天,它都可以。但讓人驚喜的是,這是由我國本土公司自研,在性能上基本處于頭部的開源大模型?!北本├砉ご髮W校外碩士生導師、無界AI聯(lián)合創(chuàng)始人馬千里解釋道。

Meta AI 研究科學家田淵棟在社交媒體上的評價 圖源:社交媒體截圖

DeepSeek-V3性能有多強?官方數(shù)據(jù)顯示,該模型多項評測成績超越了頭部開源模型,它在性能上和世界頂尖的閉源模型GPT-4o不分伯仲。

比如在數(shù)學能力上,它在美國數(shù)學競賽(AIME 2024, MATH)測試上,得分高達90.2%,比GPT-4o 高出10分以上。

“DeepSeek-V3超越了迄今為止所有開源模型?!边@是國外獨立評測機構Artificial Analysis測試后得出的結論。

被稱之為“AI界的拼多多”

此次DeepSeek-V3在AI行業(yè)引發(fā)關注,關鍵的原因在于——超低的預訓練成本。

“預訓練”是AI大模型學習中的一種方法,指的是通過海量的數(shù)據(jù),訓練一個大模型。訓練時需要大量的數(shù)據(jù)和算力支持,每次迭代可能耗資數(shù)百萬至數(shù)億美元。

官方技術論文披露,DeepSeek-V3在預訓練階段僅使用2048塊GPU訓練了2個月,且只花費557.6萬美元。這個費用是什么概念?

據(jù)報道,GPT-4o的模型訓練成本約為1億美元。簡單粗暴地說,這相當于DeepSeek-V3比同等性能的AI大模型,降了十幾倍的成本。

深度求索網(wǎng)頁截圖

早在2024年5月,深度求索發(fā)布DeepSeek-V2時,就曾因給模型的定價太過于便宜,開啟了中國大模型的價格戰(zhàn),被稱之為“AI界的拼多多”。

“相比于說它是‘拼多多’,它更像小米,貼近成本定價,并且自產(chǎn)自銷。”馬千里認為,訓練成本比較低的原因,離不開深度求索團隊自研的架構和算力,他們自身的算力儲備可以與大廠比肩,并且更注重底層的模型。

著名 AI 科學家 Andrej Karpathy 在社交媒體的評價 圖源:社交媒體截圖

“ChatGPT走的是大參數(shù)、大算力、大投入的路子,DeepSeek-V3的路徑用了更多的巧思,依托數(shù)據(jù)與算法層面的優(yōu)化創(chuàng)新,從而高效利用算力,實現(xiàn)較好的模型效果。”馬千里說道。

這股“東方的神秘力量”來自杭州

其實DeepSeek-V2發(fā)布時,硅谷就驚訝地稱之為“來自東方的神秘力量”。

公開資料顯示,深度求索是由知名量化資管巨頭幻方量化創(chuàng)立?;梅搅炕且患乙揽咳斯ぶ悄芗夹g進行量化投資的對沖基金公司與科技公司,擁有強大的算力資源。2023年7月,深度求索在杭州成立,專注于AI大模型的研究和開發(fā)。

據(jù)報道,幻方量化和深度求索創(chuàng)始人梁文鋒本碩就讀于浙江大學,攻讀人工智能,是一個極致的80后技術理想主義者,念書時就篤定“AI定會改變世界”。

一些已經(jīng)嘗鮮 DeepSeek-V3 的用戶已經(jīng)開始在網(wǎng)上分享他們的體驗 圖源:社交媒體截圖

深度求索的出現(xiàn),給AI界帶來了怎樣的影響?

馬千里認為,DeepSeek-V3的爆火,不僅僅是因為其強大的性能和低廉的成本,它的出現(xiàn),體現(xiàn)了中國不僅僅是跟隨者,而是以一種創(chuàng)新的方式,在AI大模型發(fā)展上貢獻“中國版本”?!霸贏I的浪潮下,深度求索像是一朵浪花,是AI發(fā)展過程中的‘重要一環(huán)’?!?/p>

梁文鋒曾經(jīng)在接受媒體采訪時表示,過去很多年,中國公司習慣了別人做技術創(chuàng)新,他們拿過來做應用變現(xiàn),但這并非是一種理所當然。這一波浪潮里,他們的出發(fā)點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態(tài)發(fā)展。

三年前,ChatGPT的出現(xiàn),猶如投下了一枚重磅炸彈,掀起了行業(yè)的千層浪,隨后產(chǎn)品的更新,雖有亮眼之處,但未能再次給人電光火石的震撼感。與此同時,中國AI企業(yè)不斷向前邁進,全力加速,爭相推出具有競爭力的AI產(chǎn)品,此次DeepSeek-V3“出圈”,讓全球看到中國在AI大模型上的創(chuàng)新力。

如果你要問當前AI發(fā)展進度如何?也許正如深度求索官方所說:“這是一個全新的開始?!?/p>

責編:萬枝典

一審:歐陽伶亞

二審:朱曉華

三審:趙雨杉

來源:潮新聞

我要問