潮新聞 2025-01-03 07:38:16
一個來自杭州的大模型在全球AI界刷屏。
近日,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡稱“深度求索”)宣布,全新系列開源模型DeepSeek-V3首個版本上線。
消息一經(jīng)發(fā)布,就迅速在行業(yè)內(nèi)引發(fā)關(guān)注和熱議,被海外科技圈視為“來自東方的神秘力量”。主要原因在于模型的預(yù)訓(xùn)練成本極低,比OpenAI最新推出的AI大模型GPT-4o的低十幾倍。
DeepSeek-V3模型究竟是“何方神圣”?為什么會引起國內(nèi)外關(guān)注?
和世界頂尖的閉源模型“不分伯仲”
當(dāng)前,AI對于我們來說并不陌生。
2022年,ChatGPT橫空出世,敲開了人工智能的一扇門,給人們帶來了很多驚喜。隨之而來的,各種生成型AI產(chǎn)品如雨后春筍般冒出。
而這次在全球刷屏的DeepSeek-V3是“AI大模型”。簡單來說,它的作用相當(dāng)于像ChatGPT這樣“人工智能聊天機器人”的“大腦”。
深度求索網(wǎng)頁截圖
“DeepSeek-V3和常見的AI大模型一樣,能夠針對用戶提出的問題提供詳細解答,無論是寫代碼、寫文章、知識問答、陪伴聊天,它都可以。但讓人驚喜的是,這是由我國本土公司自研,在性能上基本處于頭部的開源大模型?!北本├砉ご髮W(xué)校外碩士生導(dǎo)師、無界AI聯(lián)合創(chuàng)始人馬千里解釋道。
Meta AI 研究科學(xué)家田淵棟在社交媒體上的評價 圖源:社交媒體截圖
DeepSeek-V3性能有多強?官方數(shù)據(jù)顯示,該模型多項評測成績超越了頭部開源模型,它在性能上和世界頂尖的閉源模型GPT-4o不分伯仲。
比如在數(shù)學(xué)能力上,它在美國數(shù)學(xué)競賽(AIME 2024, MATH)測試上,得分高達90.2%,比GPT-4o 高出10分以上。
“DeepSeek-V3超越了迄今為止所有開源模型。”這是國外獨立評測機構(gòu)Artificial Analysis測試后得出的結(jié)論。
被稱之為“AI界的拼多多”
此次DeepSeek-V3在AI行業(yè)引發(fā)關(guān)注,關(guān)鍵的原因在于——超低的預(yù)訓(xùn)練成本。
“預(yù)訓(xùn)練”是AI大模型學(xué)習(xí)中的一種方法,指的是通過海量的數(shù)據(jù),訓(xùn)練一個大模型。訓(xùn)練時需要大量的數(shù)據(jù)和算力支持,每次迭代可能耗資數(shù)百萬至數(shù)億美元。
官方技術(shù)論文披露,DeepSeek-V3在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個月,且只花費557.6萬美元。這個費用是什么概念?
據(jù)報道,GPT-4o的模型訓(xùn)練成本約為1億美元。簡單粗暴地說,這相當(dāng)于DeepSeek-V3比同等性能的AI大模型,降了十幾倍的成本。
深度求索網(wǎng)頁截圖
早在2024年5月,深度求索發(fā)布DeepSeek-V2時,就曾因給模型的定價太過于便宜,開啟了中國大模型的價格戰(zhàn),被稱之為“AI界的拼多多”。
“相比于說它是‘拼多多’,它更像小米,貼近成本定價,并且自產(chǎn)自銷。”馬千里認為,訓(xùn)練成本比較低的原因,離不開深度求索團隊自研的架構(gòu)和算力,他們自身的算力儲備可以與大廠比肩,并且更注重底層的模型。
著名 AI 科學(xué)家 Andrej Karpathy 在社交媒體的評價 圖源:社交媒體截圖
“ChatGPT走的是大參數(shù)、大算力、大投入的路子,DeepSeek-V3的路徑用了更多的巧思,依托數(shù)據(jù)與算法層面的優(yōu)化創(chuàng)新,從而高效利用算力,實現(xiàn)較好的模型效果?!瘪R千里說道。
這股“東方的神秘力量”來自杭州
其實DeepSeek-V2發(fā)布時,硅谷就驚訝地稱之為“來自東方的神秘力量”。
公開資料顯示,深度求索是由知名量化資管巨頭幻方量化創(chuàng)立?;梅搅炕且患乙揽咳斯ぶ悄芗夹g(shù)進行量化投資的對沖基金公司與科技公司,擁有強大的算力資源。2023年7月,深度求索在杭州成立,專注于AI大模型的研究和開發(fā)。
據(jù)報道,幻方量化和深度求索創(chuàng)始人梁文鋒本碩就讀于浙江大學(xué),攻讀人工智能,是一個極致的80后技術(shù)理想主義者,念書時就篤定“AI定會改變世界”。
一些已經(jīng)嘗鮮 DeepSeek-V3 的用戶已經(jīng)開始在網(wǎng)上分享他們的體驗 圖源:社交媒體截圖
深度求索的出現(xiàn),給AI界帶來了怎樣的影響?
馬千里認為,DeepSeek-V3的爆火,不僅僅是因為其強大的性能和低廉的成本,它的出現(xiàn),體現(xiàn)了中國不僅僅是跟隨者,而是以一種創(chuàng)新的方式,在AI大模型發(fā)展上貢獻“中國版本”。“在AI的浪潮下,深度求索像是一朵浪花,是AI發(fā)展過程中的‘重要一環(huán)’。”
梁文鋒曾經(jīng)在接受媒體采訪時表示,過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,他們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,他們的出發(fā)點,就不是趁機賺一筆,而是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展。
三年前,ChatGPT的出現(xiàn),猶如投下了一枚重磅炸彈,掀起了行業(yè)的千層浪,隨后產(chǎn)品的更新,雖有亮眼之處,但未能再次給人電光火石的震撼感。與此同時,中國AI企業(yè)不斷向前邁進,全力加速,爭相推出具有競爭力的AI產(chǎn)品,此次DeepSeek-V3“出圈”,讓全球看到中國在AI大模型上的創(chuàng)新力。
如果你要問當(dāng)前AI發(fā)展進度如何?也許正如深度求索官方所說:“這是一個全新的開始?!?/p>
責(zé)編:萬枝典
一審:歐陽伶亞
二審:朱曉華
三審:趙雨杉
來源:潮新聞
我要問