91香蕉视频下载网站,欧美日韩精品视频在线一区二区

性能比肩GPT-4o，來自杭州的國產(chǎn)大模型引全球關(guān)注，它強在哪？

潮新聞 2025-01-03 07:38:16

一個來自杭州的大模型在全球AI界刷屏。

近日，杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司（以下簡稱“深度求索”）宣布，全新系列開源模型DeepSeek-V3首個版本上線。

消息一經(jīng)發(fā)布，就迅速在行業(yè)內(nèi)引發(fā)關(guān)注和熱議，被海外科技圈視為“來自東方的神秘力量”。主要原因在于模型的預(yù)訓(xùn)練成本極低，比OpenAI最新推出的AI大模型GPT-4o的低十幾倍。

DeepSeek-V3模型究竟是“何方神圣”？為什么會引起國內(nèi)外關(guān)注？

和世界頂尖的閉源模型“不分伯仲”

當(dāng)前，AI對于我們來說并不陌生。

2022年，ChatGPT橫空出世，敲開了人工智能的一扇門，給人們帶來了很多驚喜。隨之而來的，各種生成型AI產(chǎn)品如雨后春筍般冒出。

而這次在全球刷屏的DeepSeek-V3是“AI大模型”。簡單來說，它的作用相當(dāng)于像ChatGPT這樣“人工智能聊天機器人”的“大腦”。

深度求索網(wǎng)頁截圖

“DeepSeek-V3和常見的AI大模型一樣，能夠針對用戶提出的問題提供詳細解答，無論是寫代碼、寫文章、知識問答、陪伴聊天，它都可以。但讓人驚喜的是，這是由我國本土公司自研，在性能上基本處于頭部的開源大模型?！北本├砉ご髮W(xué)校外碩士生導(dǎo)師、無界AI聯(lián)合創(chuàng)始人馬千里解釋道。

Meta AI 研究科學(xué)家田淵棟在社交媒體上的評價圖源：社交媒體截圖

DeepSeek-V3性能有多強？官方數(shù)據(jù)顯示，該模型多項評測成績超越了頭部開源模型，它在性能上和世界頂尖的閉源模型GPT-4o不分伯仲。

比如在數(shù)學(xué)能力上，它在美國數(shù)學(xué)競賽（AIME 2024, MATH）測試上，得分高達90.2%，比GPT-4o 高出10分以上。

“DeepSeek-V3超越了迄今為止所有開源模型。”這是國外獨立評測機構(gòu)Artificial Analysis測試后得出的結(jié)論。

被稱之為“AI界的拼多多”

此次DeepSeek-V3在AI行業(yè)引發(fā)關(guān)注，關(guān)鍵的原因在于——超低的預(yù)訓(xùn)練成本。

“預(yù)訓(xùn)練”是AI大模型學(xué)習(xí)中的一種方法，指的是通過海量的數(shù)據(jù)，訓(xùn)練一個大模型。訓(xùn)練時需要大量的數(shù)據(jù)和算力支持，每次迭代可能耗資數(shù)百萬至數(shù)億美元。

官方技術(shù)論文披露，DeepSeek-V3在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個月，且只花費557.6萬美元。這個費用是什么概念？

據(jù)報道，GPT-4o的模型訓(xùn)練成本約為1億美元。簡單粗暴地說，這相當(dāng)于DeepSeek-V3比同等性能的AI大模型，降了十幾倍的成本。

深度求索網(wǎng)頁截圖

早在2024年5月，深度求索發(fā)布DeepSeek-V2時，就曾因給模型的定價太過于便宜，開啟了中國大模型的價格戰(zhàn)，被稱之為“AI界的拼多多”。

“相比于說它是‘拼多多’，它更像小米，貼近成本定價，并且自產(chǎn)自銷。”馬千里認為，訓(xùn)練成本比較低的原因，離不開深度求索團隊自研的架構(gòu)和算力，他們自身的算力儲備可以與大廠比肩，并且更注重底層的模型。

著名 AI 科學(xué)家 Andrej Karpathy 在社交媒體的評價圖源：社交媒體截圖

“ChatGPT走的是大參數(shù)、大算力、大投入的路子，DeepSeek-V3的路徑用了更多的巧思，依托數(shù)據(jù)與算法層面的優(yōu)化創(chuàng)新，從而高效利用算力，實現(xiàn)較好的模型效果?！瘪R千里說道。

這股“東方的神秘力量”來自杭州

其實DeepSeek-V2發(fā)布時，硅谷就驚訝地稱之為“來自東方的神秘力量”。

公開資料顯示，深度求索是由知名量化資管巨頭幻方量化創(chuàng)立?；梅搅炕且患乙揽咳斯ぶ悄芗夹g(shù)進行量化投資的對沖基金公司與科技公司，擁有強大的算力資源。2023年7月，深度求索在杭州成立，專注于AI大模型的研究和開發(fā)。

據(jù)報道，幻方量化和深度求索創(chuàng)始人梁文鋒本碩就讀于浙江大學(xué)，攻讀人工智能，是一個極致的80后技術(shù)理想主義者，念書時就篤定“AI定會改變世界”。

一些已經(jīng)嘗鮮 DeepSeek-V3 的用戶已經(jīng)開始在網(wǎng)上分享他們的體驗圖源：社交媒體截圖

深度求索的出現(xiàn)，給AI界帶來了怎樣的影響？

馬千里認為，DeepSeek-V3的爆火，不僅僅是因為其強大的性能和低廉的成本，它的出現(xiàn)，體現(xiàn)了中國不僅僅是跟隨者，而是以一種創(chuàng)新的方式，在AI大模型發(fā)展上貢獻“中國版本”。“在AI的浪潮下，深度求索像是一朵浪花，是AI發(fā)展過程中的‘重要一環(huán)’。”

梁文鋒曾經(jīng)在接受媒體采訪時表示，過去很多年，中國公司習(xí)慣了別人做技術(shù)創(chuàng)新，他們拿過來做應(yīng)用變現(xiàn)，但這并非是一種理所當(dāng)然。這一波浪潮里，他們的出發(fā)點，就不是趁機賺一筆，而是走到技術(shù)的前沿，去推動整個生態(tài)發(fā)展。

三年前，ChatGPT的出現(xiàn)，猶如投下了一枚重磅炸彈,掀起了行業(yè)的千層浪，隨后產(chǎn)品的更新，雖有亮眼之處，但未能再次給人電光火石的震撼感。與此同時，中國AI企業(yè)不斷向前邁進，全力加速，爭相推出具有競爭力的AI產(chǎn)品，此次DeepSeek-V3“出圈”，讓全球看到中國在AI大模型上的創(chuàng)新力。

如果你要問當(dāng)前AI發(fā)展進度如何？也許正如深度求索官方所說：“這是一個全新的開始?！?/p>

責(zé)編：萬枝典

一審：歐陽伶亞

二審：朱曉華

三審：趙雨杉

來源：潮新聞

我要問