氫能科技

沙蓬綠色種養(yǎng)產(chǎn)業(yè)模式

誠邀企業(yè)合作

誠邀企業(yè)合作

誠邀企業(yè)合作

誠邀企業(yè)合作

誠邀企業(yè)合作

誠邀企業(yè)合作

誠邀企業(yè)合作

首頁 > 資訊 > 人工智能

國產(chǎn)大模型破局啟示：DeepSeek顛覆了什么？

2025-02-07 經(jīng)濟(jì)參考報(bào)35

核心提示：一家人工智能初創(chuàng)企業(yè)淺淺扇動(dòng)兩下翅膀，即掀起全球科技界的一陣“海嘯”。短短30天，中國初創(chuàng)企業(yè)深度求索（DeepSeek）先后發(fā)布

一家人工智能初創(chuàng)企業(yè)淺淺扇動(dòng)兩下翅膀，即掀起全球科技界的一陣“海嘯”。

短短30天，中國初創(chuàng)企業(yè)深度求索（DeepSeek）先后發(fā)布兩款性能比肩GPT-4o的大模型，“1/18的訓(xùn)練成本、1/10的團(tuán)隊(duì)規(guī)模、不分伯仲的模型性能”令硅谷大受震撼。

最新一期《經(jīng)濟(jì)學(xué)人》封面文章第一時(shí)間讓位給這一土生土長的國產(chǎn)大模型：《低成本中國模型的成功動(dòng)搖美國科技優(yōu)勢》。很快，華爾街也同樣感受到了這種被動(dòng)搖的震感。

事實(shí)上，這匹黑馬的貢獻(xiàn)絕非“低成本”這一個(gè)標(biāo)簽所能概括。它不僅重新定義了大模型的生產(chǎn)函數(shù)，還將重新定義計(jì)算。

不論開源與閉源未來的優(yōu)勢如何，這股沖擊波都將迫使全球科技界重新思考：當(dāng)“規(guī)模定律”與“生態(tài)壁壘”不再絕對，什么才是下一賽季AI競爭的核心？或許我們能從中獲得新的啟示。

擊穿三大定式

1月下旬，DeepSeek在中區(qū)、美區(qū)蘋果App Store下載榜單中登頂，超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產(chǎn)品。具體而言，它顛覆了什么？

——打破“越強(qiáng)越貴”的成本詛咒

價(jià)格感人是讓DeepSeek快速出圈的第一個(gè)標(biāo)簽。DeepSeek-R1的API服務(wù)定價(jià)為每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元，而o1模型上述三項(xiàng)服務(wù)的定價(jià)分別是55元、110元、438元。

凡是使用過幾款大模型的用戶很快就能形成這樣一個(gè)共識：就推理能力而言，DeepSeek直逼OpenAI的o1、meta的Llama-3等一流模型，甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機(jī)構(gòu)Menlo Ventures負(fù)責(zé)人Deedy對比谷歌Gemini和DeepSeek-R1后表示，DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型，令硅谷的“燒錢模式”一時(shí)間遭到猛烈質(zhì)疑。

然而在過去，大模型服務(wù)是標(biāo)準(zhǔn)的“一分錢一分貨”，想要用上更優(yōu)性能的產(chǎn)品必須支付更高昂的費(fèi)用，以覆蓋整個(gè)模型訓(xùn)練過程中更高算力成本的支出。

——超越“性能-成本-速度”的不可能三角

當(dāng)硅谷仍在為GPU萬卡集群豪擲千億資金時(shí)，一群土生土長的中國年輕人用557.6萬美元證明：AI大模型的比拼或許并不只靠規(guī)模，更重要的是看實(shí)際效果。有句話形象地概括出DeepSeek的優(yōu)勢：“不是GPT用不起，而是DeepSeek更具性價(jià)比?！?/p>

傳統(tǒng)模型訓(xùn)練，需要在性能、成本、速度之間權(quán)衡，其高性能的獲得，需要極高的成本投入、更漫長的計(jì)算時(shí)間。而DeepSeek重構(gòu)了大模型的“成本-性能”曲線，同時(shí)壓縮了計(jì)算周期。

根據(jù)DeepSeek技術(shù)報(bào)告，DeepSeek-V3模型的訓(xùn)練成本為557.6萬美元，訓(xùn)練使用的是算力受限的英偉達(dá)H800 GPU集群。相比之下，同樣是開源模型的meta旗下Llama-3.1模型的訓(xùn)練成本超過6000萬美元，而OpenAI的GPT-4o模型的訓(xùn)練成本為1億美元，且使用的是性能更加優(yōu)異的英偉達(dá)H100 GPU集群。而使用過程中，DeepSeek給出反饋的時(shí)長也大部分控制在5秒至35秒之間，通過算法輕量化、計(jì)算效率最大化、資源利用率優(yōu)化，成功壓縮了計(jì)算時(shí)間，降低了延遲。

——走出“參數(shù)膨脹”陷阱

ChatGPT橫空出世后700多天里，全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學(xué)”路線，參數(shù)越“煉”越大，給算力、數(shù)據(jù)、能耗帶來了極大壓力。很長一段時(shí)間，參數(shù)幾乎成為大模型廠商比拼的最大焦點(diǎn)。

而另辟蹊徑的DeepSeek恰巧處于對角線的另一端：并不盲目追求參數(shù)之大，而是選擇了一條通過探索更高效訓(xùn)練方法以實(shí)現(xiàn)性能提升的“小而精”路線，打破了“參數(shù)膨脹”的慣性。

例如DeepSeek-R1（4B參數(shù)）在數(shù)學(xué)推理、代碼生成等任務(wù)上具有比肩70B參數(shù)模型（如Llama-2）的能力，通過算法優(yōu)化、數(shù)據(jù)質(zhì)量提升，小參數(shù)模型一樣能實(shí)現(xiàn)高性能，甚至能夠“四兩撥千斤”。

實(shí)現(xiàn)三大躍升

“DeepSeek出圈，很好地證明了我們的競爭優(yōu)勢：通過有限資源的極致高效利用，實(shí)現(xiàn)以少勝多。中國與美國在AI領(lǐng)域的差距正在縮小?！泵姹谥悄苁紫茖W(xué)家劉知遠(yuǎn)說。

算力封鎖下的有力破局，得益于DeepSeek技術(shù)架構(gòu)、數(shù)據(jù)策略、工程實(shí)踐三方面的關(guān)鍵突破。

——技術(shù)架構(gòu)：重新定義參數(shù)效率

大模型的千億參數(shù)不應(yīng)是冰冷的數(shù)字堆砌，而應(yīng)是巧奪天工般地重組整合。

傳統(tǒng)大模型Transformer架構(gòu)好比一條承載車輛的高速公路，當(dāng)車輛（數(shù)據(jù)）數(shù)量足夠多的時(shí)候，每輛車必須和前后所有車溝通完成才能繼續(xù)行駛（計(jì)算），導(dǎo)致堵車（計(jì)算慢、能耗高）。而DeepSeek創(chuàng)新的架構(gòu)則把一條串行的高速路，變成了一個(gè)輻射狀的快遞分揀中心，先把貨物（數(shù)據(jù)）按類型分類打包，再分不同路線同時(shí)出發(fā)開往不同目的地，每輛貨車（計(jì)算）只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗。

——數(shù)據(jù)策略：質(zhì)量驅(qū)動(dòng)的成本控制

DeepSeek研發(fā)團(tuán)隊(duì)相信，用“煉數(shù)據(jù)”取代“堆數(shù)據(jù)”，能使訓(xùn)練更具效率。

傳統(tǒng)的數(shù)據(jù)策略好比去農(nóng)場隨便采撿，常有價(jià)值不高的爛菜葉（低質(zhì)量數(shù)據(jù)）。而DeepSeek創(chuàng)新的數(shù)據(jù)蒸餾技術(shù)，有針對性地篩選掉質(zhì)量不高的爛菜葉：一方面自動(dòng)識別高價(jià)值數(shù)據(jù)片段（如代碼邏輯推理鏈），相比隨機(jī)采樣訓(xùn)練效率提升3.2倍，另一方面通過對抗訓(xùn)練生成合成數(shù)據(jù)，將高質(zhì)量代碼數(shù)據(jù)獲取成本從每100個(gè)tokens的0.8元降低至0.12元。

——工程實(shí)踐：架起“超級工廠”流水線

大模型傳統(tǒng)的訓(xùn)練方式好比手工造車，一次只能裝配一臺，效率低下。而DeepSeek的3D并行相當(dāng)于一方面通過流水線并行把造車流程拆分為10個(gè)步驟，同時(shí)組裝10輛車（數(shù)據(jù)分塊處理），另一方面通過張量并行，把發(fā)動(dòng)機(jī)拆成零件，分給10個(gè)工廠同時(shí)生產(chǎn)（模型分片計(jì)算）。

至于推理過程，傳統(tǒng)模型好比現(xiàn)點(diǎn)現(xiàn)做的餐廳，客戶等菜時(shí)間長，推理過程慢。而DeepSeek采用的INT4量化，能把復(fù)雜菜品提前做成預(yù)制菜，加熱（計(jì)算）時(shí)間減半，口味損失不到5%，實(shí)現(xiàn)了大模型的低成本工業(yè)化。

超越技術(shù)的啟示

拆解DeepSeek的成功公式不難發(fā)現(xiàn)，通過底層架構(gòu)創(chuàng)新降低AGI成本，同時(shí)以開源策略構(gòu)建生態(tài)護(hù)城河，提供了中小型機(jī)構(gòu)突破算力限制的可行路徑。此外，我們還能從中得到一些超越技術(shù)的啟示。

一直以來，驅(qū)動(dòng)DeepSeek的目標(biāo)并非利潤而是使命?！疤剿魑粗林场钡脑妇耙仓赶蛞环N與之匹配的極簡且清爽的組織架構(gòu)。

一名人工智能科學(xué)家表示，在人工智能大模型領(lǐng)域，大廠、高校、傳統(tǒng)科研機(jī)構(gòu)、初創(chuàng)公司在資源稟賦上其實(shí)各有優(yōu)勢，但結(jié)構(gòu)性的局限很難扭轉(zhuǎn)。DeepSeek這種類型的初創(chuàng)公司能很好地彌補(bǔ)其中的一個(gè)缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力、創(chuàng)業(yè)團(tuán)隊(duì)扁平化組織機(jī)制帶來的絲滑流暢的協(xié)作度。

據(jù)不具名人士透露，其V3模型的關(guān)鍵訓(xùn)練架構(gòu)MLA就源于一位年輕研究員的個(gè)人興趣，經(jīng)過研判后DeepSeek組建了專項(xiàng)團(tuán)隊(duì)開展大規(guī)模驗(yàn)證與攻關(guān)。而R1模型果斷調(diào)整強(qiáng)化學(xué)習(xí)路線，領(lǐng)先于其他機(jī)構(gòu)實(shí)現(xiàn)了近似o1的推理能力，核心原因之一也歸功于其青年團(tuán)隊(duì)對前沿技術(shù)的敏銳嗅覺與大膽嘗試。

“我們創(chuàng)新缺少的不是資本，而是信心，以及組織高密度人才的能力，調(diào)動(dòng)他們高效地進(jìn)行創(chuàng)造力與好奇心驅(qū)動(dòng)的創(chuàng)新?！盌eepSeek創(chuàng)始人梁文鋒說。

在DeepSeek身上，我們看到了皮克斯動(dòng)畫工作室的影子。這個(gè)年輕的中國初創(chuàng)企業(yè)與那個(gè)創(chuàng)作27部長片有19部獲得奧斯卡最佳動(dòng)畫、同樣以創(chuàng)新為鮮明標(biāo)簽的組織，有著不謀而合的組織機(jī)制與范式選擇，以及由此帶來的高企的創(chuàng)新成功率與人才留存率。

不同于先發(fā)者略顯封鎖的護(hù)城堡壘，DeepSeek贏得贊譽(yù)的還有它的開源路線。將代碼、模型權(quán)重和訓(xùn)練日志全部公開，不僅需要格局，更需要勇氣與實(shí)力。

“在顛覆性技術(shù)面前，閉源形成的護(hù)城河是短暫的。即使OpenAI閉源，也無法阻止被別人趕超?！绷何匿h這樣解釋選擇開源的原因，“開源、發(fā)論文，其實(shí)并不會失去什么。對于技術(shù)人員來說，被follow（追隨模仿）是很有成就感的事。”

從技術(shù)到愿景，DeepSeek堅(jiān)定選擇的始終是一條難且正確的路。這也是為什么，即便別國在人工智能領(lǐng)域已坐享先發(fā)優(yōu)勢，后發(fā)者依然有機(jī)會憑借技術(shù)創(chuàng)新、成本革命打破大模型競爭的傳統(tǒng)邏輯，打破人工智能行業(yè)競爭格局，打破“他國更擅長從0到1的原始創(chuàng)新，而中國更擅長從1到10的應(yīng)用創(chuàng)新”的成見，重塑競爭優(yōu)勢的奧秘。

北京時(shí)間2月1日凌晨，在OpenAI發(fā)布其推理系列最新模型o3-mini時(shí)，我們從中看到了一個(gè)熟悉的字眼：“Deep research”。這是否是國產(chǎn)之光“被follow”的開端盡管不好斷言，但我們至少身體力行走出了一條“大力出奇跡”之外，另一條具有自主創(chuàng)新基因的制勝之道。

正如梁文鋒此前接受采訪時(shí)所說，“中國要逐步成為貢獻(xiàn)者，而不是一直‘搭便車’?！?/p>

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載自其它媒體的文章，目的在于弘揚(yáng)科技創(chuàng)新精神，傳遞更多科技創(chuàng)新信息，宣傳國家科技政策，展示國家科技形象，增強(qiáng)國家科技軟實(shí)力，參與國際科技輿論競爭，提高國際科技話語權(quán)，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)，在此我們謹(jǐn)向原作者和原媒體致以敬意。如果您認(rèn)為本網(wǎng)文章及圖片侵犯了您的版權(quán)，請與我們聯(lián)系，我們將第一時(shí)間刪除。

[db:關(guān)鍵詞]

更多>同類資訊

推薦圖文

已正式開啟報(bào)名！英特	AI PC釋放開發(fā)創(chuàng)意，
從AI PC到智慧醫(yī)療，	為創(chuàng)新成長提速—「阿

推薦資訊

點(diǎn)擊排行

粵公網(wǎng)安備 44040202001358號

• AI浪潮激發(fā)市場需求多家PCB上市公司業(yè)績乘勢而	• 人形機(jī)器人產(chǎn)業(yè)蓬勃發(fā)展企業(yè)積極探索商業(yè)化路
• 工業(yè)和信息化部發(fā)文提升衛(wèi)星網(wǎng)絡(luò)國內(nèi)協(xié)調(diào)效率	• 外骨骼機(jī)器人加速入局“銀發(fā)經(jīng)濟(jì)”
• 華為打造行業(yè)數(shù)智化轉(zhuǎn)型全球樣板	• AI時(shí)代通信業(yè)如何找準(zhǔn)定位
• 上海：人工智能行業(yè)火熱為招聘市場注入“暖意	• AI引領(lǐng)變革國際競合格局重塑
• 云南省科學(xué)技術(shù)院召開專家咨詢委員會成立大會	• 自治區(qū)科技廳召開科技賦能文化旅游產(chǎn)業(yè)高質(zhì)量發(fā)
• 2025通遼市科技工作會議召開	• 湖北建設(shè)全國碳市場中心實(shí)施方案：建設(shè)全國碳市
• 青海省科技廳舉辦“春韻蝶舞·螺鈿藝彩” “三	• 探尋零碳園區(qū)的“綠色密碼”
• 東方市板橋鎮(zhèn)新園村：集體經(jīng)濟(jì)“破繭”之路從	• 沉浸式體驗(yàn)助力青少年傳承非遺

日韩成人免费在线_777奇米影视狠狠一区_亚洲欧美国产精品_亚洲AV日韩Aⅴ无码_午夜视频国产在线

國產(chǎn)大模型破局啟示：DeepSeek顛覆了什么？