日韩成人免费在线_777奇米影视狠狠一区_亚洲欧美国产精品_亚洲AV日韩Aⅴ无码_午夜视频国产在线

氫能科技 沙蓬綠色種養(yǎng)產(chǎn)業(yè)模式 聯(lián)源科技 超聯(lián)科技 園區(qū) 園區(qū) 園區(qū) 園區(qū) 園區(qū)

國產(chǎn)大模型破局啟示:DeepSeek顛覆了什么?

   2025-02-07 經(jīng)濟(jì)參考報(bào)
35
核心提示:一家人工智能初創(chuàng)企業(yè)淺淺扇動(dòng)兩下翅膀,即掀起全球科技界的一陣“海嘯”。短短30天,中國初創(chuàng)企業(yè)深度求索(DeepSeek)先后發(fā)布

一家人工智能初創(chuàng)企業(yè)淺淺扇動(dòng)兩下翅膀,即掀起全球科技界的一陣“海嘯”。

短短30天,中國初創(chuàng)企業(yè)深度求索(DeepSeek)先后發(fā)布兩款性能比肩GPT-4o的大模型,“1/18的訓(xùn)練成本、1/10的團(tuán)隊(duì)規(guī)模、不分伯仲的模型性能”令硅谷大受震撼。

最新一期《經(jīng)濟(jì)學(xué)人》封面文章第一時(shí)間讓位給這一土生土長的國產(chǎn)大模型:《低成本中國模型的成功動(dòng)搖美國科技優(yōu)勢》。很快,華爾街也同樣感受到了這種被動(dòng)搖的震感。

事實(shí)上,這匹黑馬的貢獻(xiàn)絕非“低成本”這一個(gè)標(biāo)簽所能概括。它不僅重新定義了大模型的生產(chǎn)函數(shù),還將重新定義計(jì)算。

不論開源與閉源未來的優(yōu)勢如何,這股沖擊波都將迫使全球科技界重新思考:當(dāng)“規(guī)模定律”與“生態(tài)壁壘”不再絕對,什么才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。

擊穿三大定式

1月下旬,DeepSeek在中區(qū)、美區(qū)蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產(chǎn)品。具體而言,它顛覆了什么?

——打破“越強(qiáng)越貴”的成本詛咒

價(jià)格感人是讓DeepSeek快速出圈的第一個(gè)標(biāo)簽。DeepSeek-R1的API服務(wù)定價(jià)為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,而o1模型上述三項(xiàng)服務(wù)的定價(jià)分別是55元、110元、438元。

凡是使用過幾款大模型的用戶很快就能形成這樣一個(gè)共識:就推理能力而言,DeepSeek直逼OpenAI的o1、meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機(jī)構(gòu)Menlo Ventures負(fù)責(zé)人Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時(shí)間遭到猛烈質(zhì)疑。

然而在過去,大模型服務(wù)是標(biāo)準(zhǔn)的“一分錢一分貨”,想要用上更優(yōu)性能的產(chǎn)品必須支付更高昂的費(fèi)用,以覆蓋整個(gè)模型訓(xùn)練過程中更高算力成本的支出。

——超越“性能-成本-速度”的不可能三角

當(dāng)硅谷仍在為GPU萬卡集群豪擲千億資金時(shí),一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規(guī)模,更重要的是看實(shí)際效果。有句話形象地概括出DeepSeek的優(yōu)勢:“不是GPT用不起,而是DeepSeek更具性價(jià)比?!?/p>

傳統(tǒng)模型訓(xùn)練,需要在性能、成本、速度之間權(quán)衡,其高性能的獲得,需要極高的成本投入、更漫長的計(jì)算時(shí)間。而DeepSeek重構(gòu)了大模型的“成本-性能”曲線,同時(shí)壓縮了計(jì)算周期。

根據(jù)DeepSeek技術(shù)報(bào)告,DeepSeek-V3模型的訓(xùn)練成本為557.6萬美元,訓(xùn)練使用的是算力受限的英偉達(dá)H800 GPU集群。相比之下,同樣是開源模型的meta旗下Llama-3.1模型的訓(xùn)練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓(xùn)練成本為1億美元,且使用的是性能更加優(yōu)異的英偉達(dá)H100 GPU集群。而使用過程中,DeepSeek給出反饋的時(shí)長也大部分控制在5秒至35秒之間,通過算法輕量化、計(jì)算效率最大化、資源利用率優(yōu)化,成功壓縮了計(jì)算時(shí)間,降低了延遲。

——走出“參數(shù)膨脹”陷阱

ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學(xué)”路線,參數(shù)越“煉”越大,給算力、數(shù)據(jù)、能耗帶來了極大壓力。很長一段時(shí)間,參數(shù)幾乎成為大模型廠商比拼的最大焦點(diǎn)。

而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數(shù)之大,而是選擇了一條通過探索更高效訓(xùn)練方法以實(shí)現(xiàn)性能提升的“小而精”路線,打破了“參數(shù)膨脹”的慣性。

例如DeepSeek-R1(4B參數(shù))在數(shù)學(xué)推理、代碼生成等任務(wù)上具有比肩70B參數(shù)模型(如Llama-2)的能力,通過算法優(yōu)化、數(shù)據(jù)質(zhì)量提升,小參數(shù)模型一樣能實(shí)現(xiàn)高性能,甚至能夠“四兩撥千斤”。

實(shí)現(xiàn)三大躍升

“DeepSeek出圈,很好地證明了我們的競爭優(yōu)勢:通過有限資源的極致高效利用,實(shí)現(xiàn)以少勝多。中國與美國在AI領(lǐng)域的差距正在縮小?!泵姹谥悄苁紫茖W(xué)家劉知遠(yuǎn)說。

算力封鎖下的有力破局,得益于DeepSeek技術(shù)架構(gòu)、數(shù)據(jù)策略、工程實(shí)踐三方面的關(guān)鍵突破。

——技術(shù)架構(gòu):重新定義參數(shù)效率

大模型的千億參數(shù)不應(yīng)是冰冷的數(shù)字堆砌,而應(yīng)是巧奪天工般地重組整合。

傳統(tǒng)大模型Transformer架構(gòu)好比一條承載車輛的高速公路,當(dāng)車輛(數(shù)據(jù))數(shù)量足夠多的時(shí)候,每輛車必須和前后所有車溝通完成才能繼續(xù)行駛(計(jì)算),導(dǎo)致堵車(計(jì)算慢、能耗高)。而DeepSeek創(chuàng)新的架構(gòu)則把一條串行的高速路,變成了一個(gè)輻射狀的快遞分揀中心,先把貨物(數(shù)據(jù))按類型分類打包,再分不同路線同時(shí)出發(fā)開往不同目的地,每輛貨車(計(jì)算)只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗。

——數(shù)據(jù)策略:質(zhì)量驅(qū)動(dòng)的成本控制

DeepSeek研發(fā)團(tuán)隊(duì)相信,用“煉數(shù)據(jù)”取代“堆數(shù)據(jù)”,能使訓(xùn)練更具效率。

傳統(tǒng)的數(shù)據(jù)策略好比去農(nóng)場隨便采撿,常有價(jià)值不高的爛菜葉(低質(zhì)量數(shù)據(jù))。而DeepSeek創(chuàng)新的數(shù)據(jù)蒸餾技術(shù),有針對性地篩選掉質(zhì)量不高的爛菜葉:一方面自動(dòng)識別高價(jià)值數(shù)據(jù)片段(如代碼邏輯推理鏈),相比隨機(jī)采樣訓(xùn)練效率提升3.2倍,另一方面通過對抗訓(xùn)練生成合成數(shù)據(jù),將高質(zhì)量代碼數(shù)據(jù)獲取成本從每100個(gè)tokens的0.8元降低至0.12元。

——工程實(shí)踐:架起“超級工廠”流水線

大模型傳統(tǒng)的訓(xùn)練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D并行相當(dāng)于一方面通過流水線并行把造車流程拆分為10個(gè)步驟,同時(shí)組裝10輛車(數(shù)據(jù)分塊處理),另一方面通過張量并行,把發(fā)動(dòng)機(jī)拆成零件,分給10個(gè)工廠同時(shí)生產(chǎn)(模型分片計(jì)算)。

至于推理過程,傳統(tǒng)模型好比現(xiàn)點(diǎn)現(xiàn)做的餐廳,客戶等菜時(shí)間長,推理過程慢。而DeepSeek采用的INT4量化,能把復(fù)雜菜品提前做成預(yù)制菜,加熱(計(jì)算)時(shí)間減半,口味損失不到5%,實(shí)現(xiàn)了大模型的低成本工業(yè)化。

超越技術(shù)的啟示

拆解DeepSeek的成功公式不難發(fā)現(xiàn),通過底層架構(gòu)創(chuàng)新降低AGI成本,同時(shí)以開源策略構(gòu)建生態(tài)護(hù)城河,提供了中小型機(jī)構(gòu)突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術(shù)的啟示。

一直以來,驅(qū)動(dòng)DeepSeek的目標(biāo)并非利潤而是使命?!疤剿魑粗林场钡脑妇耙仓赶蛞环N與之匹配的極簡且清爽的組織架構(gòu)。

一名人工智能科學(xué)家表示,在人工智能大模型領(lǐng)域,大廠、高校、傳統(tǒng)科研機(jī)構(gòu)、初創(chuàng)公司在資源稟賦上其實(shí)各有優(yōu)勢,但結(jié)構(gòu)性的局限很難扭轉(zhuǎn)。DeepSeek這種類型的初創(chuàng)公司能很好地彌補(bǔ)其中的一個(gè)缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力、創(chuàng)業(yè)團(tuán)隊(duì)扁平化組織機(jī)制帶來的絲滑流暢的協(xié)作度。

據(jù)不具名人士透露,其V3模型的關(guān)鍵訓(xùn)練架構(gòu)MLA就源于一位年輕研究員的個(gè)人興趣,經(jīng)過研判后DeepSeek組建了專項(xiàng)團(tuán)隊(duì)開展大規(guī)模驗(yàn)證與攻關(guān)。而R1模型果斷調(diào)整強(qiáng)化學(xué)習(xí)路線,領(lǐng)先于其他機(jī)構(gòu)實(shí)現(xiàn)了近似o1的推理能力,核心原因之一也歸功于其青年團(tuán)隊(duì)對前沿技術(shù)的敏銳嗅覺與大膽嘗試。

“我們創(chuàng)新缺少的不是資本,而是信心,以及組織高密度人才的能力,調(diào)動(dòng)他們高效地進(jìn)行創(chuàng)造力與好奇心驅(qū)動(dòng)的創(chuàng)新?!盌eepSeek創(chuàng)始人梁文鋒說。

在DeepSeek身上,我們看到了皮克斯動(dòng)畫工作室的影子。這個(gè)年輕的中國初創(chuàng)企業(yè)與那個(gè)創(chuàng)作27部長片有19部獲得奧斯卡最佳動(dòng)畫、同樣以創(chuàng)新為鮮明標(biāo)簽的組織,有著不謀而合的組織機(jī)制與范式選擇,以及由此帶來的高企的創(chuàng)新成功率與人才留存率。

不同于先發(fā)者略顯封鎖的護(hù)城堡壘,DeepSeek贏得贊譽(yù)的還有它的開源路線。將代碼、模型權(quán)重和訓(xùn)練日志全部公開,不僅需要格局,更需要勇氣與實(shí)力。

“在顛覆性技術(shù)面前,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超?!绷何匿h這樣解釋選擇開源的原因,“開源、發(fā)論文,其實(shí)并不會失去什么。對于技術(shù)人員來說,被follow(追隨模仿)是很有成就感的事。”

從技術(shù)到愿景,DeepSeek堅(jiān)定選擇的始終是一條難且正確的路。這也是為什么,即便別國在人工智能領(lǐng)域已坐享先發(fā)優(yōu)勢,后發(fā)者依然有機(jī)會憑借技術(shù)創(chuàng)新、成本革命打破大模型競爭的傳統(tǒng)邏輯,打破人工智能行業(yè)競爭格局,打破“他國更擅長從0到1的原始創(chuàng)新,而中國更擅長從1到10的應(yīng)用創(chuàng)新”的成見,重塑競爭優(yōu)勢的奧秘。

北京時(shí)間2月1日凌晨,在OpenAI發(fā)布其推理系列最新模型o3-mini時(shí),我們從中看到了一個(gè)熟悉的字眼:“Deep research”。這是否是國產(chǎn)之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創(chuàng)新基因的制勝之道。

正如梁文鋒此前接受采訪時(shí)所說,“中國要逐步成為貢獻(xiàn)者,而不是一直‘搭便車’?!?/p>


免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚(yáng)科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,宣傳國家科技政策,展示國家科技形象,增強(qiáng)國家科技軟實(shí)力,參與國際科技輿論競爭,提高國際科技話語權(quán),并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),在此我們謹(jǐn)向原作者和原媒體致以敬意。如果您認(rèn)為本網(wǎng)文章及圖片侵犯了您的版權(quán),請與我們聯(lián)系,我們將第一時(shí)間刪除。
 
 
更多>同類資訊
推薦圖文
推薦資訊
點(diǎn)擊排行
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  使用說明  |  隱私政策  |  免責(zé)聲明  |  網(wǎng)站地圖  |   |  粵ICP備05102027號

粵公網(wǎng)安備 44040202001358號