10月21日,北京智源人工智能研究院(以下簡稱“智源研究院”)正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)悉,該模型實(shí)現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。Emu3成功驗(yàn)證了基于下一個token(詞元)預(yù)測的多模態(tài)技術(shù)范式,釋放出大規(guī)模訓(xùn)練和推理的潛力。
據(jù)了解,下一個token預(yù)測被認(rèn)為是通往人工通用智能(AGI)的可能路徑,但這種范式在語言以外的多模態(tài)任務(wù)中沒有被證明。此前,多模態(tài)生成任務(wù)仍然由擴(kuò)散模型主導(dǎo),而多模態(tài)理解任務(wù)則由組合式方法主導(dǎo)。人工智能要想進(jìn)入各行各業(yè),必須建設(shè)一個“大一統(tǒng)”的多模態(tài)模型。
據(jù)介紹,Emu3只基于下一個token預(yù)測,無須擴(kuò)散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer架構(gòu)。在圖像生成、視覺語言理解、視頻生成任務(wù)中,Emu3表現(xiàn)出超過其他開源模型的優(yōu)勢。
智源研究院院長王仲遠(yuǎn)表示:“Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn),這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機(jī)會將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模多模態(tài)訓(xùn)練和推理提供基礎(chǔ),這一簡單的架構(gòu)設(shè)計將利于產(chǎn)業(yè)化。未來,多模態(tài)世界模型將促進(jìn)機(jī)器人大腦、自動駕駛、多模態(tài)對話和推理等場景應(yīng)用?!?span style="text-indent: 32px; text-wrap-mode: wrap;">(記者 華凌)
免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚(yáng)科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,宣傳國家科技政策,展示國家科技形象,增強(qiáng)國家科技軟實(shí)力,參與國際科技輿論競爭,提高國際科技話語權(quán),并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé),在此我們謹(jǐn)向原作者和原媒體致以崇高敬意。如果您認(rèn)為本網(wǎng)文章及圖片侵犯了您的版權(quán),請與我們聯(lián)系,我們將第一時間刪除。