在圍棋的黑白世界里,一場極具顛覆性的較量正在北京交通大學計算機科學與技術學院實驗室上演。屏幕上,黑白棋子交替落子,執黑的AI全程未借助任何語言指令,僅憑觀看數萬局高手對戰視頻,便自主領悟了圍棋規則,最終以職業5段的實力擊敗人類對手。
這場令人驚嘆的“勝利”,正是北京交大與豆包大模型團隊聯合研發的視頻生成實驗模型VideoWorld的一次精彩亮相。
課題組探討VideoWorld模型研發。北京交通大學供圖
AI首次掙脫“文字枷鎖”
傳統AI模型如同依賴詞典學步的孩童,必須借助語言標簽或獎勵機制才能理解世界。以教會AI打領結為例,需要將這一動作細致拆解為“左手持左邊,右手持右邊”等文字指令。面對復雜任務時,語言描述的局限性往往成為難以逾越的障礙,導致AI在執行任務時力不從心。
VideoWorld的出現為視覺智能推理研究帶來新的思路。該模型僅依靠視頻數據,就能讓機器自主學習并掌握推理、規劃和決策等復雜能力。不同于傳統方式,它無需依賴強化學習中常見的搜索算法或獎勵機制,在業內首次實現了不依賴語言模型的世界認知。
“我們的靈感源于自然界。”VideoWorld項目負責人、北京交通大學計算機科學與技術學院教授魏云超介紹,“大猩猩通過觀察成年同類覓食,靈長類動物通過模仿社交行為獲取生存技能,可見視覺才是生物認知世界的核心”。基于這一理念,團隊開發出潛在動態模型,將視頻幀間的動態變化壓縮為高效特征。這使得AI能夠如同人類嬰兒一般,通過“觀察、模仿、實踐”的循環過程,掌握復雜技能,大幅提升學習知識的效率與效果。
實驗結果令人矚目。僅有300M參數的VideoWorld,在圍棋任務中達到職業5段水平;在機器人控制場景里,成功完成機械臂操作、物品分揀等任務,展現出良好的泛化能力。
一場“反潮流”的科研突圍
在大語言模型主導的AI 領域,VideoWorld的誕生堪稱“逆向突圍”。魏云超坦言:“當多數團隊在語言模型的賽道上奮力疾馳時,我們選擇回歸視覺本質,探索視頻生成模型處理復雜推理任務的可能性。”
這一選擇源于團隊對行業痛點的深刻洞察:語言難以涵蓋現實世界的海量信息,而視頻作為人類獲取信息的主要載體,蘊含著更為豐富的知識。
然而,研發之路布滿荊棘。魏云超坦言,首先,視頻生成模型處理復雜推理任務的可行性尚無先例,缺乏可借鑒的方法;其次,基線模型的性能缺陷難以精準歸因;此外,目標場景缺乏公開可用的實驗數據,團隊需要從無標簽視頻中提取有效特征,同時防止過度擬合。
確定實驗環境是第一步。經過團隊深入討論,最終選擇棋類游戲作為實驗場景,因其在人工智能領域已有廣泛應用基礎。
確定實驗環境后,團隊開始著手制定技術方案。首要工作是選擇嚴謹的基線方法,并確定合適的性能評估指標。受大語言模型成功經驗啟發,項目組決定采用類似語言模型的“下一標記預測”方式訓練模型。
然而在基線模型的訓練和評估過程中,團隊發現了很多堵點問題,項目一度陷入停滯狀態。
隨后的幾個月里,團隊提出了多種改進方案。經過反復嘗試與總結,發現有效壓縮視頻中的動態變化是提升生成模型推理能力的關鍵,這一發現最終確立了VideoWorld 的技術路線:潛在動態模型通過動態特征壓縮與時空關系建模,將視頻學習效率提升40%,并為模型可解釋性開辟了新路徑。
“從2024年2月項目啟動到2025年2月論文被頂級會議IEEE國際計算機視覺與模式識別會議CVPR接收,這一年里,我們研究產生了約10TB的工作數據與模型文件,驗證實驗次數超1千次,僅圍棋實驗就迭代了上百種模型架構,論文從初稿到定稿修改了幾十個版本。”項目組成員、VideoWorld論文第一作者、北京交通大學計算機學院博士生任中偉回憶道。
在一次次的失敗與嘗試中,任中偉也深刻認識到“科研突破源于持續迭代,前沿領域探索無現成路徑,每一次失敗都是成功的基石,需保持耐心與韌性,培養獨立思考與自主驗證能力,學會系統性分析問題本質”,這些寶貴經驗成為他未來科研生涯的重要財富。
下一階段,理解幽默或隱喻
在AI學習的廣闊疆域中,VideoWorld正開辟著獨特的探索路徑。魏云超介紹道,該模型致力于從無標簽視頻中挖掘知識,實現從特定任務規則到高級推理、規劃能力的跨越性學習。
與強化學習、監督學習和基于文本的學習等傳統方法相比,VideoWorld展現出三大顯著優勢:其一,憑借統一的視覺表示,它對各類任務和交互界面展現出更強的泛化能力,能夠在不同場景中靈活應用所學知識;其二,摒棄了繁瑣的手動標注過程,極大減輕了數據預處理的負擔,讓研究人員得以將更多精力聚焦于核心算法研發;其三,相較于依賴文本描述的學習方式,VideoWorld能夠捕捉到更為豐富、立體的現實世界信息,讓AI認知更貼近人類感知世界的真實維度。
目前,VideoWorld的代碼、數據與模型已在頂級會議IEEE國際計算機視覺與模式識別會議CVPR 2025上發布并全部開源,在學界引發熱烈討論。“雖然VideoWorld證明了純視覺認知的可行性,但它目前仍處于概念驗證階段。”魏云超強調,“論文被接收后,我們已經開始下一階段的研究。我們正在探索如何用VideoWorld的思路去解決更加實際且復雜的問題,比如通過視頻學習烹飪、維修,甚至理解幽默或隱喻等”。
從依賴“文字拐杖”到擁有“視覺之眼”,VideoWorld為AI認知范式注入了新動力。正如團隊在論文中所寫:“當機器學會用眼睛‘閱讀’世界,或許離真正的通用智能,又近了一步。”
本文鏈接:觀棋學下棋,它以職業5段實力擊敗人類對手http://m.sq15.cn/show-11-22581-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 給蝗蟲“集結”按下“剎車鍵”