·Genie是從互聯網視頻中訓練出來的基礎世界模型,可根據合成圖像、照片、草圖生成動作可控的2D世界。不過其生成的“游戲”畫質很糊,離實時可玩還很遠。
·DeepMind認為,Genie引入了一個能從圖像或文本生成整個交互式世界的時代,它將成為訓練未來通才AI智能體的催化劑。
Genie生成的2D世界。
谷歌DeepMind團隊展示了Genie模型,能把草圖變成2D游戲。
生成式人工智能可以通過語言、圖像甚至視頻生成創造性內容。而DeepMind引入了生成式人工智能新范式——Genie(generative interactive environments,生成式交互環境),根據單個圖像提示來生成“交互式可玩環境”。該模型從游戲視頻中學習游戲機制后,可以通過一個簡單提示創建2D平臺類游戲。
Genie生成的2D世界。
2月26日,DeepMind表示,Genie是一個從互聯網視頻中訓練出來的基礎世界模型,它可以根據合成圖像、照片甚至草圖生成各種各樣動作可控的2D世界,使人們能夠與他們想象的虛擬世界互動。
“只需要一張圖片,Genie就可以創建一個全新的互動環境。” DeepMind表示,這為生成和進入虛擬世界打開了大門。例如可以采用最先進的文生圖大模型來生成初始幀,然后用Genie賦予它們“生命”。
Genie根據圖片生成動作可控的2D世界。
Genie根據圖片生成動作可控的2D世界。
Genie的模型參數只有110億,根據人類玩2D平臺類游戲的20多萬小時視頻進行無監督訓練。Genie的出現要歸功于谷歌研究人員開發的可推斷視頻幀之間動作的潛在動作模型、將原始視頻幀轉換為離散標記的視頻分詞器,以及推測下一幀的動態模型。
DeepMind表示,Genie的獨特之處在于,它能夠在沒有動作標簽的情況下,完全從互聯網視頻中學習精細的控制。這是一個挑戰,因為互聯網視頻通常沒有關于執行哪個動作的標簽,甚至沒有關于應該控制圖像哪個部分的標簽。
Genie根據人的畫作生成動作可控的2D世界。
Genie根據人的畫作生成動作可控的2D世界。
DeepMind開發人員蒂姆·羅克塔謝爾(Tim Rockt?schel)表示,Genie學習各種潛在動作,以一致性控制角色。Genie習得潛動作空間不僅具有多樣性和一致性,并且具有可解釋性。此外,Genie模型是通用的,并不局限于2D。
DeepMind 在官方聲明中也表示,Genie “專注于2D平臺類游戲和機器人的視頻”,“但我們的方法是通用的,適用于任何類型的領域,并可以擴展到更大的互聯網數據集。”DeepMind認為,Genie引入了一個能從圖像或文本生成整個交互式世界的時代,它將成為訓練未來通才AI智能體的催化劑。
不過Genie是一個研究項目,而不是最終產品。它的訓練視頻是160 x 90像素的超低分辨率視頻,每秒只有10幀,它生成的“游戲”同樣是低分辨率的,每秒只有1幀。“該模型目前以每秒1幀的速度運行,所以現在它離實時可玩還很遠。”蒂姆·羅克塔謝爾表示。
本文鏈接:谷歌展示Genie模型:一張草圖就能生成一個2D游戲http://m.sq15.cn/show-11-3295-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 先進計算方法破解水的電子結構
下一篇: 韓擬制訂中長期核電發展計劃