近日,人工智能领域的竞争再度升温,Google DeepMind在OpenAI即将发布新成果的前夕,抢先推出了其最新研发的大型基础世界模型——Genie 2。这款模型不仅能够生成各种可控动作和可玩的3D环境,还可用于训练和评估具身智能代理。
Genie 2的强大之处在于,只需一张提示图像,它便能根据用户输入的文本提示,生成一个对应的交互式虚拟世界。无论是人类还是AI代理,都能在这个由AI生成的3D游戏世界中探索和互动,使用键盘和鼠标进行操作。
作为一个自回归潜在扩散模型,Genie 2在大型视频数据集上进行训练。视频中的潜在帧经过自动编码器处理后,被传递到大型Transformer动力学模型中。该模型使用类似于大语言模型的因果掩码进行训练。在推理时,Genie 2能以自回归方式逐帧采样,获取单个动作和过去的潜在帧,Google DeepMind使用无分类器指导(CFG)来提高动作的可控性。
Genie 2在多个方面展示了其卓越的效果与优势,包括行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC、物理、烟雾、光影以及快速原型设计等。其博客文章中发布了大量由未蒸馏的基础模型生成的视频示例,展示了这些功能。虽然蒸馏版本支持实时交互,但视觉质量会有所降低。
Genie 2具有超强的空间记忆能力,能够模拟真实世界环境。与之前的世界模型相比,Genie 2在通用性上取得了显著进步,能够生成种类繁多的丰富3D世界。用户可以通过文生图模型Imagen 3生成的单个图像,按照提示词生成一个可交互的3D世界,并与之互动。
Genie 2还能快速创建各种交互体验的原型,将概念艺术和绘图转化为完全交互式环境。这对于艺术家和设计师来说,是一个快速制作研究环境概念原型的利器。同时,Genie 2还可为AI代理创建丰富多样的环境,生成在训练期间未见过的评估任务,为具身智能提供了绝佳的训练场。
尽管这项研究仍处于早期阶段,但Google DeepMind相信Genie 2是解决安全训练具体AI代理的结构性问题的途径,同时实现迈向通用人工智能(AGI)所需的广度和通用性。他们计划在通用性和一致性方面继续改进Genie的世界生成能力,以构建更通用的AI系统和代理,使其能够理解和安全地执行各种任务。