近期,科技界迎来了一项令人瞩目的创新——谷歌DeepMind推出的Genie 2,这是一款革命性的基础世界模型。它拥有从图像或文字描述中生成3D场景的能力,这些场景不仅可供人类探索,还能被AI智能体所利用。
据悉,用户只需提供一张由Imagen 3生成的图片,并附上相应的文字描述,Genie 2就能迅速构建出一个可交互的3D环境。用户只需通过鼠标和键盘,就能在这个环境中自由漫游,享受最多一分钟的沉浸式体验。
这款模型不仅具备出色的环境一致性,还能在用户移动时精准地呈现视野中消失的部分,大大增强了沉浸感。更令人惊叹的是,Genie 2在生成过程中能模拟物体间的交互、动画效果、光照条件、物理反射以及NPC的行为,生成的场景画质直逼3A级游戏,甚至在某些方面,如物体视角一致性和场景记忆上,表现得更为出色。
这一技术的突破引发了广泛讨论,有人惊叹于科技进步的迅猛,认为这预示着视频游戏的未来;也有人看到了更长远的前景,想象着一个由虚拟世界模型主导的未来。
在Genie 2发布后,DeepMind的CEO还向科技巨头马斯克发出了邀请,希望与其共同制作AI游戏。马斯克对此回应了一个简单的“Cool”,这不仅表达了他的认可,也预示着未来可能的合作。
谷歌的研究人员Jack Parker-Holder通过实例展示了Genie 2的强大功能。在一张包含红门和蓝门的图片上,通过输入不同的语言指令,Genie 2能生成不同的3D场景,用户可以选择走向红门或蓝门,探索不同的世界。
在一个更为复杂的三门场景中,Genie 2同样展现出了卓越的理解力和生成能力,成功生成了研究人员所期望的3D动图,进一步证明了其强大的潜力和无限可能。