在游戏开发领域,AI技术的融入正引领一场前所未有的变革。复杂性科学的奠基人布莱恩·阿瑟曾言:“新技术诞生于已有的技术组合。”当前,在Scaling Law边际效应递减的背景下,强化学习RL再次成为技术界的焦点,与LLM(大型语言模型)的结合更是备受瞩目。
作为腾讯围棋AI“绝艺”与王者荣耀AI“绝悟”项目的负责人,超参数科技的创始人刘永升对此深有感触。他在利用RL训练AI下棋与玩游戏的过程中,见证了AI从一无所知到掌握各种技能的惊人成长。“就像看着一个小孩慢慢长大,最终做出人类难以企及的动作,那种震撼无法言喻。”正是这份对AI的坚定信念,促使他和团队从腾讯出走,创立了超参数科技。
然而,近年来,随着大模型的兴起,游戏AI领域的新生代创业者开始将超参数视为“上一代”。市场上,这家公司的声音似乎也日渐微弱。但在与极客公园的对话中,刘永升分享了他们从RL到LLM+RL的探索历程,以及正在推进的AI-Native游戏项目。
刘永升观察到,游戏AI领域正朝着两个方向发展:一是通过LLM和AIGC降低内容生产成本,实现差异化;二是提升游戏内的Bot和NPC的生命感,使其更加人性化。他强调,真正的AI游戏应从底层架构开始融入AI,而非简单添加AI元素。
“以前,我们通过强化学习让Bot变得很强,但玩家更希望它们有差异化、人性化的体验。”刘永升说,“比如,玩家希望游戏中的队友和角色能够理解并响应他们的需求,而不仅仅是技能上的碾压。”为此,他们结合了SL(监督学习)和RL,解决了操作上的“拟人化”问题。
LLM的出现,进一步提升了游戏体验。刘永升表示,玩家现在期望Agent在游戏世界中的行为更像人类,能够主动提出请求,而不仅仅是响应命令。这种互动性在LLM技术出现之前是很难实现的。超参数科技一直在提高Agent的自主性和互动性,2021年发布的“猎户座α”便突破了3D环境中的GameAgent,使AI能够玩射击类游戏。
随着斯坦福小镇等研究项目的出现,人们对Agent在游戏中的形态有了更多想象。刘永升认为,未来的Agent不仅要有自主决策能力,还要有足够的互动性,以产生丰富的内容。他们为此打造了“活的长安城”Demo,展示了一个包含不同背景、职业和复杂关系的小型社会。
在技术框架方面,刘永升介绍,他们将Agent拆分为Control、Plan、Memory、Reflection等模块,同时设计了一个“事件触发器”来实现top-down的控制。LLM技术的加入,使得上层的事件触发更加有效。他们正在与一个Steam游戏团队合作,将这种技术架构应用于商业化游戏中。
然而,这一技术框架在游戏开发中的应用并非易事。刘永升表示,游戏研发本身是一个复杂的系统工程,需要严密的项目管理。而AI的不确定性对现有游戏研发管线造成了很大冲击。如何在追求确定性的管理软件中兼容不确定性,是他们面临的一大挑战。
“我们团队在探索过程中也经历了许多崩溃和挣扎,但最重要的是保持耐心和内心强大。”刘永升说,“除了游戏领域,我们还在低空交通、自动驾驶以及基于Agent的模拟等领域尝试应用这项技术。”
对于谷歌推出的AI游戏引擎和初创公司实现的实时可交互世界模型Oasis,刘永升表示,前者很难取代现有的游戏引擎,因为游戏项目已经是一个超级复杂的工程;后者则是一个有趣的科研项目,有助于AI更好地理解物理世界。
最后,刘永升分享了自己创业过程中的体会。他坦言,自己曾犯过不够聚焦的错误,过于乐观地估计了形势。在经历了教训后,他深刻认识到要有敬畏之心,控制好自己的手脚,不要分兵。在最近的内部信中,他以“坚韧如歌,随风起舞”为题,鼓励团队保持坚韧和乐观。