游戏AI新纪元：超参数科技让Agent从虚拟走向现实-单机资讯-游戏世界

在游戏开发领域，AI技术的融入正引领一场前所未有的变革。复杂性科学的奠基人布莱恩·阿瑟曾言：“新技术诞生于已有的技术组合。”当前，在Scaling Law边际效应递减的背景下，强化学习RL再次成为技术界的焦点，与LLM（大型语言模型）的结合更是备受瞩目。

作为腾讯围棋AI“绝艺”与王者荣耀AI“绝悟”项目的负责人，超参数科技的创始人刘永升对此深有感触。他在利用RL训练AI下棋与玩游戏的过程中，见证了AI从一无所知到掌握各种技能的惊人成长。“就像看着一个小孩慢慢长大，最终做出人类难以企及的动作，那种震撼无法言喻。”正是这份对AI的坚定信念，促使他和团队从腾讯出走，创立了超参数科技。

然而，近年来，随着大模型的兴起，游戏AI领域的新生代创业者开始将超参数视为“上一代”。市场上，这家公司的声音似乎也日渐微弱。但在与极客公园的对话中，刘永升分享了他们从RL到LLM+RL的探索历程，以及正在推进的AI-Native游戏项目。

刘永升观察到，游戏AI领域正朝着两个方向发展：一是通过LLM和AIGC降低内容生产成本，实现差异化；二是提升游戏内的Bot和NPC的生命感，使其更加人性化。他强调，真正的AI游戏应从底层架构开始融入AI，而非简单添加AI元素。

“以前，我们通过强化学习让Bot变得很强，但玩家更希望它们有差异化、人性化的体验。”刘永升说，“比如，玩家希望游戏中的队友和角色能够理解并响应他们的需求，而不仅仅是技能上的碾压。”为此，他们结合了SL（监督学习）和RL，解决了操作上的“拟人化”问题。

LLM的出现，进一步提升了游戏体验。刘永升表示，玩家现在期望Agent在游戏世界中的行为更像人类，能够主动提出请求，而不仅仅是响应命令。这种互动性在LLM技术出现之前是很难实现的。超参数科技一直在提高Agent的自主性和互动性，2021年发布的“猎户座α”便突破了3D环境中的GameAgent，使AI能够玩射击类游戏。

随着斯坦福小镇等研究项目的出现，人们对Agent在游戏中的形态有了更多想象。刘永升认为，未来的Agent不仅要有自主决策能力，还要有足够的互动性，以产生丰富的内容。他们为此打造了“活的长安城”Demo，展示了一个包含不同背景、职业和复杂关系的小型社会。

在技术框架方面，刘永升介绍，他们将Agent拆分为Control、Plan、Memory、Reflection等模块，同时设计了一个“事件触发器”来实现top-down的控制。LLM技术的加入，使得上层的事件触发更加有效。他们正在与一个Steam游戏团队合作，将这种技术架构应用于商业化游戏中。

然而，这一技术框架在游戏开发中的应用并非易事。刘永升表示，游戏研发本身是一个复杂的系统工程，需要严密的项目管理。而AI的不确定性对现有游戏研发管线造成了很大冲击。如何在追求确定性的管理软件中兼容不确定性，是他们面临的一大挑战。

“我们团队在探索过程中也经历了许多崩溃和挣扎，但最重要的是保持耐心和内心强大。”刘永升说，“除了游戏领域，我们还在低空交通、自动驾驶以及基于Agent的模拟等领域尝试应用这项技术。”

对于谷歌推出的AI游戏引擎和初创公司实现的实时可交互世界模型Oasis，刘永升表示，前者很难取代现有的游戏引擎，因为游戏项目已经是一个超级复杂的工程；后者则是一个有趣的科研项目，有助于AI更好地理解物理世界。

最后，刘永升分享了自己创业过程中的体会。他坦言，自己曾犯过不够聚焦的错误，过于乐观地估计了形势。在经历了教训后，他深刻认识到要有敬畏之心，控制好自己的手脚，不要分兵。在最近的内部信中，他以“坚韧如歌，随风起舞”为题，鼓励团队保持坚韧和乐观。