AI挑战《超级马力欧兄弟》，Claude 3.7夺冠，推理模型为何失利？-动漫资讯-游戏世界

在人工智能领域的一项创新尝试中，加利福尼亚大学圣地亚哥分校的Hao AI Lab近期将AI技术融入经典电子游戏《超级马力欧兄弟》，以此作为测试AI性能的独特平台。这项研究不仅揭示了不同AI模型在游戏中的实际表现，还意外地揭示了一些关于AI推理能力的有趣发现。

实验并非使用1985年原版《超级马力欧兄弟》，而是在一个模拟器中运行游戏，并通过Hao AI Lab自主研发的GamingAgent框架与AI相连。这个框架能够向AI发送基本指令，并提供游戏截图，AI则通过生成Python代码来操控游戏角色马力欧。

研究结果显示，Anthropic公司的Claude 3.7模型在本次测试中脱颖而出，紧随其后的是Claude 3.5。相比之下，谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能展现出预期的高水平表现。这一结果不仅反映了不同AI模型在处理复杂游戏环境时的能力差异，也引发了关于AI性能评估标准的进一步讨论。

值得注意的是，实验中的游戏环境对AI模型提出了严峻挑战，要求它们学会规划复杂操作并制定有效游戏策略。有趣的是，实验发现像OpenAI的o1这样的推理模型，尽管在多数基准测试中表现优异，但在本次游戏中却不如“非推理”模型。研究人员指出，推理模型在实时游戏中表现不佳的主要原因在于其决策过程耗时较长，而在《超级马力欧兄弟》这样的游戏中，时机把握至关重要。

长期以来，游戏一直是衡量AI性能的重要工具之一。然而，一些专家对此提出了质疑，认为游戏环境与现实世界相比过于抽象和简单，且能提供理论上无限的数据供AI训练，因此可能无法准确反映AI在实际应用中的表现。

近期，一些引人注目的游戏基准测试结果更是引发了所谓的“评估危机”。OpenAI的研究科学家、创始成员安德烈・卡帕西在社交媒体上发文表示，他目前对于应该关注哪些AI指标感到困惑，并坦言不知道这些模型到底有多好。

尽管如此，观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这一创新尝试不仅为AI性能评估提供了新的视角，也让我们看到了AI技术在游戏领域应用的无限可能。

《GigaBash巨击大乱斗》携手《加美拉》 11月21日开启怪兽激战新篇章

2025-11-15

《三角洲行动》新赛季亮点多：新干员登场，玩法地图全面升级

2025-11-15

《解限机》启动“全民解限”计划，“解限版”多平台上线共筑机甲新未来

2025-11-14

韦神跨界助阵WCI，老牌选手陆老湿解说，这场坦克世界赛事太有看点！

2025-11-14

张大仙停播后转战理财：200万实盘投资，亏损中探寻新人生方向

2025-11-14

手机电池容量怎么选？联想新机与大疆眼镜选购指南来了

续航方面，moto X70 Air的电池容量为4800mAh，虽然在当前动辄5000mAh甚至6000mAh的中端机中并不占优，但结合机身厚度来看，这一数据仍非常可观，而且该机还支持68W有线快充，可在30…

2025-11-14

初代《荒野大镖客：救赎》次世代版获ESRB评级，经典DLC或随主机新版本一同亮相

2025-11-14

《幻兽帕鲁》手游版12月封闭测试来袭

由Pocketpair社正版授权、知名游戏厂商KRAFTON JAPAN倾力打造的宠物收集冒险手游《幻兽帕鲁》即将开启封闭测试。这款改编自PC端高人气作品的移动端新作，预计于12月正式启动测试阶段，为玩家带来融合收集、建造与冒险的沉浸式体验。

2025-11-14

索尼SOP遇挑战，国产游戏《命运扳机》成补全生态关键一环

2025-11-14

vivo V70现身Geekbench跑分平台搭载骁龙7系 2026年一季度或发布

根据Geekbench平台信息，vivo V70搭载了与上代机型V60同款的骁龙7 Gen4移动平台。其中ProMini机型在国际市场或将更名为vivo X300 FE，而标准版S50可能基于vivo V…

2025-11-13