游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

高中生打造MC-Bench,让AI在《我的世界》里一决高下

2025-03-22来源:ITBEAR编辑:瑞雪

在人工智能领域,传统的基准测试方法逐渐显露出局限性,促使开发者们探索新颖的方式来评估生成式AI的能力。12年级学生阿迪·辛格引领了这一潮流,他选择了《我的世界》这款风靡全球的沙盒游戏作为新的评估平台。

辛格与合作伙伴共同创建了Minecraft Benchmark(MC-Bench)网站,该网站通过《我的世界》中的建造挑战来让AI模型一决高下。用户根据AI创建的作品进行投票,只有在投票后才能揭晓作品的创作者身份。这一创意不仅新颖,而且充分利用了《我的世界》作为史上最畅销电子游戏之一的广泛认知度。

辛格指出,《我的世界》的熟悉度和画面风格使得人们能够更直观地感受到AI发展的进步。游戏中的建造任务成为了评估AI能力的直观媒介,相较于现实生活,它更为安全且易于控制。

MC-Bench网站目前已有Anthropic、谷歌、OpenAI和阿里巴巴等公司的参与,它们资助了该项目以使用各自的产品运行基准测试提示,但并未深度介入项目的其他环节。辛格表示,目前的挑战主要集中在简单的建造任务上,旨在反映自GPT-3时代以来AI领域的进步。未来,他计划扩展至更复杂的长期项目和目标导向任务。

除了《我的世界》,其他游戏如《精灵宝可梦红》、《街头霸王》和《你画我猜》也被用作AI实验的基准测试。这反映了AI基准测试的复杂性,传统方法往往难以全面评估AI的能力。

在标准化评估中,AI模型经常展现出在某些领域的天然优势,尤其是那些依赖记忆和简单推理的任务。然而,这种优势并不总是能转化为全面的能力。例如,OpenAI的GPT-4在法学院入学考试中表现出色,但在识别单词“strawberry”中的“r”数量时却遇到困难。同样,Anthropic的Claude 3.7 Sonnet在软件工程基准测试中得分较高,但在玩《宝可梦》时的表现却不如五岁儿童。

从技术角度看,MC-Bench是一种编程基准测试,要求AI模型根据提示编写代码(即建造指令)来完成任务,如创建“雪人Frosty”或“原始沙滩上的热带海滩小屋”。然而,对于大多数评判者来说,评估一个雪人的外观远比深入研究代码要简单得多。这使得MC-Bench具有广泛的吸引力,并有可能收集到更多关于模型表现的数据。

尽管MC-Bench的分数对AI实用性的影响尚存争议,但辛格认为这是一个积极的信号。他表示,MC-Bench的测试结果排行榜与他个人使用这些模型的经验高度一致,这与许多纯文本基准测试不同。因此,MC-Bench可能对相关公司具有实用价值,有助于它们判断自己是否正在朝正确的方向发展。

真我neo 8新机曝光:8000mAh大电池+3D超声波指纹,2000元档性价比新选择
真我手机从2018年成立到现在,也是走过了7个年头,如今真我手机全球销量达到三亿,在全球范围内跻身手机圈的第一梯队,虽说份额还是差小米等品牌很多,可知名度已经起来了。在今年真我尝试冲击高端,发布的真我GT …

2025-11-14

大疆DJI Osmo Action 6首发体验:画质续航双飞跃,户外拍摄新神器
这里我展开讲解一下,由于Action6是方形CMOS这意味着它在正常16:9和4:3情况下像素是无法覆盖整个CMOS,但在二级菜单中我们能找到自由裁切模式,开启该模式后,Action 6的拍摄页面就会变成一…

2025-11-14

全RGB排列屏幕成新趋势,vivo新机或搭载,小米17 Pro Max已率先应用
据CNMO了解,近期发布的小米17 ProMax就搭载了全RGB排列屏幕。凭借超级像素技术,其子像素总数高达938万,与传统2K屏约920万的子像素数量基本持平。 小米总裁卢伟冰曾表示,在友商同级产品纷纷…

2025-11-14

iQOO新机屏幕升级再发力,多系列普及2K,小屏新品或将来袭
近日,博主@数码闲聊站的一份爆料中提到,“iQOO说了无2K不旗舰,接下来Neo系列和数字系列都「全面标配2K」,iQOO15那块三星屏也颇受好评,蓝厂明年应该也会和三星显示深度合作”。 也就是说,iQO…

2025-11-14