AI对决《我的世界》：新旧Claude盖楼大比拼，创意与审美成新评测标准！-业界动态-游戏世界

在人工智能领域，一项新的评测基准正悄然兴起，它不同于传统的算法测试，而是将AI放入了一个极具创意的场景——《我的世界》游戏中进行建筑能力的比拼。

Sonnet 3.6建筑作品

这项新奇的评测方法吸引了大量关注，不同版本的大模型如Claude 3.5 Sonnet、OpenAI的o1系列等纷纷在《我的世界》中一展身手，其建筑成果由网友们投票评选。

在比拼中，新旧两版Claude 3.5 Sonnet的表现尤为引人注目。新版Sonnet，被戏称为“Sonnet 3.6”，在建筑创意性上小胜一筹，展现了不俗的迭代进步能力。

与此同时，OpenAI的o1系列也表现出色。o1-preview模型虽然建筑速度较慢，但其精细度和结构完整性令人印象深刻。在模仿真实建筑泰姬陵的任务中，o1-preview更是大放异彩，展现了极高的建筑技艺。

这场AI建筑大赛不仅吸引了众多观众的目光，更激发了开源社区的热情。在GitHub上，相关代码迅速上架，更多模型的测试结果也陆续公布，形成了一股AI建筑评测的热潮。

不同模型建筑成果对比

这场竞赛并非简单的建筑比拼。AI需要通过文本提供上下文，并生成下一步的操作指令，类似于根据棋盘行列编号下盲棋。这种评测方式不仅考验了AI的建筑能力，更对其文本理解和指令生成能力提出了高要求。

随着比赛的深入进行，越来越多有趣的建筑作品涌现出来。从塔式建筑到太阳系模型，再到反映AI个性的钻石墙和机器人形象，这些作品充分展现了AI的创造力和多样性。

o1-preview搭建的机器人形象

如今，这项新型MC Bench评测已经成为AI领域的一道亮丽风景线。未来，随着更多模型的加入和评测机制的完善，我们有理由期待更多精彩作品的诞生。