游戏世界

业界动态手游资讯网游资讯单机资讯电竞资讯动漫资讯游戏设备手机电脑热点资讯

OpenAI发布o3模型，AGI评测突破人类水平门槛，智能新纪元来临？

2024-12-21来源：ITBEAR编辑：瑞雪

在科技界万众瞩目的线上新品发布活动尾声，OpenAI于近日揭晓了其最新力作——o3模型，以及一个更为精简的版本o3-mini。这一发布标志着OpenAI在人工智能领域的又一重大突破。

OpenAI的首席执行官Sam Altman在直播中透露，此次发布活动首尾呼应，均聚焦于推理模型。活动首日推出了正式版o1，而压轴登场的o3则展现了更为强大的能力。

关于新模型命名为o3而非o2的原因，Altman解释称，这是出于对英国电信服务商O2的尊重，以避免名称冲突。这一决定体现了OpenAI的细心与周到。

Altman在直播中高度评价o3为“极其聪慧的模型”。OpenAI的评估数据显示，o3在软件工程、代码编写、竞赛数学以及自然科学知识掌握方面，均显著超越其前辈o1。更令人振奋的是，o3在OpenAI实现通用人工智能（AGI）的征途上取得了关键性进展，测试成绩已达到类人水平。

回顾今年9月，OpenAI发布o1预览版时，曾宣称o1是首个具备真正通用推理能力的大模型。在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1的表现全面超越人类博士专家，准确率高达78.3%。而此次o3的推出，更是将这一标准推向了新的高度。

在软件工程能力测评中，o3凭借71.7%的准确率远超o1的48.9%和o1预览版的41.3%。在竞争性编程网站Codeforces的测评中，o3的Elo评分高达2727，较o1正式版高出44%，是o1预览版的两倍多。在数学竞赛AIME的题目测试中，o3的准确率高达96.7%，仅错一道题，表现堪比顶级数学家。

在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o3的准确率也达到了87.7%，较o1和o1预览版均有显著提升。这些数据无疑证明了o3在多个领域的卓越表现。

o3在AGI评估中也取得了显著进步。以100%为最高分的ARC-AGI评估结果显示，o3的最低成绩为75.7%，最高成绩更是高达87.5%，超过了标志着达到人类水平的门槛85%。这一成绩无疑为OpenAI实现AGI的目标注入了强大动力。

与此同时，o3-mini作为o3的精简版，也在性能与成本之间找到了完美的平衡点。在编码评估方面，o3-mini展现出了出色的性能提升，甚至在中位思考时间下，其性能优于o1模型，且成本更低。这意味着开发人员可以在不增加过多成本的情况下，获得更高效的编程辅助。

o3-mini还支持函数调用、结构化输出、开发者消息等一系列功能，与o1模型相当。在实际应用中，o3-mini在大多数评估中实现了可比或更好的性能。在现场演示中，o3-mini的强大功能得到了直观展示，其处理复杂任务的能力令人印象深刻。

尽管o3和o3-mini的测评表现惊艳，但OpenAI并未急于将其推向大众市场。目前，OpenAI已允许安全研究人员注册访问o3和o3-mini的预览版，并计划于明年初正式发布这些新模型。这一决定无疑为科技界和广大用户留下了更多期待。

常青游戏霸榜！400亿收入背后，腾讯网易领衔十亿俱乐部

2024-12-21

《金庸群侠传》单机版来袭，开放世界武侠江湖你期待吗？

2024-12-21

《黑神话：悟空》入围Steam大奖三甲，快来为你心中的最佳投票！

2024-12-21

六旬大爷成《黑神话：悟空》高手，每日八小时游戏热情不减！

2024-12-21

手机图标自定义攻略：打造高效美观的个性界面

2024-12-20

《欢欣森活》冬季特惠，「陨星之夜」新版本震撼登场！

2024-12-20

《百禾梦境漫游》来袭！Steam上架百合奇幻视觉小说，寻找回归现实之路

2024-12-20

《希望OL》双旦庆典火爆开启，冒险者们准备好迎接冬日惊喜了吗？

2024-12-20

DOTA2重拳出击，6W5账号遭封禁，高分段演员与炸鱼行为何时休？

2024-12-20

《黑神话：悟空》动画导演上海相聚，揭秘游戏幕后故事，新民直播带你围观！

2024-12-20