游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

OpenAI发布o3模型,AGI评测突破人类水平门槛,智能新纪元来临?

2024-12-21来源:ITBEAR编辑:瑞雪

在科技界万众瞩目的线上新品发布活动尾声,OpenAI于近日揭晓了其最新力作——o3模型,以及一个更为精简的版本o3-mini。这一发布标志着OpenAI在人工智能领域的又一重大突破。

OpenAI的首席执行官Sam Altman在直播中透露,此次发布活动首尾呼应,均聚焦于推理模型。活动首日推出了正式版o1,而压轴登场的o3则展现了更为强大的能力。

关于新模型命名为o3而非o2的原因,Altman解释称,这是出于对英国电信服务商O2的尊重,以避免名称冲突。这一决定体现了OpenAI的细心与周到。

Altman在直播中高度评价o3为“极其聪慧的模型”。OpenAI的评估数据显示,o3在软件工程、代码编写、竞赛数学以及自然科学知识掌握方面,均显著超越其前辈o1。更令人振奋的是,o3在OpenAI实现通用人工智能(AGI)的征途上取得了关键性进展,测试成绩已达到类人水平。

回顾今年9月,OpenAI发布o1预览版时,曾宣称o1是首个具备真正通用推理能力的大模型。在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1的表现全面超越人类博士专家,准确率高达78.3%。而此次o3的推出,更是将这一标准推向了新的高度。

在软件工程能力测评中,o3凭借71.7%的准确率远超o1的48.9%和o1预览版的41.3%。在竞争性编程网站Codeforces的测评中,o3的Elo评分高达2727,较o1正式版高出44%,是o1预览版的两倍多。在数学竞赛AIME的题目测试中,o3的准确率高达96.7%,仅错一道题,表现堪比顶级数学家。

在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o3的准确率也达到了87.7%,较o1和o1预览版均有显著提升。这些数据无疑证明了o3在多个领域的卓越表现。

o3在AGI评估中也取得了显著进步。以100%为最高分的ARC-AGI评估结果显示,o3的最低成绩为75.7%,最高成绩更是高达87.5%,超过了标志着达到人类水平的门槛85%。这一成绩无疑为OpenAI实现AGI的目标注入了强大动力。

与此同时,o3-mini作为o3的精简版,也在性能与成本之间找到了完美的平衡点。在编码评估方面,o3-mini展现出了出色的性能提升,甚至在中位思考时间下,其性能优于o1模型,且成本更低。这意味着开发人员可以在不增加过多成本的情况下,获得更高效的编程辅助。

o3-mini还支持函数调用、结构化输出、开发者消息等一系列功能,与o1模型相当。在实际应用中,o3-mini在大多数评估中实现了可比或更好的性能。在现场演示中,o3-mini的强大功能得到了直观展示,其处理复杂任务的能力令人印象深刻。

尽管o3和o3-mini的测评表现惊艳,但OpenAI并未急于将其推向大众市场。目前,OpenAI已允许安全研究人员注册访问o3和o3-mini的预览版,并计划于明年初正式发布这些新模型。这一决定无疑为科技界和广大用户留下了更多期待。

《PUBG》又送百万奖金?为什么厂商都开始“撒钱”给二创
对于《PUBG》玩家来说,大的真来了。除了刚刚上线的新版本,近日,《PUBG》官方又开启了名为 “暖冬‘鸡’遇”的大规模生态活动,在寒冬里为游戏内容创作者带来一场盛宴。活动自11月初起分两轮连续开展,各平台的活

2025-11-10

讲武堂:时隔七八十年,保时捷竟然又上战场了?
在军迷圈里有一句流传甚广的说法:“永远不要问一家德国车企在二战期间做了什么”。毕竟,在各国的战争机器启动后,那些平日里为千家万户提供出行工具的车企,摇身一变成为坦克飞机的生产线并不是什么奇怪的事儿,而

2025-11-07

竞技升级!《太空杀》超级联赛重磅登场,SS8新赛季同步开启
11月7日《太空杀》迎来全新更新内容,此次游戏内推出全新赛事超级联赛、多项身份调整、四重福利活动及系统优化,为船员们带来更公平、更刺激的冒险体验。这里不仅有高手间的巅峰智斗,也有全民化的福利盛宴,即刻启

2025-11-07

《球球大作战》S11赛季11月1日开启,全新玩法夺宝大逃杀组队摸金
《球球大作战》S11赛季11月1日开启,全新玩法夺宝大逃杀组队摸金江湖风云再起,剑意涤荡战场!《球球大作战》S11全新赛季「剑心犹在」将于11月1日正式拉开帷幕!全新水墨风赛季通行证带着剑意来袭,超神之路进化光环助

2025-10-31

《侠义道II》新武侠,新心法
江湖浩渺,武道无涯。《侠义道II》全新心法系统将各派武学精髓淬炼升华,演绎至深境界,使其独成一套特别的修炼体系,为玩家提供更为多元化的游戏体验。少室山巅,佛光普照,其心法如古刹磐石,内息流转间自生磅礴伟

2025-10-28

一加Turbo系列新机将至:8000mAh大电池+骁龙8 Gen5,性能续航双突破
综合性能表现上,安兔兔评测跑分有望突破340万分,定位为高通产品线中的次旗舰平台,性能略低于骁龙8 Elite Gen5移动平台。 市场信息显示,一加有望成为该平台的首发品牌,新机或将归属于一加Turbo系列…

2025-10-22