游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

OpenAI新品发布,o1模型提升有限,但体验与交互有新亮点?

2024-12-06来源:ITBEAR编辑:瑞雪

近期,关于OpenAI最新推出的o1模型正式版及Pro版的性能表现,引发了广泛讨论。尽管官方宣传中不乏亮点,但实际数据揭示的模型提升幅度却略显保守。

具体而言,o1正式版在数学与编程领域确实取得了显著进步,但在处理博士级别问题的能力上,其提升幅度却相当有限。即便是随后推出的Pro版本,也只是在各方面对正式版做了小幅优化,并未带来颠覆性的改变。这一现状,无疑让不少期待o1能在博士级问题上大放异彩的用户感到失望。

回顾o1模型发布之初,其主打的就是能够在博士级别的问答中展现卓越能力。然而,从正式版到Pro版,这一方面的提升并不明显,这无疑让用户的期望落空。此前,知危编辑部曾邀请来自清华、北大、南京大学的博士对o1预览版进行测试,他们一致认为,o1在思维和知识储备上已达到博士水准,但在课题探索和提供研究思路方面仍有不足,未能真正达到“做学术”的标准。

尽管在回答能力上提升有限,但o1正式版在用户体验方面却有了显著提升。其重大错误犯错率较预览版减少了约34%,回答速度也提高了约50%。在直播现场对比测试中,面对“列出二世纪的罗马皇帝,包括他们的时期和成就”这一问题,o1正式版仅用14秒便给出了回答,比预览版快了近20秒,这一差距让用户感受明显。

在回答的可靠性上,o1正式版也展现出了显著进步。通过“4/4可靠性”测试,o1正式版在各个领域都比预览版有了显著提升,而Pro版则更进一步。这一进步,无疑增强了用户对o1模型的信任度。

除了用户体验的提升,o1正式版还支持了多模态输入,用户可以通过图+文字的形式向模型提问。在直播现场,OpenAI团队展示了一张“太空数据中心”草图,并询问了关于散热器面积的问题。o1模型迅速捕捉到了图中的关键信息,并给出了详细的回答,其回答不仅准确,还考虑到了多种可能影响散热效果的因素。

测试草图

由于o1 Pro模型的思考深度更高,耗时更长,为了提升用户体验,OpenAI为其加入了回答进度条。这一设计,有效缓解了用户在等待回答时的焦虑情绪,成为OpenAI此次更新中的一大亮点。

苹果小米新机首月销售亮眼:iPhone 17与小米17齐头并进创佳绩
IT之家 11 月 15 日消息,市场调查机构 CounterPoint Research 昨日(11 月 14 日)发布博文,基于最新中国智能手机周度销量追踪报告,苹果与小米凭借各自的旗舰新品,在上市首月的…

2025-11-15

《荒野大镖客:救赎》将登陆新主机平台 或带来技术特性升级
近日,关于经典开放世界游戏《荒野大镖客:救赎》即将登陆新一代游戏主机的消息引发了玩家热议。根据外媒报道,这款由R星开发的旧西部题材作品已通过ESRB分级,确认将推出PS5、Xbox Series X|S以及Switch 2平台的原生版本。尽管R星尚未正式宣布这一消息,但分级结果的出现几乎已坐实了移植计划的真实性。

2025-11-14

vivo Y500 Pro即将开售:低中端定位,影像突出,11月14日全新登场
屏幕保持打孔直屏,大小控制在6.67英寸,作为旗舰级护眼屏,分辨率提升到1.5K(2800*1260像素),像素密度为460 PPI,刷新率为120Hz,触控采样率在不同场景蛙有所变化,最低为130Hz,最…

2025-11-14