OpenAI新品发布，o1模型提升有限，但体验与交互有新亮点？-手机电脑-游戏世界

近期，关于OpenAI最新推出的o1模型正式版及Pro版的性能表现，引发了广泛讨论。尽管官方宣传中不乏亮点，但实际数据揭示的模型提升幅度却略显保守。

具体而言，o1正式版在数学与编程领域确实取得了显著进步，但在处理博士级别问题的能力上，其提升幅度却相当有限。即便是随后推出的Pro版本，也只是在各方面对正式版做了小幅优化，并未带来颠覆性的改变。这一现状，无疑让不少期待o1能在博士级问题上大放异彩的用户感到失望。

回顾o1模型发布之初，其主打的就是能够在博士级别的问答中展现卓越能力。然而，从正式版到Pro版，这一方面的提升并不明显，这无疑让用户的期望落空。此前，知危编辑部曾邀请来自清华、北大、南京大学的博士对o1预览版进行测试，他们一致认为，o1在思维和知识储备上已达到博士水准，但在课题探索和提供研究思路方面仍有不足，未能真正达到“做学术”的标准。

尽管在回答能力上提升有限，但o1正式版在用户体验方面却有了显著提升。其重大错误犯错率较预览版减少了约34%，回答速度也提高了约50%。在直播现场对比测试中，面对“列出二世纪的罗马皇帝，包括他们的时期和成就”这一问题，o1正式版仅用14秒便给出了回答，比预览版快了近20秒，这一差距让用户感受明显。

在回答的可靠性上，o1正式版也展现出了显著进步。通过“4/4可靠性”测试，o1正式版在各个领域都比预览版有了显著提升，而Pro版则更进一步。这一进步，无疑增强了用户对o1模型的信任度。

除了用户体验的提升，o1正式版还支持了多模态输入，用户可以通过图+文字的形式向模型提问。在直播现场，OpenAI团队展示了一张“太空数据中心”草图，并询问了关于散热器面积的问题。o1模型迅速捕捉到了图中的关键信息，并给出了详细的回答，其回答不仅准确，还考虑到了多种可能影响散热效果的因素。

测试草图

由于o1 Pro模型的思考深度更高，耗时更长，为了提升用户体验，OpenAI为其加入了回答进度条。这一设计，有效缓解了用户在等待回答时的焦虑情绪，成为OpenAI此次更新中的一大亮点。