在人工智能领域,一场没有硝烟的战争正在激烈上演。近日,谷歌悄然更新了其大模型Gemini,推出了Gemini 2.5 Pro的新版本(0605),在多个方面实现了显著的性能提升。
谷歌通过多个官方账号同时宣布了这一消息。新版本在代码编写、逻辑推理等任务上的表现尤为出色,特别是在难度极高的“人类最后的考试”数据集中,Gemini 2.5 Pro 0605以21.6%的成绩超越了竞争对手o3,展现出强大的实力。
在大型语言模型的竞技场上,Gemini 2.5 Pro 0605也超越了自我,Elo评分比上个月的版本提高了24分,进一步巩固了其在行业内的领先地位。
谷歌CEO劈柴哥更是亲自上阵,发布了一张由AI合成的狮子照片,并配文“Gemini”,以此暗示新模型的强大实力。谷歌AI Studio产品负责人Logan表示,此次更新预计将成为Gemini 2.5 Pro的长期稳定版本,为开发者提供更可靠、更强大的支持。
有趣的是,在发布后的短短十几个小时内,Logan就进行了一波剧透,发布了一条仅包含“Gemini”一词的推文,引发了广泛关注和猜测。随后,谷歌宣布Gemini APP中的模型将更新为这一新版本,开发者版本也已在谷歌AI Studio和Vertex AI中上线。
在性能上,Gemini 2.5 Pro 0605不仅超越了Gemini自身,还超越了其他竞争对手。在“人类最后的考试”中,其成绩领先o3 1.3个百分点,远超Claude 4 Opus的两倍。在GPQA上,0605的成绩同样优异,单次尝试的准确率甚至高于Claude和Grok多次尝试的结果。虽然在数学竞赛和LiveCodeBench编程上,0605的表现稍逊于OpenAI的模型,但在代码编辑能力上却领先一筹。
在长文本处理方面,0605的表现同样出色,支持高达1M长度的文本处理,这是其他竞争对手所无法比拟的。在事实性测试上,0605也展现出了强大的实力,领先第二名超过10个百分点。在价格方面,Gemini更是以极具竞争力的价格优势吸引了大量用户,输入和输出Token的价格均低于其他主要竞争对手。
然而,就在新模型发布后不久,一些用户开始发现其存在的问题。有网友表示,虽然0605在多项测试中表现出色,但在某些指标上却出现了退步,如编程和长文本处理。还有用户指出0605的安全性存在问题,官宣后仅两个小时就被宣布越狱攻击成功,这引发了人们对AI模型安全性的担忧。
尽管如此,Gemini 2.5 Pro 0605的发布仍然引起了业界的广泛关注。谷歌表示将继续听取用户的反馈,并对模型进行持续优化和改进。未来,Gemini能否在人工智能领域继续领跑,让我们拭目以待。