游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

Meta Llama 4实战遭质疑:竞技场高分背后,真实表现如何?

2025-04-07来源:ITBEAR编辑:瑞雪

在科技界的一次意外转折中,meta公司最新推出的AI模型系列Llama 4遭遇了用户反馈与官方宣传之间的显著落差。

上周六,meta自豪地宣布了Llama 4系列,包括Llama 4 Scout、Llama 4 Maverick和顶级版本Llama 4 Behemoth。官方宣传中,这些模型在大型语言模型领域展现出了不俗的实力,特别是Llama 4 Maverick,在多项任务中名列前茅,甚至超越了DeepSeek等其他知名模型。

然而,用户的实际体验却大相径庭。许多网友在尝试使用Llama 4进行编程任务时,发现其表现并不如预期。特别是在Kscores基准测试中,专注于代码生成和补全能力的评估,Llama 4 Scout和Maverick的表现明显不如GPT-4o、Gemini Flash等其他模型。

网友@deedydas在社交媒体上发帖,详细对比了Llama 4与其他模型在Kscores测试中的成绩,指出Llama 4在编程相关任务上的不足。这一观点得到了其他用户的广泛共鸣,许多人在评论区表示,无论是Scout还是Maverick,在实际编程场景中的表现都令人失望。

还有网友在Novita AI平台上对Llama 4进行了测试,发现该模型在处理复杂问题时显得力不从心,尽管其响应速度相当快。这一发现进一步加剧了用户对Llama 4实际能力的质疑。

更令人惊讶的是,Google DeepMind的工程师Susan Zhang也对Llama 4在lmsys上的高分表示了质疑。她怀疑meta是否为lmsys定制了一个特定版本的模型,以获取更高的分数。

据科技媒体TechCrunch报道,meta新AI模型的基准测试存在误导性。研究人员发现,公开可下载的Llama 4 Maverick与在LM Arena上托管的版本在行为上存在显著差异。LM Arena上的版本似乎使用了大量表情符号,并给出了冗长的回答,这与用户实际体验到的版本截然不同。

meta在公告中解释称,LM Arena上的Maverick是“实验性聊天版本”,但这一解释并未能平息用户的质疑。许多用户认为,meta为了提高LM Arena上的分数而定制了模型版本,这一行为误导了开发者对模型实际能力的判断。

这一事件再次引发了科技界对AI模型基准测试的争议。尽管基准测试是衡量AI模型性能的重要指标,但如何确保测试的公正性和准确性仍然是一个亟待解决的问题。

荣耀GT2来袭:9000mAh大电池配骁龙8E,两千档新机能否逆袭红米?
作为新系列的首款机型,荣耀GT在曝光之初备受期待,被认为是最有希望挑战红米K80地位的产品。 据悉荣耀GT2将搭载骁龙8E处理器,看齐红米K90,而骁龙8E的性能经过一年时间的考验大家已经很清楚了,依然非常强…

2025-11-15

vivo S50系列火热预热 骁龙8Gen5芯片配潜望长焦及超声波指纹来袭
近日OPPO Reno15系列、荣耀500系列、vivoS50系列等几款待发新机均有不少爆料,其中OPPO已经率先定档(11.17发布),荣耀500也已经公布了外观(发布日期暂未公布),今日vivo S50…

2025-11-14