游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

Meta开源大模型Llama-4遭质疑,LMArena排名暴跌至32名

2025-04-14来源:ITBEAR编辑:瑞雪

近期,LMArena排行榜上发生了一场戏剧性的变动,meta发布的开源大模型Llama-4-Maverick的排名从昔日的榜眼之位骤降至第32名。这一变动背后,隐藏着开发者对meta刷榜行为的质疑。

4月6日,meta隆重推出了Llama 4系列大模型,包括Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena的Chatbot Arena LLM排行榜上一度占据第二的位置,仅次于Gemini 2.5 Pro。然而,随着开源版本的广泛使用,Llama 4的口碑却急剧下滑。开发者们发现,meta提供给LMArena评测的Llama 4版本与向社区公开的开源版本存在差异,从而引发了刷榜作弊的质疑。

面对质疑,Chatbot Arena官方于4月8日正式回应,确认了meta提供的确实是“特供版”模型,并表示将考虑更新排行榜。据官方透露,meta首次提交的Llama-4-Maverick-03-26-Experimental是一个针对聊天优化的实验性版本,该版本在评测中取得了第二的好成绩。然而,修正后的开源版本Llama-4-Maverick-17B-128E-Instruct,在排行榜上的位置却大幅下滑至第32名。

目前,开源版Llama-4-Maverick-17B-128E-Instruct的排名远低于Gemini 2.5 Pro、GPT4o、DeepSeek-V3-0324等热门模型,甚至不及英伟达基于Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。这一结果无疑让开发者们大跌眼镜。

对于Llama-4-Maverick-03-26-Experimental表现不佳的原因,meta在上周六发布的一份图表中解释说,该模型是专门针对对话性进行优化设计的。这些优化在LM Arena评测中确实取得了显著效果,因为评测者会根据模型的输出选择他们更偏好的结果。

尽管LM Arena从未被视为衡量AI模型性能的最可靠指标,但针对基准测试调整模型的做法仍具有误导性,且让开发者难以准确预测模型在不同场景下的实际表现。meta的一位发言人向TechCrunch表示,meta会尝试各种定制变体,并强调Llama-4-Maverick-03-26-Experimental是聊天优化的尝试之一,在LM Arena上表现良好。同时,他也表示期待看到开发者如何根据自己的使用案例定制Llama 4,并期待他们的持续反馈。

荣耀500系列新机预热来袭:2亿像素人像拍摄,配置越级似iPhone风
官方所预热的内容陆续增加,比如全新外观、影像、性能等方面,对比上一代更有趣。 荣耀500 Pro版本的配置有所曝光,处理器是上一代的骁龙8 Elite,性能同样保持在旗舰级别,无论是影像拍摄、玩手游、大型应用…

2025-11-15

2025拍照手机怎么选?人像长焦夜景全解析,这几款满足多样需求
不同的拍照需求,如人像拍摄、长焦拍摄、防抖效果等,需要不同的机型来满足。 iPhone 17 系列、荣耀 Magic7 系列和真我 GT8Pro 等机型也各有特色,能满足不同用户在人像拍照、长焦镜头、拍照防…

2025-11-13