Meta开源大模型Llama-4遭质疑，LMArena排名暴跌至32名-游戏设备-游戏世界

近期，LMArena排行榜上发生了一场戏剧性的变动，meta发布的开源大模型Llama-4-Maverick的排名从昔日的榜眼之位骤降至第32名。这一变动背后，隐藏着开发者对meta刷榜行为的质疑。

4月6日，meta隆重推出了Llama 4系列大模型，包括Scout、Maverick和Behemoth三个版本。其中，Llama-4-Maverick在LMArena的Chatbot Arena LLM排行榜上一度占据第二的位置，仅次于Gemini 2.5 Pro。然而，随着开源版本的广泛使用，Llama 4的口碑却急剧下滑。开发者们发现，meta提供给LMArena评测的Llama 4版本与向社区公开的开源版本存在差异，从而引发了刷榜作弊的质疑。

面对质疑，Chatbot Arena官方于4月8日正式回应，确认了meta提供的确实是“特供版”模型，并表示将考虑更新排行榜。据官方透露，meta首次提交的Llama-4-Maverick-03-26-Experimental是一个针对聊天优化的实验性版本，该版本在评测中取得了第二的好成绩。然而，修正后的开源版本Llama-4-Maverick-17B-128E-Instruct，在排行榜上的位置却大幅下滑至第32名。

目前，开源版Llama-4-Maverick-17B-128E-Instruct的排名远低于Gemini 2.5 Pro、GPT4o、DeepSeek-V3-0324等热门模型，甚至不及英伟达基于Llama 3.3改造的Llama-3.3-Nemotron-Super-49B-v1。这一结果无疑让开发者们大跌眼镜。

对于Llama-4-Maverick-03-26-Experimental表现不佳的原因，meta在上周六发布的一份图表中解释说，该模型是专门针对对话性进行优化设计的。这些优化在LM Arena评测中确实取得了显著效果，因为评测者会根据模型的输出选择他们更偏好的结果。

尽管LM Arena从未被视为衡量AI模型性能的最可靠指标，但针对基准测试调整模型的做法仍具有误导性，且让开发者难以准确预测模型在不同场景下的实际表现。meta的一位发言人向TechCrunch表示，meta会尝试各种定制变体，并强调Llama-4-Maverick-03-26-Experimental是聊天优化的尝试之一，在LM Arena上表现良好。同时，他也表示期待看到开发者如何根据自己的使用案例定制Llama 4，并期待他们的持续反馈。