游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

Llama 4陷作弊风波,Meta AI紧急澄清:真相究竟如何?

2025-04-08来源:ITBEAR编辑:瑞雪

近日,科技界掀起了一场关于meta最新推出的开源大模型Llama 4的风暴。4月5日,这家美国科技巨头宣布,其新一代大模型Llama 4已面世,包含Scout和Maverick两个基于混合专家(MoE)架构的版本,而更为强大的Llama 4 Behemoth仍在训练中。

meta官方宣称,Llama 4在多项基准测试中表现卓越,尤其是Llama 4 Behemoth,其在多个测试中的成绩超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行业顶尖封闭模型。meta声称,Llama 4家族使用了混合专家架构,原生支持多模态,堪称“全能选手”。

然而,就在Llama 4发布后不久,质疑声如潮水般涌来。开发者们实测后发现,Llama 4的实际效果远不如宣传中那般惊艳,甚至问题频出。特别是在编程等特定任务上,Llama 4的表现并不理想。Menlo Ventures的风险投资人迪迪·达斯直言,Llama 4实际上是一个糟糕的编程模型。

不仅如此,开发者们还质疑meta存在作弊“刷榜”的行为。他们指出,meta在大模型竞技场上使用的并非供开发者使用的Llama 4版本,而是针对人类偏好进行优化的定制模型。大模型竞技场官方也证实了这一点,并要求meta对此事作出澄清。

知名科技媒体TechCrunch也发表文章,指出meta新AI模型的性能测试“具有一定误导性”。文章认为,meta针对基准测试优化特定版本去打榜,却给开发者提供“基础版”的做法,让开发者难以依据榜单排名准确预估模型在实际应用场景中的真实表现。

面对外界的质疑,meta生成式AI副总裁艾哈迈德·阿尔·达赫勒在社交平台X上公开回应,坚称相关说法毫无事实依据。他解释称,部分用户在使用Llama 4模型时遭遇了质量不稳定问题,这是由于模型发布后仍在调整阶段,预计需要几天的时间来完善所有公开版本。

meta首席AI科学家、图灵奖得主Yann LeCun也转发了达赫勒的帖子,为Llama 4声援。然而,这场风波并未因此平息。一则自称由meta内部员工发布的爆料帖子,再次将meta推上了风口浪尖。该员工爆料称,Llama 4模型训练测试集作弊,自己已因此辞职。

爆料员工透露,尽管团队反复努力训练,Llama 4的内部模型性能始终无法达到开源SOTA基准,且差距明显。为达成目标,公司领导层提出在训练后期将各种基准测试的测试集数据混入训练或微调数据中。这一说法引发了广泛关注和讨论。

不过,由于爆料人并未实名,该帖子的真实性尚无法核实。meta的多位内部员工也在评论区实名进行辟谣,称团队绝不存在针对测试集过拟合训练的情况。这场关于Llama 4的争议,仍在持续发酵中。

手机电池容量怎么选?联想新机与大疆眼镜选购指南来了
续航方面,moto X70 Air的电池容量为4800mAh,虽然在当前动辄5000mAh甚至6000mAh的中端机中并不占优,但结合机身厚度来看,这一数据仍非常可观,而且该机还支持68W有线快充,可在30…

2025-11-14

《幻兽帕鲁》手游版12月封闭测试来袭
由Pocketpair社正版授权、知名游戏厂商KRAFTON JAPAN倾力打造的宠物收集冒险手游《幻兽帕鲁》即将开启封闭测试。这款改编自PC端高人气作品的移动端新作,预计于12月正式启动测试阶段,为玩家带来融合收集、建造与冒险的沉浸式体验。

2025-11-14

vivo V70现身Geekbench跑分平台 搭载骁龙7系 2026年一季度或发布
根据Geekbench平台信息,vivo V70搭载了与上代机型V60同款的骁龙7 Gen4移动平台。其中ProMini机型在国际市场或将更名为vivo X300 FE,而标准版S50可能基于vivo V…

2025-11-13