游戏世界
业界动态 手游资讯 网游资讯 单机资讯 电竞资讯 动漫资讯 游戏设备 手机电脑 热点资讯

国产AI大模型崛起!MiniMax语音生成技术问鼎全球双榜首

2025-05-16来源:ITBEAR编辑:瑞雪

在AI语音生成领域,一场突如其来的变革正在上演。国产大模型MiniMax最新发布的Speech-02,不仅在国内引起了轰动,更在全球权威语音基准测评中崭露头角,一举夺得Artificial Analysis Speech Arena和Hugging Face TTS Arena两项桂冠。值得注意的是,MiniMax是这两个榜单前十名中唯一的国产玩家,打破了长期以来由OpenAI和ElevenLabs主导的格局。

Speech-02的表现究竟如何?实测结果令人惊叹。它能够根据文章内容自动匹配语气和情绪,无论是专业播音腔还是中英混杂,都能轻松驾驭。更令人称奇的是,它还能复刻明星的音色,如泰勒·斯威夫特,不仅发音地道,还完美还原了她的个人特色。这一能力,只需几秒的语音参考,即可实现超逼真复刻。

除了卓越的性能,Speech-02的性价比也堪称全球领先。相较于ElevenLabs,其定价仅为前者的一半甚至四分之一。这样的价格优势,使得更多企业和个人开发者能够轻松接入,享受AI语音生成的便利。

Speech-02的成功,得益于其在超拟人、个性化和多样性方面的全面优化。在超拟人方面,其还原度几乎达到了天衣无缝的地步,无论是中文咬字还是英文发音,都极其完美。在个性化方面,它提供了丰富的音色选择,包括语言、口音、性别和年龄等多个维度。在多样性方面,它支持32种语言的无缝切换,甚至能够跨语言生成音色。

从技术细节来看,Speech-02采用了基于自回归Transformer的架构,并引入了可学习说话者编码器和Flow-VAE模型。这些创新使得Speech-02能够在极少样本甚至无训练数据的情况下,仅通过参考音频就能生成与目标说话人极为相似的音色。同时,Flow-VAE模型的引入也进一步提升了生成语音的音质和说话人相似性。

MiniMax不仅在技术上领先,更在AI语音行业的落地上取得了显著成果。其落地案例多元、跨行业、全球化,与不同行业玩家共同开拓了AI语音的应用前景。在教育领域,MiniMax与高途合作推出了24小时可定制化的AI语言陪练系统;在智能座舱方面,其大模型已入驻极狐汽车;在AI玩具领域,为跃然创新haivivi提供底层语音合成和文本模型能力。这些应用案例充分展示了MiniMax在AI语音生成领域的广泛应用价值。

MiniMax的成功并非偶然。作为AI领域的头部玩家,其在大模型技术浪潮之前就已抢先布局自研多个模态的基础模型,覆盖文本、语音、视觉三大领域。这种长线布局和持续创新的精神,使得MiniMax在AI语音生成领域始终保持领先地位。同时,其天然的技术试炼场如星野、Talkie等也使得MiniMax更懂实际落地、更懂如何将实验室中的前沿技术输送到用户面前。