腾讯混元最新开源：一键生成电影级音效，性能表现全面SOTA

最新开源的腾讯混元HunyuanVideo-Foley模型实现了端到端视频音效生成能力。

该模型可同步生成与视觉动态精确匹配的高保真音频，在人物互动、动物活动、自然景观、卡通动画等多样化场景中均能输出音画一致的声音效果。

当输入”海浪声”的文字描述时，不仅能精准匹配海浪画面生成波浪音效，还能自动捕捉视频中人群交谈声与海鸥鸣叫，并自然融入环境背景音形成层次丰富的复合音效。

技术层面采用创新性双流多模态扩散变换器（MMDiT）架构，通过联合自注意力机制实现视频与音频帧级对齐，并借助交叉注意力机制融合文本信息。

为解决模态不平衡问题开发了自动化标注数据管线，在10万小时级TV2A数据集上训练获得强大泛化能力。

引入表征对齐（REPA）损失函数提升音频质量的同时，改进型DAC-VAE模块采用48kHz高保真采样率与128维连续表征扩展技术，在引擎轰鸣动态变化、轮胎摩擦质感还原及空间位移声场模拟等方面达到专业制作水准。

该模型在MovieGen-Audio-Bench权威评测中核心指标超越现有最优模型MMAudio。

现已开源提供多平台访问：GitHub代码仓库及Hugging Face模型库均开放获取，并在腾讯混元平台提供一键式视频配音体验功能。

其生成的高质量音频可显著增强视频内容的真实感与沉浸式体验，在影视制作、游戏开发、虚拟现实等领域展现出广阔应用前景。