最新开源的腾讯混元HunyuanVideo-Foley模型实现了端到端视频音效生成能力。
该模型可同步生成与视觉动态精确匹配的高保真音频,在人物互动、动物活动、自然景观、卡通动画等多样化场景中均能输出音画一致的声音效果。
当输入”海浪声”的文字描述时,不仅能精准匹配海浪画面生成波浪音效,还能自动捕捉视频中人群交谈声与海鸥鸣叫,并自然融入环境背景音形成层次丰富的复合音效。
技术层面采用创新性双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制实现视频与音频帧级对齐,并借助交叉注意力机制融合文本信息。
为解决模态不平衡问题开发了自动化标注数据管线,在10万小时级TV2A数据集上训练获得强大泛化能力。
引入表征对齐(REPA)损失函数提升音频质量的同时,改进型DAC-VAE模块采用48kHz高保真采样率与128维连续表征扩展技术,在引擎轰鸣动态变化、轮胎摩擦质感还原及空间位移声场模拟等方面达到专业制作水准。
该模型在MovieGen-Audio-Bench权威评测中核心指标超越现有最优模型MMAudio。
现已开源提供多平台访问:GitHub代码仓库及Hugging Face模型库均开放获取,并在腾讯混元平台提供一键式视频配音体验功能。
其生成的高质量音频可显著增强视频内容的真实感与沉浸式体验,在影视制作、游戏开发、虚拟现实等领域展现出广阔应用前景。
评论列表 (0条):
加载更多评论 Loading...