制作视频通常涉及拍摄、配音与剪辑三个主要步骤。
还记得veo3发布时引发的关注吗?
其”音画同步”功能凭借革命性突破让其他视频生成模型相形见绌,真正实现了拍摄、配音与粗剪的一键式操作。
但如果想用自己的独特嗓音进行配音呢?
或者已有精心准备的配乐?
还有其他解决方案吗?
答案是肯定的!
8月11日,Pika推出了名为”音频驱动表演模型”(Audio-Driven Performance Model)的新系统。
该模型允许用户上传任意音频文件(包括语音、音乐、说唱等声源片段),并结合静态图像(如自拍或其他图片)生成高度同步的视频内容。
生成的视频中的人物能够精准匹配音频节奏,实现精确口型同步(lip sync)、自然表情变化及流畅肢体动作。
通俗来说就是:任何一张静态照片都能随着你提供的音频”活过来”,其表现力堪称栩栩如生。
只需上传一张自拍并配上马保国的经典台词”年轻人不讲武德”,照片中那张帅气面容就能实现口型完美同步,连眉毛挑动的时机都分毫不差,真正达到”本人出镜”的效果。
这项技术以前至少需要顶级特效师耗费数周时间,现在Pika仅需6秒即可完成生成——没错,就是6秒!你甚至不用离开座位上个厕所的时间,系统就能输出720p高清视频,时长不受限,蒙娜丽莎为你清唱《忐忑》全曲也不是问题。
不过目前该功能仅限iOS端且需邀请码使用,期待后续开放更多权限。
让我们看看网友的实际测试反馈:无论是说唱片段还是歌曲演绎,唇形同步精度极高,有效解决了传统AI视频常见的”假唱”问题。
在一段说唱测试中,人物在节奏停顿时的表情处理非常自然生动,极具真实感——虽然手部动作偶尔会有些许突兀感。
跨语言测试显示该模型同样表现出众,甚至能生成非吉米·法伦版《吉米鸡毛秀》般的表演场景;还能让亚洲大叔用印度口音吐槽露营惨剧;或是直接呈现沉浸式现场演出画面。
这项技术即将引爆社交媒体平台,催生海量创意Meme与短片创作热潮。
当然技术总是双刃剑——当任意图像都能被赋予任意声音时,如何甄别信息真伪成为我们必须面对的新挑战。
但无论如何,全民参与、创意迸发的视频新时代已然来临。
下一个风靡全网的现象级短视频作品,或许就诞生于你我的指尖之间。
评论列表 (0条):
加载更多评论 Loading...