6秒造一个「视频博主」，Pika让一切图片开口说话

制作视频通常涉及拍摄、配音与剪辑三个主要步骤。

还记得veo3发布时引发的关注吗？

其”音画同步”功能凭借革命性突破让其他视频生成模型相形见绌，真正实现了拍摄、配音与粗剪的一键式操作。

但如果想用自己的独特嗓音进行配音呢？

或者已有精心准备的配乐？

还有其他解决方案吗？

答案是肯定的！

8月11日,Pika推出了名为”音频驱动表演模型”（Audio-Driven Performance Model）的新系统。

该模型允许用户上传任意音频文件（包括语音、音乐、说唱等声源片段），并结合静态图像（如自拍或其他图片）生成高度同步的视频内容。

生成的视频中的人物能够精准匹配音频节奏,实现精确口型同步(lip sync)、自然表情变化及流畅肢体动作。

通俗来说就是:任何一张静态照片都能随着你提供的音频”活过来”,其表现力堪称栩栩如生。

只需上传一张自拍并配上马保国的经典台词”年轻人不讲武德”,照片中那张帅气面容就能实现口型完美同步,连眉毛挑动的时机都分毫不差,真正达到”本人出镜”的效果。

这项技术以前至少需要顶级特效师耗费数周时间,现在Pika仅需6秒即可完成生成——没错,就是6秒!你甚至不用离开座位上个厕所的时间,系统就能输出720p高清视频,时长不受限,蒙娜丽莎为你清唱《忐忑》全曲也不是问题。

不过目前该功能仅限iOS端且需邀请码使用,期待后续开放更多权限。

让我们看看网友的实际测试反馈:无论是说唱片段还是歌曲演绎,唇形同步精度极高,有效解决了传统AI视频常见的”假唱”问题。

在一段说唱测试中,人物在节奏停顿时的表情处理非常自然生动,极具真实感——虽然手部动作偶尔会有些许突兀感。

跨语言测试显示该模型同样表现出众,甚至能生成非吉米·法伦版《吉米鸡毛秀》般的表演场景;还能让亚洲大叔用印度口音吐槽露营惨剧;或是直接呈现沉浸式现场演出画面。

这项技术即将引爆社交媒体平台,催生海量创意Meme与短片创作热潮。

当然技术总是双刃剑——当任意图像都能被赋予任意声音时,如何甄别信息真伪成为我们必须面对的新挑战。

但无论如何,全民参与、创意迸发的视频新时代已然来临。

下一个风靡全网的现象级短视频作品,或许就诞生于你我的指尖之间。