刚刚，好莱坞特效师展示AI生成的中文科幻大片，成本只有330元

多模态生成技术正成为人工智能发展的核心方向。

近期AI领域正经历着显著变化：xAI团队在推出Grok 4的同时重点推介视频生成模型Grok Image；

百度则将视频生成技术推向新高度——全球首发中文音视频一体化模型”百度蒸汽机（MuseSteamer）2.0″实现人物口型、表情与动作的毫秒级同步。

该模型自7月初首次亮相后持续进化，在音画同步精度上完成质变突破。

此次升级覆盖Turbo版、Lite版、Pro版及有声版本四大系列模型，在分辨率、生成时长及特性侧重上形成差异化布局。

价格体系极具竞争力：全系定价仅为国内主流产品的70%，其中Turbo版5秒有声视频生成限时价低至1.4元。

实测显示其核心优势在于”一步到位”能力：上传首帧图片即可自动生成带背景音效的完整视频。

在单人吃播场景中人物咀嚼动作流畅自然；

面对多人对话测试时，《浪浪山小妖怪》四位角色可同步完成复杂互动场景演绎；

甚至能精准呈现OpenAI与Meta CEO虚拟会面场景中的细微肢体语言与眼神交流。

该系统攻克了三大技术难点：长时序音画同步（数秒级连续场景）、环境音效匹配（如脚步声与门响）、多角色身份定位（对话角色与动作同步）。

其核心技术架构包含首创的LMMP（潜在多模态规划器），通过端到端训练实现叙事逻辑与镜头语言的高度统一。

基于百亿级参数规模训练而成的蒸汽机2.0，在VBench I2V榜单上延续了1.0版本全球第一的性能表现。

其训练数据涵盖海量中文语料库及专业运镜数据集，并通过人工精标构建了独特的镜头语言理解模型。

实际应用案例显示：资深影视特效师姚骐仅用一周时间就借助该系统制作出40个镜头的科幻短片《归途》，成本较传统制作方式降低99%以上。

随着这项技术深度融入百度生态体系，在搜索表现力、内容创造力及商业应用层面正形成良性循环效应。