聊模型的王兴兴

宇树科技创始人王兴兴在世界机器人大会（WRC）主题演讲中打破行业对公司的固有认知。

尽管业界普遍认为宇树专注于机器人本体研发，在此次大会上他却将大量篇幅用于探讨模型、算法与数据相关议题，并引发行业热议。

针对当前火热的VLA（Vision-Language-Action）技术路径，王兴兴直言持有保留态度：”这更像是相对初级的架构方案”。

他指出具身智能领域现存数据量不足是关键瓶颈——当VLA模型与真实环境交互时，数据质量与数量均存在明显短板。

尽管多数企业通过采集真实机器数据、构建仿真环境甚至建立数据工厂弥补缺口，王兴兴认为行业过度关注基础数据采集：”应将核心焦点转向具身机器人的模型架构优化”——在他看来当前模型存在”质量参差不齐且缺乏统一标准”的问题。

此前王兴兴多次强调宇树的核心优势在于硬件而非人工智能系统的发展路径表述，在此次大会上得到修正补充：”公司对模型研发保持审慎态度的同时，在团队规模上已处于行业较高水平（相较AI大厂则仍显不足）。

“但他同时强调人员规模并非技术突破的关键因素：”历史经验表明创新未必诞生于资源最雄厚的企业——中小型团队同样可能实现突破性成果”。

在技术路线选择上呈现多元化布局态势：虽然承认VLA是当前热点方向却不盲目跟风堆砌训练数据量：”或许更强大的具身模型仅需少量优质数据即可达成更高成功率”。

与此同时持续探索视频驱动路径——早在谷歌发布视频世界模型前一年便尝试通过生成视频指导机器人完成整理房间等任务，并认为该路线可能比VLA更快实现收敛目标——尽管面临GPU消耗过高的现实挑战。

面对算力瓶颈问题提出分布式解决方案构想：”未来工厂若配备百台机器人即可搭建低延迟分布式算力集群”。

对于外界质疑其产品侧重表演场景的看法予以回应：”当前阶段表演确实是较易落地的方向”但强调内部研发重点仍聚焦多功能通用型机器人开发：”我们希望机器人能同时胜任工厂服务与表演展示等多样化任务”。

关于行业里程碑预测给出明确时间窗口：”机器人的ChatGPT时刻最快2-3年可见端倪最迟不超过5年”并描绘临界点场景——当观众能在场馆中随意指派人形机器人完成任意指令时即标志智能跃迁达成。

他认为此轮具身智能浪潮发展周期不会超过十年。（《智能涌现》拍摄）