OpenAI于今晨推出两项重要语音技术更新:生产级实时语音处理API与新一代语音到语音模型gpt-realtime。
此次升级通过单一接口直接处理语音输入输出,在音质表现、语义理解及多模态交互能力上实现突破性提升。
Realtime API现支持远程MCP服务器连接与SIP协议通话功能,在保持低延迟特性的同时新增图像输入通道。
开发者可通过该接口直接构建具备视觉理解能力的智能体,在对话过程中处理截图文字识别等复合任务。
全新发布的gpt-realtime模型展现出接近人类水平的语音生成能力:其能精准复述复杂字母数字组合,在多语言切换时保留自然语调变化;
面对”采用快速专业语调”或”模拟法式口音表达”等精细化指令也能出色完成。
经内部测试显示,在西班牙语、中文等语言场景下的字母序列识别准确率较旧版提升超过20%。
技术指标方面: – 在Big Bench Audio推理评测中取得82.8%准确率(旧版65.6%) – MultiChallenge指令遵循测试得分30.5%(旧版20.6%) – ComplexFuncBench函数调用评估达66.5%(旧版49.7%) 此次升级特别强化了异步函数调用机制——当处理耗时操作时模型可维持对话流畅度而不阻塞会话流程。
通过会话配置中的MCP服务器URL设置即可启用工具扩展功能,在不修改代码的情况下快速接入新服务模块。
视觉交互方面新增图像输入通道支持,在实时对话中可融合截图内容实现”请朗读图片中的文字”等场景需求。
SIP协议集成则让应用能无缝接入电话网络与PBX系统完成外拨通话——这与马斯克此前推出的Ani电话功能形成呼应。
为降低开发门槛,OpenAI同步推出可重用提示词系统——开发者可保存包含变量定义与对话示例的标准提示模板,并在多个实时会话中灵活调用复用。
本次更新还引入两位华人技术研究员: Beichen Li专注于计算机图形学与机器学习交叉领域研究,在MIT CSAIL获得博士学位期间师从Wojciech Matusik教授 Liyu Chen此前在南加州大学攻读博士学位期间师从Haipeng Luo教授 这两项创新标志着OpenAI在构建拟人化语音智能体领域迈出重要一步——通过整合多模态感知与自然语言交互能力,在医疗预约安排、房产筛选等实际场景中实现端到端服务闭环。(参考链接已省略)
评论列表 (0条):
加载更多评论 Loading...