智谱基于GLM-4.5开发的开源多模态视觉推理模型GLM-4.5V在42个公开评测榜单中斩获41项SOTA(最优性能)!
该模型覆盖图像理解、视频分析、文档解析、目标定位、空间关系推理及UI界面转代码等核心功能模块。
近半年来多模态大模型已成为行业标配产品,但功能同质化现象明显。
而智谱最新开源的GLM-4.5V却带来诸多创新突破——两周前发布的融合ARC(智能代理、推理计算)能力的GLM-4.5已取得全球第三、国产第一及开源模型榜首的成绩,此次乘胜推出的1000亿参数级多模态新作更在视觉赛道树立标杆。
通过z.ai平台实测发现:该模型不仅能以高精度完成GeoGuessr地理推理游戏(三次测试均准确识别国家大洲),还在清明上河图这类复杂场景中精准定位左上角三匹马并标注坐标框;
其视频理解能力尤为突出——上传GitHub网站视频即可实现前端界面复刻;
面对抽象艺术视频时不仅能识别特斯拉Cybertruck元素,更能解析其中宇宙与人类文明的隐喻关联。
技术架构方面,GLM-4.5V延续了GLM-4.1V-Thinking模块化设计,采用AIMv2-Huge视觉编码器配合三维卷积处理视频数据,通过3D-RoPE位置编码与双三次插值算法优化极端宽高比图像处理,支持64K超长上下文交互。
训练策略采用预训练+监督微调+强化学习三阶段方案,最终实现跨模态空间理解能力突破。
实测数据显示该模型在空间关系推理任务中单箭头场景判断准确率达100%,多箭头场景误差率低于3%;
Magic Eye立体图像识别可精准定位隐藏元素;
目标计数任务中对复杂场景下的物体数量统计误差控制在±2%以内。
特别值得关注的是其”思考模式”开关设计,允许用户自主选择是否启用深度推理功能,配合任务专属Emoji提示系统,既保证了交互趣味性又强化了认知过程可视化。
目前该模型已在Hugging Face与魔搭社区获得超13万次下载,API接口通过BigModel.cn开放平台提供服务,新用户可领取2000万Tokens免费资源包。
随着多模态大模型从实验室走向产业应用,GLM-4.5V凭借其全场景视觉推理能力与快速响应特性,正在推动AI系统从”感知”向”认知”层级跃迁——这正是未来通用人工智能发展的重要方向之一。
评论列表 (0条):
加载更多评论 Loading...