今天正式开源具备80亿参数规模的面壁小钢炮MiniCPM-V 4.5多模态旗舰模型,在行业内率先实现”高刷”视频理解能力突破。
该模型不仅在视觉信息处理精度与速度上达到新高度,在长视频理解、OCR识别及文档解析等多维度能力均达到同级别最优水平(SOTA),其综合性能甚至超越参数量达720亿的Qwen2.5-VL模型,在端侧部署领域树立全新标杆。
MiniCPM-V 4.5核心优势体现在: 1. 行业首创高刷新率视频理解架构:通过三维重采样器(3D-Resampler)技术突破传统二维处理局限,在相同视觉token预算下可处理6倍视频帧数量(最高支持10fps抽帧),实现96倍视觉压缩率——这是同类模型压缩效率的12-24倍 2. 全场景多模态能力登顶:在OpenCompass图像理解测评中超越GPT-4o等闭源大模型;
于MotionBench/FavorBench高刷视频榜单上刷新同尺寸纪录;
在OmniDocBench文档编辑任务中达成三项指标同级最优 3. 智能推理模式切换:创新性设计常规模式与深度思考模式双轨制推理框架——常规模式保障90%场景下的快速响应(单次推理延迟降低40%),深度思考模式则针对复杂推理任务提供更强认知能力 该模型取得突破的核心技术创新在于: – 视觉编码范式革新:通过三维时空建模将视频分组压缩为64个视觉token(每组最多包含6帧),既保留动态细节又控制计算开销 – 混合训练机制:采用强化学习双模式协同训练方案,在常规推理性能提升37%的同时保持深度思考模式效能 – 轻量化抗幻觉训练:RLAIF-V阶段通过多模态奖励信号优化,在降低19%幻觉率的同时维持OCR识别准确率98.7% 在端侧部署层面实现三大突破: 1) 显存占用降低至同类产品的60% 2) 支持单图/多图/视频统一编码框架 3) 实现毫秒级响应速度(常规模式平均延迟
评论列表 (0条):
加载更多评论 Loading...