
月之暗面发布的开源多模态智能体模型 Kimi K2.5配资炒股网站就,聚焦文本与视觉联合优化及并行智能体编排,通过创新技术实现了推理、编码、视觉理解等多领域的 SOTA 性能,其 Agent Swarm 框架将推理延迟降低 4.5 倍,模型 checkpoint 已开源,为通用智能体研究提供了重要支撑。
模型核心突破之一是文本与视觉的联合优化,颠覆了传统后期融合视觉令牌的思路,采用早期低比例视觉融合策略,在固定令牌预算下实现更优的多模态表现。其搭载的 MoonViT-3D 视觉编码器支持可变分辨率输入,通过 4 帧分组和时间平均,让视频处理长度提升 4 倍且与图像编码器共享权重。后训练阶段创新的零视觉 SFT 仅通过文本 SFT 激活视觉能力,避免了人工设计轨迹的泛化性问题,而文本 - 视觉联合强化学习则实现了双向增强,视觉 RL 训练后,MMLU-Pro 等文本基准性能也得到提升。
另一核心创新是Agent Swarm 并行智能体编排框架,针对传统智能体串行执行的延迟问题,提出并行智能体强化学习(PARL)范式。框架由可训练的编排器和冻结的领域专用子智能体构成,通过解耦训练规避信用分配模糊和训练不稳定性问题;设计包含实例化、完成率和任务表现的复合奖励函数,避免串行坍缩和虚假并行;以关键步骤为资源约束,引导编排器实现高效任务分解。该框架将复杂任务拆分为异构子任务并行执行,在广搜索场景中不仅降低延迟,还将项目级 F1 值从 72.8% 提升至 79.0%。
展开剩余82%模型基于 Kimi K2 万亿参数 MoE 模型构建,经三阶段预训练(独立 ViT 训练、15 万亿视觉 - 文本令牌联合训练、长上下文中期训练)和 SFT、RL 后训练优化。后训练中创新的 Toggle 令牌高效策略,在不损失性能的前提下将输出令牌减少 25~30%;解耦编码器进程(DEP)实现视觉与文本骨干网络的负载均衡,使多模态训练效率达到纯文本训练的 90%。
全面评测显示,Kimi K2.5 在多领域表现优异:STEM 推理上 AIME 2025 达 96.1%,HLE 工具加持下得分 50.2% 超 GPT-5.2 等模型;编码领域 SWE-Bench Verified 达 76.8%,LiveCodeBench v6 达 85.0%;视觉理解在 OCRBench、OmniDocBench 1.5 分别达 92.3%、88.8%,长视频理解 LongVideoBench 达 79.8% 创 SOTA;计算机使用能力上 OSWorld-Verified 达 63.3%,接近 Claude Opus 4.5。Agent Swarm 框架进一步提升性能,BrowseComp 得分 78.4%、WideSearch 达 79.0%,均超单智能体基线和主流闭源模型。
此外,Kimi K2.5 展现出强大的实际应用能力,可并行分析 40GB、24 小时的《黑神话:悟空》游戏视频并生成交互式 HTML 展示页,还能通过工具调用完成迷宫求解、饼图分析、找不同等复杂视觉推理任务,验证了其多模态理解和实际问题解决能力。该模型通过多模态联合优化和并行智能体技术,推动了通用智能体的发展,开源成果也为社区研究提供了重要基础。
免责声明:我们尊重知识产权、数据隐私配资炒股网站就,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
发布于:广东省道正网提示:文章来自网络,不代表本站观点。