Blog  []

欢迎我们的新成员—Ring-lite!它推理更有深度,能力更均衡

📖 Technical Report | 🤗 Hugging Face| 🤖 ModelScope 概述 我们推出了Ring-lite-2507,该模型是在我们之前发布的轻量级推理模型Ring-lite-2506上的一次全面升级!Ring-lite-2507是一个激活参数为2.75B,总参数为16.8B的MoE大语言模型。此次升级,我们的模型不仅进一步提升了在数学、代码和逻辑任务上的推理能力,同时在知识理解、对齐和智能体等多个广泛使用的通用类评测榜单中取得了卓越的表现。通过我们提出的创新性强化学习算法和多阶段强化学习训练流程,Ring-lite-2507相比最新10B参数以下的Dense推理模型,在仅激活其1/3参数规模的情况下,在各项任务中达到了相当或更具竞争力的性能。 我们提出了一种创新的强化学习训练算法,即Constrained Contextual Computation Policy Optimization(C3PO),旨在解决MoE强化学习训练过程中的不稳定性问题。通过算法-系统协同设计,我们的方法同时提高了训练稳定性和计算吞吐量。此外,我们系统性地研究了长思维链SFT和RL训练之间的动态关系,并提出使用token效率指标来帮助我们探索选择更适合RL训练的微调模型,从而实现了RL训练过程中的性能和效率的双平衡。此外,我们还采用了新型两阶段强化学习的训练范式,以平衡多领域融合数据的训练效果,在增强推理能力的同时,更有效地提升各种下游通用任务的表现。 亮点 🚀 多项任务中的卓越表现: Ring-lite-2507在推理和通用任务上均表现出卓越的性能; 🔥 仅激活2.75B模型参数: Ring-lite-2507是一个基于MoE的大语言模型,仅激活了2.75B模型参数; ⛓️‍💥 算法-系统协同设计: 我们创新性地提出了C3PO训练方法,并采用token效率来平衡RL训练的稳定性和有效性; 🔍 公开可用: 我们的训练数据和模型权重均已公开。 模型评测 我们在两个主要领域对模型进行了全面评估:推理和通用。我们使用了一系列公开评测榜单来衡量模型能力,包括:知识理解、数学、代码、推理 & 智能体,以及对齐任务。 知识理解 Benchmark Ring-lite-2507 Ring-lite-2506 Qwen3-8B-Thinking MMLU-Pro (EM) 72.50 63.44 72.56 GPQA-Diamond (Pass@1) 69.35 63.51 62.00 SuperGPQA (EM) 40.05 13.97 40.36 Phybench (Pass@1) 28.51 29.19 22.14 数学 Benchmark Ring-lite-2507 Ring-lite-2506 Qwen3-8B-Thinking MATH-500 (Pass@1) 97.95 96.80 97.30 CNMO 2024 (Pass@1) 75....

2025年8月5日 · 2 分钟 · 359 字 · inclusionAI, Ant Group

Ming-lite-omni v1.5:全能模型再升级,效果与体验双优化

GITHUB 🤗 Hugging Face| 🤖 ModelScope 概述 本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni(Github) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B。与各领域同等规模的业界领先模型相比,在各模态基准测试中展现出极具竞争力的结果: 性能对比图 Ming-lite-omni v1.5能力介绍:三大维度全面优化,效果与体验双提升! 可控图像生成:像素级掌控,创意无限 Ming-lite-omni v1.5 重点优化了图像编辑的 场景一致性(Scene Consistency)、ID 一致性(Character / Style Consistency),在人物图像编辑时,在场景和人物ID 保持上展现出明显的优势,同时拓展了对生成式分割、深度预测、目标检测 以及 边缘轮廓生成 等感知任务的支持。 生成式图像分割 Next User Given the following instructions: little girl, pink, your monitors colors off friend p pink shirt girl; please perform referring segmentation on this image. Ming-lite-omni v1.5 User Please segment different classes in this image....

2025年7月21日 · 3 分钟 · 603 字 · inclusionAI, Ant Group

M2-Reasoning: 赋予多模态大语言模型统一的通用与空间推理能力

📖 Technical Report | 🤗 Hugging Face| 🤖 ModelScope 介绍 我们推出了 M2-Reasoning-7B,一个在通用与空间推理方面都表现卓越的模型。我们的方法融合了两项关键创新:(1) 一个全新的数据管道,生成了29.42万个高质量数据样本(其中16.8万用于冷启动微调,12.62万用于RLVR)。这些数据具有逻辑连贯的推理轨迹,并经过了全面评估。(2) 一种动态多任务训练策略,通过逐步优化来缓解数据间的冲突,并利用针对特定任务的奖励机制来提供定制化的激励信号。通过这种精心筛选的数据与先进训练方法的结合,M2-Reasoning-7B 在8个基准测试中创造了新的业界最佳水平(SOTA),在通用和空间推理领域均展现出卓越的性能。 📌 更新 [2025.07.14] 🔥 我们的技术报告已公开发布于 arxiv。 [2025.07.11] 🔥 M2-Reasoning模型开源: 🤗 Hugging Face、🤖 ModelScope。 主要特性 高质量的数据构建流程:我们设计并实现了一个多阶段的数据合成与筛选流程,能够生成大量的推理数据。 动态多任务训练策略:我们提出了一种高效的训练策略,能够有效应对数据异构性问题。该策略包括逐步动态优化,以缓解不同数据源之间的冲突,以及任务特定的奖励机制,提供定制化的激励信号。 统一的通用与空间推理模型:我们提出了 M2-Reasoning-7B,这是一款专为通用推理与空间推理任务而设计的多模态大语言模型(MLLM)。在8个不同的基准测试中进行的广泛评估表明,借助我们定制的数据和训练流程,M2-Reasoning在通用推理和空间推理领域均取得了新的SOTA成果。 评测 我们在通用推理和空间推理对模型进行了全面评估。我们的评估使用了一组多样化的公开基准测试,这些测试根据它们主要衡量的能力进行分类: 通用推理(数学与逻辑):为了评估这一能力,我们采用了六项基准测试:MathVista、MathVision、MathVerse、DynaMath、WeMath 和 LogicVista。 Models MathVista MathVision MathVerse DynaMath WeMath LogicVista Avg. (Δ) 基础规模通用模型 InternVL3-8B 70.5 30.0 38.5 25.7 39.5 44.5 41.4 InternVL3-9B 69.0 29.3 37.9 25.1 34.8 49.0 40.8 Qwen2.5-VL-7B 68.1 25.4 41.1 21.8 36.2 47....

2025年7月11日 · 4 分钟 · 736 字 · inclusionAI, Ant Group

AWorld:为智能体自我演进提供运行环境

“自我认知:最难的问题不是在有局限的情况下解决问题,而是发现自己的局限性” 目录 最新动态 — 项目最新更新与公告。 简介 — 项目概述与目标。 安装 — 步骤详尽的安装指南。 快速开始 — 使用示例,快速上手。 架构 — 多智能体系统设计解析。 演示 — 项目实际运行演示。 贡献 — 如何参与和贡献代码。 许可证 — 项目授权信息。 最新动态 🦤 [2025/07/07] AWorld 作为运行时现已准备好进行智能体训练。详情请参见自我改进部分。我们在 GAIA 测试中的得分已更新至 77.08。在演示部分了解如何构建 GAIA 运行时。 🦩 [2025/06/19] GAIA 测试分数提升至 72.43,新增本地运行模式,详见 ./README-local.md。 🐳 [2025/05/22] GAIA 评测、MCP 工具、AWorld 及模型现已集成于单一 Docker 镜像,详见 ./README-docker.md,演示视频。 🥳 [2025/05/13] 浏览器场景状态管理升级,视频处理 MCP server 增强,GAIA 验证分数 77.58(Pass@1 = 61.8),继续保持开源框架第一。详见 GAIA 排行榜。 ✨ [2025/04/23] GAIA 基准测试排名第三(69.7 分),Pass@1 = 58.8,开源框架第一。可用 python examples/gaia/run....

2025年7月7日 · 2 分钟 · 363 字 · inclusionAI, Ant Group

Ming-Omni:一个用于感知与生成的统一多模态模型

GITHUB 📑 Technical Report|📖Project Page |🤗 Hugging Face| 🤖 ModelScope 介绍 Ming-lite-omni 是 Ming-omni 的轻量版,源自 Ling-lite,拥有 28 亿激活参数。Ming-lite-omni 是一个统一的多模态模型,能够处理图像、文本、音频和视频,并在语音和图像生成方面表现出较强能力。Ming-lite-omni 使用专用编码器从不同模态提取 token,然后由 Ling 处理,Ling 是一个 MoE 架构,配备了新提出的模态专用路由器。该设计使单一模型能在统一框架内高效处理和融合多模态输入,从而支持多样化任务,无需使用多个模型、任务专用微调或结构改动。重要的是,Ming-lite-omni 超越传统多模态模型,支持音频和图像生成。通过集成先进的音频解码器实现自然语音,以及利用 Ming-Lite-Uni 实现高质量图像生成,模型还能进行上下文感知聊天、文本转语音及多功能图像编辑。我们的实验结果表明,Ming-lite-omni 在所有模态上的统一感知与生成方面提供了强大解决方案。值得注意的是,Ming-lite-omni 是我们所知首个模态支持与 GPT-4o 匹配的开源模型,且我们发布了全部代码和模型权重,以促进社区进一步研究和发展。 📌 更新 [2025.06.12] 🔥 我们的技术报告已公开发布于 arxiv。 [2025.05.28] 🔥 Ming-lite-omni 官方版本发布,性能更佳并支持图像生成。 [2025.05.04] 🔥 发布 Ming-lite-omni 测试版本:Ming-lite-omni-Preview。 主要特性 统一全模态感知:Ming-lite-omni 基于 Ling(一个 MoE 架构的大语言模型),通过模态专用路由器解决任务冲突,确保来自不同模态的 token 的连贯融合。 统一感知与生成:Ming-lite-omni 实现统一的理解与生成,使模型在生成过程中能解读多模态指令和用户意图,从而提升生成质量并增强多任务使用便利性。 创新的生成能力:Ming-lite-omni 能感知所有模态,同时生成高质量文本、实时语音和生动图像,展现出卓越的跨模态表现,涵盖图像感知、视听交互和图像生成等多样任务。 评测 Ming-lite-omni 在图像感知、视听交互及图像生成任务中均展现出优异的跨模态性能。具体来说,在图像感知任务中,Ming-lite-omni 仅激活 28 亿参数,性能已可与 Qwen2.5-VL-7B 相媲美。它在端到端语音理解和指令执行上表现优于 Qwen2.5-Omni 和 Kimi-Audio。同时支持原生分辨率的图像生成、编辑及风格迁移,GenEval 得分达 0....

2025年6月11日 · 5 分钟 · 936 字 · inclusionAI, Ant Group