Blog  []

Ming-Lite-Uni:自然多模态交互统一架构的进展

GITHUB 📑 Technical Report|🤗 Hugging Face|🤖 ModelScope 简介 Ming-Lite-Uni 是一个开源的多模态框架,包含一个全新设计的统一视觉生成器,以及一个原生多模态自回归模型,用于整合视觉与语言能力。 本项目提供了集成 MetaQueries 与 M2-omni 框架的开源实现,并引入了创新性的多尺度可学习Token机制与多尺度表示对齐策略。Ming-Lite-Uni 利用固定的MLLM与可训练的扩散模型,使原生多模态AR模型不仅支持文本生成图像(text-to-image),还支持基于指令的图像编辑,从而扩展其功能,不再局限于视觉理解。实验结果表明,Ming-Lite-Uni 具备强大的性能表现,并在交互体验上展现出高度流畅性。目前该项目处于alpha阶段,将持续优化中。 感谢大家的支持与关注!我们正在稳步推进项目,并取得了良好进展,更多更新即将到来,敬请期待! 📌 更新日志 [2025.05.03] 🔥 我们的 技术报告 已在 arXiv 发布 [2025.05.03] 🔥 Ming-Lite-Uni 首个版本正式开源 为什么重要? Ming-Lite-Uni 的统一架构克服了传统方法的根本性局限: 传统方法 Ming-Lite-Uni 的优势 模块化流程 (如 CLIP/SigLIP + 扩散模型) 端到端统一模型 理解与生成无缝融合 离散Token自回归 (视觉定位能力有限) 连续Token空间 原生支持细粒度视觉概念 固定分辨率处理 (上采样会产生伪影) 多尺度自适应 各分辨率下均保持一致的画质 编辑流程分离 (需要手动对齐) 对话驱动控制 自然语言指导像素级编辑 理解瓶颈 (视觉语义错位) 联合表示学习 理解与生成能力相互增强 核心增强点 统一的视觉理解与生成架构:Ming-Lite-Uni 在 OpenCompass 榜单中理解得分达 69.7,优于 DeepSeek-VL2 (66.4);同时在 GenEval 图像生成基准上取得 0....

2025年5月7日 · 3 分钟 · 489 字 · inclusionAI, Ant Group

Ming-Lite-Omni-Preview: MOE架构的多模态大模型

GITHUB 🤗 Hugging Face | 🤖 ModelScope 简介 Ming-Lite-Omni-Preview 构建自 Ling-Lite,它是一个 MoE(专家混合)模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音。 为了更自然地处理多模态输入,我们对 Ling-Lite 进行了增强,为每种模态引入了专用路由模块。 因此,Ming-Omni 在处理多模态信息方面表现优异,并具有很强的可扩展性。 主要特性 Omni and Novel MoE Architecture: 一种基于专家混合(MoE)的创新型 Omni 架构,在多个多模态评测中取得了领先性能。 Video understanding: 支持视觉 Token 的 KV-Cache 动态压缩机制,既能理解数小时的长视频,也能对几秒钟的短视频进行精细分析。 Natural Speech Generation and Fine-grained Voice Dialogue: 支持端到端对话中的方言理解与生成,具备一次性语音克隆能力,并通过音频分词器压缩提升语调表现力。 评测结果 Image benchmark Benchmarks Ming-Lite-Omni-Preview Qwen2.5-VL-7B-Instruct InternVL2.5-8B-MPO AI2D 83.84 83.9 84.5 HallusionBench 54.68 51.9 51.7 MMBench_TEST_V11 79.63 84.3 82.0 MMMU 57.0 58.6 54.8 MMStar 62.0 63.9 65.2 MMVet 73.6 67....

2025年5月5日 · 5 分钟 · 944 字 · inclusionAI, Ant Group