Ming-Lite-Uni:自然多模态交互统一架构的进展
GITHUB 📑 Technical Report|🤗 Hugging Face|🤖 ModelScope 简介 Ming-Lite-Uni 是一个开源的多模态框架,包含一个全新设计的统一视觉生成器,以及一个原生多模态自回归模型,用于整合视觉与语言能力。 本项目提供了集成 MetaQueries 与 M2-omni 框架的开源实现,并引入了创新性的多尺度可学习Token机制与多尺度表示对齐策略。Ming-Lite-Uni 利用固定的MLLM与可训练的扩散模型,使原生多模态AR模型不仅支持文本生成图像(text-to-image),还支持基于指令的图像编辑,从而扩展其功能,不再局限于视觉理解。实验结果表明,Ming-Lite-Uni 具备强大的性能表现,并在交互体验上展现出高度流畅性。目前该项目处于alpha阶段,将持续优化中。 感谢大家的支持与关注!我们正在稳步推进项目,并取得了良好进展,更多更新即将到来,敬请期待! 📌 更新日志 [2025.05.03] 🔥 我们的 技术报告 已在 arXiv 发布 [2025.05.03] 🔥 Ming-Lite-Uni 首个版本正式开源 为什么重要? Ming-Lite-Uni 的统一架构克服了传统方法的根本性局限: 传统方法 Ming-Lite-Uni 的优势 模块化流程 (如 CLIP/SigLIP + 扩散模型) 端到端统一模型 理解与生成无缝融合 离散Token自回归 (视觉定位能力有限) 连续Token空间 原生支持细粒度视觉概念 固定分辨率处理 (上采样会产生伪影) 多尺度自适应 各分辨率下均保持一致的画质 编辑流程分离 (需要手动对齐) 对话驱动控制 自然语言指导像素级编辑 理解瓶颈 (视觉语义错位) 联合表示学习 理解与生成能力相互增强 核心增强点 统一的视觉理解与生成架构:Ming-Lite-Uni 在 OpenCompass 榜单中理解得分达 69.7,优于 DeepSeek-VL2 (66.4);同时在 GenEval 图像生成基准上取得 0....