Ming-Lite-Uni：自然多模态交互统一架构的进展

GITHUB 📑 Technical Report｜🤗 Hugging Face｜🤖 ModelScope

简介

Ming-Lite-Uni 是一个开源的多模态框架，包含一个全新设计的统一视觉生成器，以及一个原生多模态自回归模型，用于整合视觉与语言能力。

本项目提供了集成 MetaQueries 与 M2-omni 框架的开源实现，并引入了创新性的多尺度可学习Token机制与多尺度表示对齐策略。Ming-Lite-Uni 利用固定的MLLM与可训练的扩散模型，使原生多模态AR模型不仅支持文本生成图像（text-to-image），还支持基于指令的图像编辑，从而扩展其功能，不再局限于视觉理解。实验结果表明，Ming-Lite-Uni 具备强大的性能表现，并在交互体验上展现出高度流畅性。目前该项目处于alpha阶段，将持续优化中。

感谢大家的支持与关注！我们正在稳步推进项目，并取得了良好进展，更多更新即将到来，敬请期待！

📌 更新日志

[2025.05.03] 🔥 我们的技术报告已在 arXiv 发布
[2025.05.03] 🔥 Ming-Lite-Uni 首个版本正式开源

为什么重要？

Ming-Lite-Uni 的统一架构克服了传统方法的根本性局限：

传统方法	Ming-Lite-Uni 的优势
模块化流程（如 CLIP/SigLIP + 扩散模型）	端到端统一模型理解与生成无缝融合
离散Token自回归（视觉定位能力有限）	连续Token空间原生支持细粒度视觉概念
固定分辨率处理（上采样会产生伪影）	多尺度自适应各分辨率下均保持一致的画质
编辑流程分离（需要手动对齐）	对话驱动控制自然语言指导像素级编辑
理解瓶颈（视觉语义错位）	联合表示学习理解与生成能力相互增强

核心增强点

统一的视觉理解与生成架构：Ming-Lite-Uni 在 OpenCompass 榜单中理解得分达 69.7，优于 DeepSeek-VL2 (66.4)；同时在 GenEval 图像生成基准上取得 0.62 的得分，超过 SDXL (0.55)。
多尺度可学习Token：引入4×/8×/16×多尺度的分层Token，分别捕捉图像的整体布局（低分辨率）、物体结构（中分辨率）和细节纹理（高分辨率），GenEval得分提升3.5%。
多尺度表示对齐：设计了尺度一致性损失，通过原生分辨率优化确保各层级表示与最终结果的一致性，图像重建质量提升超过2dB PSNR，GenEval得分提升1.5%。
具备AGI能力的系统：支持“生成城堡 → 添加日落 → 调整视角”等链式指令，响应时间<1秒（RTX 4090测试）。系统支持指令驱动的生成与编辑，并已对齐 GPT-4o（2025年3月行业标杆）。

赋能多模态交互

Ming-Lite-Uni 是统一的多模态理解模型，突破传统NLP与视觉理解范畴，进一步支持图像生成、图像编辑与风格迁移等交互式生成任务。

模型结构

Ming-Lite-Uni 是面向图像理解与高保真图像生成的统一多模态模型。其将图像表示压缩为连续视觉Token，并与文本Token一同输入自回归Transformer中进行处理；生成部分则由外部训练的扩散模型（SANA）执行，输入为Transformer生成的Token。

Benchmark 评测

我们使用公开基准对 Ming-Lite-Uni 的多模态理解与文本生成图像能力进行了分别的定量评估。对于多模态理解，我们与传统的图文输入文本输出模型，以及具备视觉生成能力的最新模型进行了对比。对于多模态生成，我们在 GenEval 基准上评估了文本生成图像的表现。详细信息请参考我们的技术报告。

Multimodal Understanding

Type	Model	Avg.	MMB	MMS	MMMU	MathV	Hall	AI2D	MM-Vet
Und. Only	LLaVA-72B	68.0	84.5	65.8	56.6	68.4	47.9	86.2	60.6
	Qwen2.5-VL-7B	76.2	87.8	71.1	67.9	70.8	58.8	88.2	76.7
	Emu3-Chat	-	58.5	-	31.6	-	-	-	37.2
	InternVL2.5-78B	75.2	87.5	69.5	70	71.4	57.4	89.1	71.8
	DeepSeek-VL2	66.4	81.2	61.0	50.7	59.4	51.5	84.5	60.0
	GPT-4o-20241120 (closed)	72.0	84.3	65.1	70.7	59.9	56.2	84.9	74.5
	Step-1o (closed)	77.7	87.3	69.3	69.9	74.7	55.8	89.1	82.8
Und. and Gen.	TokenFlow-XL	-	68.9	-	38.7	-	-	-	40.7
	Janus-Pro-7B	-	79.2	-	41.0	-	-	-	50.0
	Ours (Ming-Lite-Uni)	69.7	80.7	60.5	51.2	68.3	51.8	84.5	72.3

Image Generation

Type	Method	Single Obj.	Two Obj.	Counting	Colors	Position	Color Attri.	Overall
Gen. Only	LlamaGen	0.71	0.34	0.21	0.58	0.07	0.04	0.32
	SDv2.1	0.98	0.51	0.44	0.85	0.07	0.17	0.50
	Emu3-Gen	0.98	0.71	0.34	0.81	0.17	0.21	0.54
	SDXL	0.98	0.74	0.39	0.85	0.15	0.23	0.55
	DALL-E 3	0.96	0.87	0.47	0.83	0.43	0.45	0.67
	SD3-Medium	0.99	0.94	0.72	0.89	0.33	0.60	0.74
Und. and Gen.	Show-o	0.95	0.52	0.49	0.82	0.11	0.28	0.53
	TokenFlow-XL	0.95	0.60	0.41	0.81	0.16	0.24	0.55
	Janus-Pro-1B	0.98	0.82	0.51	0.89	0.65	0.56	0.73
	Ours (Ming-Lite-Uni)	0.99	0.76	0.53	0.87	0.26	0.30	0.62

Example Usage

System Requirements

Python: >= 3.8
PyTorch: >= 2.4.1+cu12.2 (CUDA 12.2 compatible)
flash-attn: >= 2.6.3

Installation

We recommend installing the following versions to set up your environment using pip:

pip install -r requirements.txt

Usage Guided

Below is an example of how to load and use the model:

import torch
import os
from Ming_Uni.MingUniInference import Ming_Uni_Inference
from Ming_Uni.process import MyProcessor
device = torch.cuda.current_device()
device = torch.device(device)

model_path='../Ming-Lite-Uni/'
model = Ming_Uni_Inference(model_path)
model.to(torch.bfloat16)
model.to(device)
model.eval()

llm_model=os.path.join(model_path, 'qwen2_5_llm')
my_proc=MyProcessor(llm_model)

image_file = "tests/cake.jpg"
prompt = "add a candle on top of the cake"
inputs = my_proc.process(image_file=image_file, prompt=prompt, device=device)

result = model.image_gen_generate(inputs, steps=30, seed=42, cfg=5.0, height=512, width=512)[1]
result.save("result.png")

For more advanced usage, such as fine-tuning or generating images, refer to the documentation.

致谢

该项目目前处于早期阶段。尽管一些初步结果令人鼓舞，但要实现理解与生成的无缝整合，还需取得较大进展。代码和模型都需要进一步打磨和优化，因此我们选择将项目开源。欢迎社区贡献力量，共同完善和发展该项目。如果您有任何建议或发现代码中的问题，请通过 Pull Requests 进行贡献。感谢您的支持和关注！

开放协作

我们开源了 Ming-Lite-Uni，以加速向通用人工智能（AGI）迈进，特点包括：

📂 完整模型权重与测试代码
🧩 模块化架构，方便扩展
📊 全面基准测试（对比 GPT-4V、SDXL 等）

“2025 年 3 月 ChatGPT-4 同步发布图像生成功能，印证了我们关于统一多模态 AI 是下一范式的愿景。”

联系方式

如果在使用本项目过程中需要帮助或遇到问题，请在 GitHub 提交 issue。

许可与法律声明

Ming 遵循 MIT 许可证，法律声明见项目根目录下的 LEGAL.md 文件。

引用

如果您觉得我们的工作对您有帮助，欢迎引用。

@article{Mingunify2025,
    title   = {Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction},
    author  = {Inclusion AI, Ant Group},
    journal = {arXiv preprint},
    year    = {2025}
}

Ming-Lite-Uni：自然多模态交互统一架构的进展

简介#

📌 更新日志#

为什么重要？#

核心增强点#

赋能多模态交互#

模型结构#

Benchmark 评测#

Example Usage#

System Requirements#

Installation#

Usage Guided#

致谢#

开放协作#

联系方式#

许可与法律声明#

引用#

简介