GITHUB 📑 Technical Report|🤗 Hugging Face|🤖 ModelScope

简介

Ming-Lite-Uni 是一个开源的多模态框架,包含一个全新设计的统一视觉生成器,以及一个原生多模态自回归模型,用于整合视觉与语言能力。

本项目提供了集成 MetaQueries 与 M2-omni 框架的开源实现,并引入了创新性的多尺度可学习Token机制多尺度表示对齐策略。Ming-Lite-Uni 利用固定的MLLM与可训练的扩散模型,使原生多模态AR模型不仅支持文本生成图像(text-to-image),还支持基于指令的图像编辑,从而扩展其功能,不再局限于视觉理解。实验结果表明,Ming-Lite-Uni 具备强大的性能表现,并在交互体验上展现出高度流畅性。目前该项目处于alpha阶段,将持续优化中。

感谢大家的支持与关注!我们正在稳步推进项目,并取得了良好进展,更多更新即将到来,敬请期待!

📌 更新日志

为什么重要?

Ming-Lite-Uni 的统一架构克服了传统方法的根本性局限:

传统方法Ming-Lite-Uni 的优势
模块化流程
(如 CLIP/SigLIP + 扩散模型)
端到端统一模型
理解与生成无缝融合
离散Token自回归
(视觉定位能力有限)
连续Token空间
原生支持细粒度视觉概念
固定分辨率处理
(上采样会产生伪影)
多尺度自适应
各分辨率下均保持一致的画质
编辑流程分离
(需要手动对齐)
对话驱动控制
自然语言指导像素级编辑
理解瓶颈
(视觉语义错位)
联合表示学习
理解与生成能力相互增强

核心增强点

  • 统一的视觉理解与生成架构:Ming-Lite-Uni 在 OpenCompass 榜单中理解得分达 69.7,优于 DeepSeek-VL2 (66.4);同时在 GenEval 图像生成基准上取得 0.62 的得分,超过 SDXL (0.55)。
  • 多尺度可学习Token:引入4×/8×/16×多尺度的分层Token,分别捕捉图像的整体布局(低分辨率)、物体结构(中分辨率)和细节纹理(高分辨率),GenEval得分提升3.5%。
  • 多尺度表示对齐:设计了尺度一致性损失,通过原生分辨率优化确保各层级表示与最终结果的一致性,图像重建质量提升超过2dB PSNR,GenEval得分提升1.5%。
  • 具备AGI能力的系统:支持“生成城堡 → 添加日落 → 调整视角”等链式指令,响应时间<1秒(RTX 4090测试)。系统支持指令驱动的生成与编辑,并已对齐 GPT-4o(2025年3月行业标杆)。

赋能多模态交互

Ming-Lite-Uni 是统一的多模态理解模型,突破传统NLP与视觉理解范畴,进一步支持图像生成、图像编辑与风格迁移等交互式生成任务。

模型结构

Ming-Lite-Uni 是面向图像理解与高保真图像生成的统一多模态模型。其将图像表示压缩为连续视觉Token,并与文本Token一同输入自回归Transformer中进行处理;生成部分则由外部训练的扩散模型(SANA)执行,输入为Transformer生成的Token。

结构图

Benchmark 评测

我们使用公开基准对 Ming-Lite-Uni 的多模态理解与文本生成图像能力进行了分别的定量评估。对于多模态理解,我们与传统的图文输入文本输出模型,以及具备视觉生成能力的最新模型进行了对比。对于多模态生成,我们在 GenEval 基准上评估了文本生成图像的表现。详细信息请参考我们的技术报告。

Multimodal Understanding

TypeModelAvg.MMBMMSMMMUMathVHallAI2DMM-Vet
Und. OnlyLLaVA-72B68.084.565.856.668.447.986.260.6
Qwen2.5-VL-7B76.287.871.167.970.858.888.276.7
Emu3-Chat-58.5-31.6---37.2
InternVL2.5-78B75.287.569.57071.457.489.171.8
DeepSeek-VL266.481.261.050.759.451.584.560.0
GPT-4o-20241120 (closed)72.084.365.170.759.956.284.974.5
Step-1o (closed)77.787.369.369.974.755.889.182.8
Und. and Gen.TokenFlow-XL-68.9-38.7---40.7
Janus-Pro-7B-79.2-41.0---50.0
Ours (Ming-Lite-Uni)69.780.760.551.268.351.884.572.3

Image Generation

TypeMethodSingle Obj.Two Obj.CountingColorsPositionColor Attri.Overall
Gen. OnlyLlamaGen0.710.340.210.580.070.040.32
SDv2.10.980.510.440.850.070.170.50
Emu3-Gen0.980.710.340.810.170.210.54
SDXL0.980.740.390.850.150.230.55
DALL-E 30.960.870.470.830.430.450.67
SD3-Medium0.990.940.720.890.330.600.74
Und. and Gen.Show-o0.950.520.490.820.110.280.53
TokenFlow-XL0.950.600.410.810.160.240.55
Janus-Pro-1B0.980.820.510.890.650.560.73
Ours (Ming-Lite-Uni)0.990.760.530.870.260.300.62

Example Usage

System Requirements

  • Python: >= 3.8
  • PyTorch: >= 2.4.1+cu12.2 (CUDA 12.2 compatible)
  • flash-attn: >= 2.6.3

Installation

We recommend installing the following versions to set up your environment using pip:

pip install -r requirements.txt
  • Usage Guided

Below is an example of how to load and use the model:

import torch
import os
from Ming_Uni.MingUniInference import Ming_Uni_Inference
from Ming_Uni.process import MyProcessor
device = torch.cuda.current_device()
device = torch.device(device)

model_path='../Ming-Lite-Uni/'
model = Ming_Uni_Inference(model_path)
model.to(torch.bfloat16)
model.to(device)
model.eval()

llm_model=os.path.join(model_path, 'qwen2_5_llm')
my_proc=MyProcessor(llm_model)

image_file = "tests/cake.jpg"
prompt = "add a candle on top of the cake"
inputs = my_proc.process(image_file=image_file, prompt=prompt, device=device)

result = model.image_gen_generate(inputs, steps=30, seed=42, cfg=5.0, height=512, width=512)[1]
result.save("result.png")

For more advanced usage, such as fine-tuning or generating images, refer to the documentation.

致谢

该项目目前处于早期阶段。尽管一些初步结果令人鼓舞,但要实现理解与生成的无缝整合,还需取得较大进展。代码和模型都需要进一步打磨和优化,因此我们选择将项目开源。欢迎社区贡献力量,共同完善和发展该项目。如果您有任何建议或发现代码中的问题,请通过 Pull Requests 进行贡献。感谢您的支持和关注!

开放协作

我们开源了 Ming-Lite-Uni,以加速向通用人工智能(AGI)迈进,特点包括:

  • 📂 完整模型权重与测试代码
  • 🧩 模块化架构,方便扩展
  • 📊 全面基准测试(对比 GPT-4V、SDXL 等)

“2025 年 3 月 ChatGPT-4 同步发布图像生成功能,印证了我们关于统一多模态 AI 是下一范式的愿景。”

联系方式

如果在使用本项目过程中需要帮助或遇到问题,请在 GitHub 提交 issue。

许可与法律声明

Ming 遵循 MIT 许可证,法律声明见项目根目录下的 LEGAL.md 文件

引用

如果您觉得我们的工作对您有帮助,欢迎引用。

@article{Mingunify2025,
    title   = {Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction},
    author  = {Inclusion AI, Ant Group},
    journal = {arXiv preprint},
    year    = {2025}
}