GITHUB 🤗 Hugging Face| 🤖 ModelScope

概述

本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni(Github) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B。与各领域同等规模的业界领先模型相比,在各模态基准测试中展现出极具竞争力的结果:

Image description

性能对比图

Ming-lite-omni v1.5能力介绍:三大维度全面优化,效果与体验双提升!

可控图像生成:像素级掌控,创意无限

Ming-lite-omni v1.5 重点优化了图像编辑的 场景一致性(Scene Consistency)、ID 一致性(Character / Style Consistency),在人物图像编辑时,在场景和人物ID 保持上展现出明显的优势,同时拓展了对生成式分割、深度预测、目标检测 以及 边缘轮廓生成 等感知任务的支持。

Image description
生成式图像分割 Next
User
Given the following instructions: little girl, pink, your monitors colors off friend p pink shirt girl; please perform referring segmentation on this image.
Ming-lite-omni v1.5
User
Please segment different classes in this image.
Ming-lite-omni v1.5
User
Please segment different instances in this image.
Ming-lite-omni v1.5

深度及边缘检测

原图生成的深度图生成的检测框生成的边缘轮廓

音视频交互理解:音视频全线提升,理解力MAX!

体验对齐优化:智能交互更懂你,沟通无障碍

User
这张图片看起来设计感很强烈,可以详细描述一下它的各个设计元素?
Ming-lite-omni
这张图片展示了一款高端游戏鼠标,具有现代感和科技感的设计。鼠标主体为黑色,表面光滑且具有金属质感。鼠标顶部有一个蓝色的发光标志,标志下方是鼠标滚轮和左右按键区域。鼠标侧面有蓝色的灯光装饰,增加了视觉吸引力。鼠标底部有防滑纹理设计,确保使用时的稳定性。整体设计简洁而富有未来感,适合游戏玩家使用。
Ming-lite-omni v1.5
这张图片展示了一款设计感强烈的游戏鼠标,具有以下设计元素:
1. 颜色和材质: - 鼠标主体为黑色,表面光滑且具有金属质感。 - 鼠标边缘和按钮部分有蓝色LED灯带,增加了科技感和视觉吸引力。
2. 形状和结构: - 鼠标整体呈流线型设计,顶部略微倾斜,便于手部自然放置。 - 鼠标侧面有明显的曲线设计,符合人体工程学,提供舒适的握持感。
3. 按钮和滚轮: - 鼠标左侧有一个滚轮,滚轮上方有蓝色LED灯带。 - 鼠标右侧有额外的按钮,这些按钮也有蓝色LED灯带,增加了功能性和美观性。
4. 品牌标识: - 鼠标底部中央有一个发光的“G”标志,这是该品牌的标志性设计元素。
5. 灯光效果: - 鼠标上的蓝色LED灯带在暗色背景下显得尤为突出,增强了科技感和未来感。
6. 纹理和细节: - 鼠标顶部有纹理设计,可能是为了增加防滑效果。 - 鼠标侧面有细长的纹理设计,增加了视觉上的层次感。
整体来看,这款鼠标的设计结合了现代科技感和人体工程学设计,既美观又实用,适合游戏玩家使用。
User
图中的书法为什么好?
Ming-lite-omni
这幅书法作品展示了高超的书法技巧和深厚的文化底蕴。笔法流畅自然,字形结构严谨,布局合理,体现了书法家的深厚功力和艺术修养。
Ming-lite-omni v1.5
这幅书法作品展示了几个显著的特点,使其成为一件优秀的书法作品:
1. 笔法精湛:书法的笔法流畅自然,线条粗细变化丰富,表现出书法家的深厚功力和熟练技巧。
2. 结构严谨:每个字的结构都经过精心设计,笔画之间的衔接自然,字与字之间保持了良好的平衡和协调。
3. 章法布局:整幅作品的章法布局合理,行距和字距均匀,给人一种整齐有序的感觉。
4. 墨色变化:墨色的浓淡变化自然,增添了作品的层次感和立体感。
5. 内容优美:书法内容是一篇优美的古文,文字内容富有哲理和文学价值,增加了作品的文化内涵。
6. 印章点缀:作品上有红色的印章,印章的使用不仅增加了作品的装饰性,还起到了点缀和平衡的作用。
这些特点共同构成了这幅书法作品的高超艺术价值,使其成为一件值得欣赏和学习的佳作。
User
图中这款手机适合给父母买吗?
Ming-lite-omni
这款手机外观简约时尚,适合追求简约风格的父母使用。相机配置也较为先进,适合喜欢拍照的用户。
Ming-lite-omni v1.5
这款手机适合给父母购买,原因如下:
1. 外观设计:手机采用简约时尚的设计,白色机身显得干净利落,符合现代审美。
2. 摄像头配置:后置摄像头设计独特,排列整齐,可能提供良好的拍照体验。
3. 品牌:荣耀(Honor)品牌在智能手机市场上有良好的口碑,提供稳定可靠的产品。
4. 功能:通常这类手机会配备大容量电池和长续航能力,适合日常使用。
5. 易用性:可能提供简洁的用户界面和易于操作的功能,适合不太熟悉复杂操作的用户。
6. 性价比:荣耀手机通常以高性价比著称,适合预算有限但希望获得良好体验的用户。
当然,具体是否适合还需考虑父母的实际需求和偏好。
User
如何使用图中软件购买机票?请列出具体操作步骤
Ming-lite-omni
使用图中软件购买机票的具体操作步骤如下:
1. 打开携程app。 2. 点击“机票”选项。 3. 在机票页面选择出发地、目的地、出发日期和返回日期。 4. 点击搜索按钮,查看可用的航班信息。 5. 选择合适的航班后,点击“预订”按钮。 6. 填写乘客信息并选择支付方式。 7. 确认订单信息并提交支付,完成购票。
Ming-lite-omni v1.5
使用携程软件购买机票的具体操作步骤如下:
1. 下载并安装携程App: - 如果您还没有安装携程App,可以在应用商店(如苹果App Store或安卓应用市场)搜索“携程旅行”并下载安装。
2. 打开携程App: - 安装完成后,打开携程App。
3. 选择“机票”选项: - 在首页的导航栏中,点击“机票”选项。
4. 输入出发地和目的地: - 在机票预订页面,输入您的出发地和目的地。
5. 选择出发日期和返回日期: - 选择您的出发日期和返回日期(如果是往返票)。
6. 选择乘客信息: - 输入乘客人数和座位类型(成人、儿童、婴儿)。
7. 选择航班: - 浏览并选择您喜欢的航班。
8. 填写乘客信息: - 输入乘客的姓名、身份证号码、联系方式等信息。
9. 选择支付方式: - 选择您喜欢的支付方式(如支付宝、微信支付、银行卡等)。
10. 确认订单并支付: - 确认订单信息无误后,点击“支付”按钮完成支付。
11. 接收电子机票: - 支付成功后,您将收到电子机票,可以通过App内的“我的订单”查看或下载。
通过以上步骤,您就可以使用携程App轻松购买机票了。
User
根据图表计算样本之间的 Δct 在哪一个引物下相差最小? | 根据图表计算样本之间的 Δct 在 cGAS-qF+qR 引物下相差最小。(图片来源:互联网公开-舒桐科技公众号)
Ming-lite-omni
根据图表计算样本之间的 Δct 在 cGAS-qF+qR 引物下相差最小。
Ming-lite-omni v1.5
EGFP-cGAS单克隆 引物下,样本之间的 Δct 相差最小。

计算过程:
1. 理解 Δct 的含义: Δct 是目标基因(cGAS-qF+qR 或 EGFP-cGAS)与内参基因(cTubulin)的相对表达量差值。Δct 越小,说明目标基因与内参基因的表达量差异越小。
2. 比较不同引物下的 Δct:
- cGAS-qF+qR 引物: - 野生型:Δct = 8.06 - EGFP-cGAS单克隆:Δct = -0.15 - 差异:8.06 - (-0.15) = 8.21
- EGFP-cGAS单克隆 引物: - 野生型:Δct = 10.44 - EGFP-cGAS单克隆:Δct = -2.9 - 差异:10.44 - (-2.9) = 13.34
- EGFP-cGAS-qF+qR 引物: - 野生型:Δct = 21.43 - EGFP-cGAS单克隆:Δct = -13.45 - 差异:21.43 - (-13.45) = 34.88
3. 结论:EGFP-cGAS单克隆 引物下,样本之间的 Δct 差异最小(Δct 差异为 13.34),说明该引物下样本之间的表达量差异最小。

总结:EGFP-cGAS单克隆 引物下,样本之间的 Δct 相差最小。

模型架构升级与能力评测

Ming-lite-omni v1.5 模型架构如下,主题参考了Ming-lite-omni v1版本的结构,区别在于为了增强图像编辑人物 和 场景一致性,升级Vision head 支持参考图特征输入。

Image description

模型架构图

模型能力上重点在全模态理解能力、精准的视觉编辑控制 以及 用户体验 三个方面进行优化升级。

增强的全模态理解能力

得益于数据质量优化,Ming-lite-omni v1.5 在视觉文本理解(包括图文理解、文档理解、视频理解)和语音理解等任务上均有明显提升,达到相同规模的业界领先水平。

视觉文本理解

Task TypeDatasetQwen2.5-VL-7BMing-lite-omniMing-lite-omni v1.5
OpenCompass图文AI2D84.3683.184.91
HallusionBench55.7755.054.59
MMBench_TEST_V1182.7580.880.73
MMMU56.5656.354.33
MMStar65.2764.765.07
MMVet71.6171.373.99
MathVista68.1071.672.00
OCRBench87.8088.488.90
Average71.571.471.8
视频理解VideoMME(w/o subs)65.1063.467.07
VideoMME(w/ subs)71.6066.0172.59
VideoMME(avg)68.3567.769.83
MVBench69.6067.769.43
LongVideoBench56.0056.659.54
OvOBench51.1048.4852.17
Average61.2658.8962.74
文档理解ChartQA_test87.2485.188.84
DocVQA_test95.579393.68
TextVQA_val85.0682.882.27
OCRBench87.888.488.9
Average88.9187.3288.42

语音理解

ModelAverage(Open-ended QA)AlpacaEvalCommonEvalSD-QAMMSUOpenBookQAIFEvalAdvBench
Ming-lite-omni v1.54.4744.6484.361.1645.7765.93455.59998.076
Ming-lite-omni4.344.634.0658.8447.5361.9858.3699.04
MiniCPM-o4.2854.424.1550.7254.7878.0249.2597.69
Kimi-Audio4.2154.463.9763.1262.1783.5261.10100.00
Qwen2.5-Omni4.214.493.9355.7161.3281.1052.8799.42
GLM-4-Voice3.774.063.4843.3140.1152.9724.9188.08

精准的视觉编辑控制

Ming-lite-omni v1.5 针对图像编辑时的人物ID及场景ID一致性问题采用以下优化策略:

  1. 引入ID和场景一致性损失,通过增大目标图编辑区域的权重 和 参考图非编辑区域的参考强度, 同时降低参考图编辑区域的参考强度 以增强图像编辑一致性
  2. 引入生成式检测分割任务增强感知能力。通过支持生成式分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高评测指标中与位置、结构、数量相关的得分。
  3. 引入多任务协同学习策略。通过联合训练链路实现生成与编辑的相互促进,将分割任务转化为彩色上色编辑任务,显著提升分割指标和图像局部编辑的精度与可控性,使编辑区域边缘更光滑。 基于以上优化,Ming-lite-omni v1.5在图像编辑能力明显提升,GenEval上达到0.87。
1-Obj2-ObjCountingColorsPositionColor AttrAvg.
Ming-lite-omni0.990.770.680.780.460.420.64
Ming-lite-omni v1.50.990.930.860.870.900.660.87

优化的用户体验

得益于高质量的对齐偏好数据构建, Ming-lite-omni v1.5 在图文问答的内容准确性、相关性、格式美观性以及表述流畅性方面相比领先模型展现出一定优势, Ming-lite-omni v1.5在内部对抗评测集上相比Ming-lite-omni v1 胜和率为 87.07%, 使用体验得到了明显优化。

体验评测维度Qwen2.5-VL-7BMing-lite-omni V1.5
相关性4.3084.5
流畅性4.7654.91
内容丰富性3.8283.69
格式合理性4.7274.8
正确性3.7413.92
均分4.2744.365

开始使用 Ming-lite-omni v1.5

Ming-lite-omni v1.5的模型和代码已开源,诚邀大家试用、反馈和交流。值得期待的是,我们即将发布量化加速版本的Ming-lite-omni,该版本将不仅进一步优化全模态效果,还使Ming-lite-omni更加轻量化,同时强化多模推理和生成能力。欢迎持续关注!