GITHUB 🤗 Hugging Face| 🤖 ModelScope
概述
本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni(Github) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B。与各领域同等规模的业界领先模型相比,在各模态基准测试中展现出极具竞争力的结果:
性能对比图
Ming-lite-omni v1.5能力介绍:三大维度全面优化,效果与体验双提升!
可控图像生成:像素级掌控,创意无限
Ming-lite-omni v1.5 重点优化了图像编辑的 场景一致性(Scene Consistency)、ID 一致性(Character / Style Consistency),在人物图像编辑时,在场景和人物ID 保持上展现出明显的优势,同时拓展了对生成式分割、深度预测、目标检测 以及 边缘轮廓生成 等感知任务的支持。





深度及边缘检测
原图 | 生成的深度图 | 生成的检测框 | 生成的边缘轮廓 |
---|---|---|---|
![]() | ![]() | ![]() | ![]() |
音视频交互理解:音视频全线提升,理解力MAX!
体验对齐优化:智能交互更懂你,沟通无障碍

1. 颜色和材质: - 鼠标主体为黑色,表面光滑且具有金属质感。 - 鼠标边缘和按钮部分有蓝色LED灯带,增加了科技感和视觉吸引力。
2. 形状和结构: - 鼠标整体呈流线型设计,顶部略微倾斜,便于手部自然放置。 - 鼠标侧面有明显的曲线设计,符合人体工程学,提供舒适的握持感。
3. 按钮和滚轮: - 鼠标左侧有一个滚轮,滚轮上方有蓝色LED灯带。 - 鼠标右侧有额外的按钮,这些按钮也有蓝色LED灯带,增加了功能性和美观性。
4. 品牌标识: - 鼠标底部中央有一个发光的“G”标志,这是该品牌的标志性设计元素。
5. 灯光效果: - 鼠标上的蓝色LED灯带在暗色背景下显得尤为突出,增强了科技感和未来感。
6. 纹理和细节: - 鼠标顶部有纹理设计,可能是为了增加防滑效果。 - 鼠标侧面有细长的纹理设计,增加了视觉上的层次感。
整体来看,这款鼠标的设计结合了现代科技感和人体工程学设计,既美观又实用,适合游戏玩家使用。

1. 笔法精湛:书法的笔法流畅自然,线条粗细变化丰富,表现出书法家的深厚功力和熟练技巧。
2. 结构严谨:每个字的结构都经过精心设计,笔画之间的衔接自然,字与字之间保持了良好的平衡和协调。
3. 章法布局:整幅作品的章法布局合理,行距和字距均匀,给人一种整齐有序的感觉。
4. 墨色变化:墨色的浓淡变化自然,增添了作品的层次感和立体感。
5. 内容优美:书法内容是一篇优美的古文,文字内容富有哲理和文学价值,增加了作品的文化内涵。
6. 印章点缀:作品上有红色的印章,印章的使用不仅增加了作品的装饰性,还起到了点缀和平衡的作用。
这些特点共同构成了这幅书法作品的高超艺术价值,使其成为一件值得欣赏和学习的佳作。

1. 外观设计:手机采用简约时尚的设计,白色机身显得干净利落,符合现代审美。
2. 摄像头配置:后置摄像头设计独特,排列整齐,可能提供良好的拍照体验。
3. 品牌:荣耀(Honor)品牌在智能手机市场上有良好的口碑,提供稳定可靠的产品。
4. 功能:通常这类手机会配备大容量电池和长续航能力,适合日常使用。
5. 易用性:可能提供简洁的用户界面和易于操作的功能,适合不太熟悉复杂操作的用户。
6. 性价比:荣耀手机通常以高性价比著称,适合预算有限但希望获得良好体验的用户。
当然,具体是否适合还需考虑父母的实际需求和偏好。

1. 打开携程app。 2. 点击“机票”选项。 3. 在机票页面选择出发地、目的地、出发日期和返回日期。 4. 点击搜索按钮,查看可用的航班信息。 5. 选择合适的航班后,点击“预订”按钮。 6. 填写乘客信息并选择支付方式。 7. 确认订单信息并提交支付,完成购票。
1. 下载并安装携程App: - 如果您还没有安装携程App,可以在应用商店(如苹果App Store或安卓应用市场)搜索“携程旅行”并下载安装。
2. 打开携程App: - 安装完成后,打开携程App。
3. 选择“机票”选项: - 在首页的导航栏中,点击“机票”选项。
4. 输入出发地和目的地: - 在机票预订页面,输入您的出发地和目的地。
5. 选择出发日期和返回日期: - 选择您的出发日期和返回日期(如果是往返票)。
6. 选择乘客信息: - 输入乘客人数和座位类型(成人、儿童、婴儿)。
7. 选择航班: - 浏览并选择您喜欢的航班。
8. 填写乘客信息: - 输入乘客的姓名、身份证号码、联系方式等信息。
9. 选择支付方式: - 选择您喜欢的支付方式(如支付宝、微信支付、银行卡等)。
10. 确认订单并支付: - 确认订单信息无误后,点击“支付”按钮完成支付。
11. 接收电子机票: - 支付成功后,您将收到电子机票,可以通过App内的“我的订单”查看或下载。
通过以上步骤,您就可以使用携程App轻松购买机票了。

计算过程:
1. 理解 Δct 的含义: Δct 是目标基因(cGAS-qF+qR 或 EGFP-cGAS)与内参基因(cTubulin)的相对表达量差值。Δct 越小,说明目标基因与内参基因的表达量差异越小。
2. 比较不同引物下的 Δct:
- cGAS-qF+qR 引物: - 野生型:Δct = 8.06 - EGFP-cGAS单克隆:Δct = -0.15 - 差异:8.06 - (-0.15) = 8.21
- EGFP-cGAS单克隆 引物: - 野生型:Δct = 10.44 - EGFP-cGAS单克隆:Δct = -2.9 - 差异:10.44 - (-2.9) = 13.34
- EGFP-cGAS-qF+qR 引物: - 野生型:Δct = 21.43 - EGFP-cGAS单克隆:Δct = -13.45 - 差异:21.43 - (-13.45) = 34.88
3. 结论: 在 EGFP-cGAS单克隆 引物下,样本之间的 Δct 差异最小(Δct 差异为 13.34),说明该引物下样本之间的表达量差异最小。
总结: 在 EGFP-cGAS单克隆 引物下,样本之间的 Δct 相差最小。
模型架构升级与能力评测
Ming-lite-omni v1.5 模型架构如下,主题参考了Ming-lite-omni v1版本的结构,区别在于为了增强图像编辑人物 和 场景一致性,升级Vision head 支持参考图特征输入。

模型架构图
模型能力上重点在全模态理解能力、精准的视觉编辑控制 以及 用户体验 三个方面进行优化升级。
增强的全模态理解能力
得益于数据质量优化,Ming-lite-omni v1.5 在视觉文本理解(包括图文理解、文档理解、视频理解)和语音理解等任务上均有明显提升,达到相同规模的业界领先水平。
视觉文本理解
Task Type | Dataset | Qwen2.5-VL-7B | Ming-lite-omni | Ming-lite-omni v1.5 |
---|---|---|---|---|
OpenCompass图文 | AI2D | 84.36 | 83.1 | 84.91 |
HallusionBench | 55.77 | 55.0 | 54.59 | |
MMBench_TEST_V11 | 82.75 | 80.8 | 80.73 | |
MMMU | 56.56 | 56.3 | 54.33 | |
MMStar | 65.27 | 64.7 | 65.07 | |
MMVet | 71.61 | 71.3 | 73.99 | |
MathVista | 68.10 | 71.6 | 72.00 | |
OCRBench | 87.80 | 88.4 | 88.90 | |
Average | 71.5 | 71.4 | 71.8 | |
视频理解 | VideoMME(w/o subs) | 65.10 | 63.4 | 67.07 |
VideoMME(w/ subs) | 71.60 | 66.01 | 72.59 | |
VideoMME(avg) | 68.35 | 67.7 | 69.83 | |
MVBench | 69.60 | 67.7 | 69.43 | |
LongVideoBench | 56.00 | 56.6 | 59.54 | |
OvOBench | 51.10 | 48.48 | 52.17 | |
Average | 61.26 | 58.89 | 62.74 | |
文档理解 | ChartQA_test | 87.24 | 85.1 | 88.84 |
DocVQA_test | 95.57 | 93 | 93.68 | |
TextVQA_val | 85.06 | 82.8 | 82.27 | |
OCRBench | 87.8 | 88.4 | 88.9 | |
Average | 88.91 | 87.32 | 88.42 |
语音理解
Model | Average(Open-ended QA) | AlpacaEval | CommonEval | SD-QA | MMSU | OpenBookQA | IFEval | AdvBench |
---|---|---|---|---|---|---|---|---|
Ming-lite-omni v1.5 | 4.474 | 4.648 | 4.3 | 61.16 | 45.77 | 65.934 | 55.599 | 98.076 |
Ming-lite-omni | 4.34 | 4.63 | 4.06 | 58.84 | 47.53 | 61.98 | 58.36 | 99.04 |
MiniCPM-o | 4.285 | 4.42 | 4.15 | 50.72 | 54.78 | 78.02 | 49.25 | 97.69 |
Kimi-Audio | 4.215 | 4.46 | 3.97 | 63.12 | 62.17 | 83.52 | 61.10 | 100.00 |
Qwen2.5-Omni | 4.21 | 4.49 | 3.93 | 55.71 | 61.32 | 81.10 | 52.87 | 99.42 |
GLM-4-Voice | 3.77 | 4.06 | 3.48 | 43.31 | 40.11 | 52.97 | 24.91 | 88.08 |
精准的视觉编辑控制
Ming-lite-omni v1.5 针对图像编辑时的人物ID及场景ID一致性问题采用以下优化策略:
- 引入ID和场景一致性损失,通过增大目标图编辑区域的权重 和 参考图非编辑区域的参考强度, 同时降低参考图编辑区域的参考强度 以增强图像编辑一致性
- 引入生成式检测分割任务增强感知能力。通过支持生成式分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高评测指标中与位置、结构、数量相关的得分。
- 引入多任务协同学习策略。通过联合训练链路实现生成与编辑的相互促进,将分割任务转化为彩色上色编辑任务,显著提升分割指标和图像局部编辑的精度与可控性,使编辑区域边缘更光滑。 基于以上优化,Ming-lite-omni v1.5在图像编辑能力明显提升,GenEval上达到0.87。
1-Obj | 2-Obj | Counting | Colors | Position | Color Attr | Avg. | |
---|---|---|---|---|---|---|---|
Ming-lite-omni | 0.99 | 0.77 | 0.68 | 0.78 | 0.46 | 0.42 | 0.64 |
Ming-lite-omni v1.5 | 0.99 | 0.93 | 0.86 | 0.87 | 0.90 | 0.66 | 0.87 |
优化的用户体验
得益于高质量的对齐偏好数据构建, Ming-lite-omni v1.5 在图文问答的内容准确性、相关性、格式美观性以及表述流畅性方面相比领先模型展现出一定优势, Ming-lite-omni v1.5在内部对抗评测集上相比Ming-lite-omni v1 胜和率为 87.07%, 使用体验得到了明显优化。
体验评测维度 | Qwen2.5-VL-7B | Ming-lite-omni V1.5 |
---|---|---|
相关性 | 4.308 | 4.5 |
流畅性 | 4.765 | 4.91 |
内容丰富性 | 3.828 | 3.69 |
格式合理性 | 4.727 | 4.8 |
正确性 | 3.741 | 3.92 |
均分 | 4.274 | 4.365 |
开始使用 Ming-lite-omni v1.5
Ming-lite-omni v1.5的模型和代码已开源,诚邀大家试用、反馈和交流。值得期待的是,我们即将发布量化加速版本的Ming-lite-omni,该版本将不仅进一步优化全模态效果,还使Ming-lite-omni更加轻量化,同时强化多模推理和生成能力。欢迎持续关注!