Ming-Lite-Omni-Preview: MOE架构的多模态大模型
GITHUB 🤗 Hugging Face | 🤖 ModelScope 简介 Ming-Lite-Omni-Preview 构建自 Ling-Lite,它是一个 MoE(专家混合)模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音。 为了更自然地处理多模态输入,我们对 Ling-Lite 进行了增强,为每种模态引入了专用路由模块。 因此,Ming-Omni 在处理多模态信息方面表现优异,并具有很强的可扩展性。 主要特性 Omni and Novel MoE Architecture: 一种基于专家混合(MoE)的创新型 Omni 架构,在多个多模态评测中取得了领先性能。 Video understanding: 支持视觉 Token 的 KV-Cache 动态压缩机制,既能理解数小时的长视频,也能对几秒钟的短视频进行精细分析。 Natural Speech Generation and Fine-grained Voice Dialogue: 支持端到端对话中的方言理解与生成,具备一次性语音克隆能力,并通过音频分词器压缩提升语调表现力。 评测结果 Image benchmark Benchmarks Ming-Lite-Omni-Preview Qwen2.5-VL-7B-Instruct InternVL2.5-8B-MPO AI2D 83.84 83.9 84.5 HallusionBench 54.68 51.9 51.7 MMBench_TEST_V11 79.63 84.3 82.0 MMMU 57.0 58.6 54.8 MMStar 62.0 63.9 65.2 MMVet 73.6 67....