跳到主要内容

Ming-Omni-TTS: 一种简单高效、可精确控制的语音、音乐和声音统一生成模型

· 阅读需 27 分钟
inclusionAI
Ant Group

GITHUB 🤗 Hugging Face| 🤖 ModelScope

Ming-Omni-TTS的视频展示

🚀 技术亮点

Ming-omni-tts 是一款高性能的统一音频生成模型,不仅能精确控制语音的各种属性,还能在单一通道中合成语音、环境音效乃至音乐。其核心技术在于一个定制的 12.5Hz 连续型分词器和创新的逐块压缩方案,这使得模型在保持高质量的同时,实现了高达 3.1Hz 的推理效率。特别值得一提的是,Ming-omni-tts 拥有强大的文本归一化功能,即使是复杂的数学公式和化学表达式,也能进行准确而自然的朗读。

  • 🔊 精细化语音控制: 通过简单的指令即可精确控制语速、音高、音量、情感和方言。在方言控制上,粤语准确率达到93%;在情感控制上,准确率达到46.7%,均优于 CosyVoice3 模型。
  • 🌌 智能化声音创造: 内置100+高品质音色,并支持通过自然语言描述进行零样本音色创造。在 Instruct-TTS-Eval-zh 基准测试上的性能与 Qwen3-TTS 模型相当。
  • 🎶 沉浸式统一生成: 业界首个在单一通道内联合生成语音、环境音和音乐的自回归模型。基于定制的 12.5Hz 连续分词器和 DiT 头架构,提供无缝的"身临其境"听觉体验。
  • ⚡ 高效推理: 引入"逐块(Patch-by-Patch)"压缩策略,将 LLM 推理帧率降至 3.1Hz。显著降低延迟,支持播客式音频生成,同时保持自然度和音频细节。
  • 🧪 专业文本规范化: 模型能够准确解析并朗读复杂格式,包括数学表达式和化学方程式,确保专业应用场景下的自然听感输出。

模型结构

Ming-omni-tts 基于统一连续音频分词器,用于语音、音乐和声音生成的统一音频语言模型。

统一连续音频分词器模型结构图

统一连续音频分词器模型结构图

统一音频语言模型结构图

统一音频语言模型结构图

Benchmark 评测结果

Benchmark评测结果表

语音控制 – 支持结构化和自然指令控制

基础属性控制:语音生成的速度、音量和音调控制

Input PromptTarget TextInstruction1TTS ResultInstruction2TTS Result
导航开始,全程二十五公里,预计需要十二分钟。语速:慢速语速:快速
烟雨弥漫下,山环绕着水耸立着,水环绕着山流淌着。语速慢一点语速快一点
目前共享出行市场处于高速增长阶段。音量:低音量:高
北京在出行规模,城市影响力方面表现优异。音量尽量低一点音量尽量高一点
他们脱掉笨重的冬衣,走起路来腰杆挺直步履轻盈。基频:低基频:高
自动驾驶将大幅提升出行安全,效率。基频低一点基频高一点

同方言/跨方言控制:根据普通话或母语提示生成粤语和四川语

InstructionInput PromptConversion TypeTarget TextTTS Result
方言:广粤话广粤话 -> 广粤话佢系头大冇脑脑大生草种
方言:广粤话广粤话 -> 广粤话今个周末全场货品低至五折,数量有限,卖晒就冇喇。
请用广粤话表达广粤话 -> 广粤话我觉得社会企业同个人都有责任
用广粤语说,越地道越好。普通话 -> 广粤话你嚟探我,我真系好感动,好耐冇见你啦!
以广粤话的口语风格来表达。普通话 -> 广粤话快啲啦,唔好再拖拖拉拉,大家都等紧你开会呀
方言:川渝话川渝话 -> 川渝话你要自己打扮,不穿咋个晓得穿起漂不漂亮嘛?看我们这新款多时尚。
方言:川渝话川渝话 -> 川渝话赛尔号那个时候,才出来的时候,还是他那个机制,还是特别好耍的。
请用川渝话表达川渝话 -> 川渝话哎,刚刚晚上想吃点啥子?煮点火锅要得。
模仿川渝话的语气来表达普通话 -> 川渝话你晓不晓得?你啥我都喜欢,嗯,就是有一点不喜欢装。
挑战一下用川渝话的味儿来朗读普通话 -> 川渝话你那哈屋头还有电脑,那时候就已经先进了。

跨情绪控制:利用单一中性提示进行跨情绪合成

InstructionInput PromptConversion TypeTarget TextTTS Result
情感: 高兴中性 -> 高兴If these examinations are held orally, they may be known colloquially as "orals".
情感: 愤怒中性 -> 愤怒I'm done arguing with you. You're not worth my time!
情感: 愤怒中性 -> 愤怒In cities, driving speeds are set by which lane a driver is in.
情感: 悲伤中性 -> 悲伤Everything has changed. The promises and dreams we once had are shattered. How should I face this?
情感: 高兴中性 -> 高兴But it does not allow for adding new members to interfaces.
情感: 愤怒愤怒 -> 愤怒港湾道是每年农历新年举行的香港新春花车巡游的路线之一。
情感: 悲伤悲伤 -> 悲伤我觉得自己好像在黑暗中迷失了,再也找不到出口了。
情感: 高兴中性 -> 高兴我竟然抢到了陈奕迅的演唱会门票!太棒了!终于可以现场听一听他的歌声了!
情感: 悲伤悲伤 -> 悲伤我们俩从一开始就君子之交,都说好啦,背信弃义出尔反尔的是她,我告诉你这件事我是受害者。
表达时要悲伤一点。悲伤 -> 悲伤有些软体开发者也注意到软体度量已成为软体开发过程中的一部份。
把这件事说得高兴一点。高兴 -> 高兴I bought my first mountain bike with my own earnings, a Merida Warrior 500! Go me!
表达时,请务必流露出高兴的情感。中性 -> 高兴I ran into a teacher I hadn't seen in years at the coffee shop today. He still remembered me, and we talked about so many fun memories.

内置精品音色: 内置100+高品质音色

InstructionDescribeTarget TextTTS Result
克隆一下灵小甄的说话腔调。销售、直播带货: 声音明亮清脆,语速轻快且充满活力,语气中带有强烈的推荐感和亲和力,典型的带货主播风格。这款产品的名字,叫变态坑爹牛肉丸。
模仿灵梦的风格。虚拟恋人: 充满糖分的高甜少女音,语气娇憨任性,完美演绎了想要人陪伴时的撒娇状态。认为在中文歌曲里,夹杂几句英文就很时髦。
麻烦学一下灵岩的口音新闻、客服: 声音清晰正式且专业届时会按照原定计划,与国防部签署相关以地换地协议。
克隆一下灵娇的说话腔调。邻家女孩、女大学生、Vlog博主: 清甜明亮的少女音,语感轻快活泼,在讲述生活趣事时充满画面感与青春朝气,极具感染力。总裁问,刚才皮皮鲁唱的歌是谁的词谁的曲,大手笔呀。
克隆一下妩媚妲己的说话腔调。妩媚角色: 声音甜美清脆,语调轻盈上扬,表现性感妩媚新娘是一位俄国公主,坐着六只驯鹿拉的雪车,从芬兰一路而来。
克隆一下灵绮木的说话腔调。透着刻薄与傲慢的冷艳御姐音这就是它第二个特色——灵活的音色设计能力,你可以直接用文字描述,比如"知性女主播的声音",它就能给你生成。要是懒得想,它还内置了一百多种精品音色,什么动漫角色、短视频配音统统搞定!
克隆一下灵若虚的说话腔调。老奶奶形象,声音饱含岁月的温暖与慈爱,语速舒缓,透着对生活细节的满足感,极具治愈力。这就是它第二个特色——灵活的音色设计能力,你可以直接用文字描述,比如"知性女主播的声音",它就能给你生成。要是懒得想,它还内置了一百多种精品音色,什么动漫角色、短视频配音统统搞定!
克隆一下花小呗的说话腔调。儿童角色,声音清脆甜美,带有明显的幼态特征,语调轻快活泼这就是它第二个特色——灵活的音色设计能力,你可以直接用文字描述,比如"知性女主播的声音",它就能给你生成。要是懒得想,它还内置了一百多种精品音色,什么动漫角色、短视频配音统统搞定!
克隆一下灵浅忧的说话腔调。小男孩,声音清脆明亮,充满元气今天天气不错,要出去玩了。

音色创造: 通过自然语言描述零样本合成自定义音色

InstructionTarget TextTTS Result
性别: 女童声音. 音高: 音高尖锐,持续偏高. 语速: 语速迅捷,语气急促. 音量: 音量响亮,情绪饱满. 年龄: 学龄儿童. 清晰度: 吐字清晰,发音用力. 流畅度: 表达流畅,伴强调性重复. 口音: 标准普通话. 音色质感: 童声清亮,略显尖锐. 情绪: 激动委屈,带有抗议. 语调: 声调高昂,语势急切. 性格: 急躁率真,不甘示弱.人家从那走过,他们就说我故意偷听,还说我是小广播,我偏要广播,偏要广播偏。
性别: 男性. 音高: 男性沉稳中低音. 语速: 语速舒缓,有自然停顿. 音量: 正常谈话音量. 年龄: 中老年男性. 清晰度: 吐字清晰,发音标准. 流畅度: 言语连贯,表达自然. 口音: 标准普通话. 音色质感: 音质温和,略显沧桑. 情绪: 饱含不舍与怀念,转为平静嘱托. 语调: 前段感叹意味,后段请求意味. 性格: 念旧重情,温和坦诚.这就是天望娃娃送给我的我一直舍不得丢掉它,你替我上交了吧。
性别: 男性语音特征. 音高: 男性中低音域,初始疑问时音调上扬. 语速: 整体偏快,表述急切清晰. 音量: 正常交谈音量,偶有强调加重. 年龄: 青年至中年男性. 清晰度: 吐字清晰,发音标准. 流畅度: 叙述流畅,偶有为强调而设的短暂停顿. 口音: 带有北方地区特征的普通话. 音色质感: 声音较为浑厚,略带一丝沙哑质感. 情绪: 从关切疑问过渡到解释性陈述,略显急切. 语调: 初始疑问扬起,后转为肯定叙述语调. 性格: 显得坦率直接,急于说明情况.没有欺负这孩子呢,报告团长没人欺负他,不是怎么的,他本来是给他师父小杨上门的,回来,就说鬼鬼的鬼。
性别: 女性. 音高: 女性高音,句末随情绪上扬. 语速: 语速偏缓,充满恳切感. 音量: 音量正常,激动处略有提高. 年龄: 中年女性. 清晰度: 吐字清晰,略带哭腔. 流畅度: 整体流畅,因情绪略显迟缓. 口音: 标准普通话. 音色质感: 音色略显沙哑,蕴含悲伤. 情绪: 悲伤焦虑,带有不解与恳求. 语调: 起伏较大,表达焦急质问. 性格: 情感浓烈,忧心忡忡.我们家好容易恢复成这个样子,你明知有危险,为什么还一定要拉着杉杉?
用活泼的童声带着喜悦和兴奋不间断地讲述一个有趣的故事。我有个大哥叫小王,能吃饭也能喝汤,别看他手里没武器啊,说话赛过歪白的机关枪。
这是一个粤语地区长辈的声音,是一种带有地域特色的创意风格。他使用粤语(广东话),年长男性声音沉厚,语速较慢。语气在说教时显得严肃,但言语间仍透露出对家人的关心。做人呢,最紧要就係开心。
这是一个粤语地区长辈的声音,是一种带有地域特色的创意风格。他使用粤语(广东话),年长男性声音沉厚,语速较慢。语气在说教时显得严肃,但言语间仍透露出对家人的关心。你睇你,成日挂住玩,书又唔读。
是一个粗犷豪放的东北大哥的声音,是一种极具地域辨识度的创意与特殊风格。他使用带有浓郁东北口音的普通话,中年男性声音洪亮,嗓门大。说话直来直去,语速快,语气中充满了幽默感和不拘小节的豪爽。哎呀我的妈呀,这嘎冷的天儿,你穿这点儿?
这是一种ASMR耳语,属于一种旨在引发特殊感官体验的创意风格。这个女性使用轻柔的普通话进行耳语,声音气音成分重。音量极低,紧贴麦克风,语速极慢,旨在制造触发听者颅内快感的声学刺激。放松……现在……闭上你的眼睛……
这是一种ASMR耳语,属于一种旨在引发特殊感官体验的创意风格。这个女性使用轻柔的普通话进行耳语,声音气音成分重。音量极低,紧贴麦克风,语速极慢,旨在制造触发听者颅内快感的声学刺激。听……这个声音……是不是……很舒服……
这是一个体育赛事激情解说员的声音,是极具感染力的创意与特殊风格。他使用高亢的普通话,中年男性声音沙哑(因长时间呐喊)。语速快如机枪,在关键时刻会瞬间爆发,语调充满了紧张、激动和不可思议的情绪。球进了!进了进了进了!伟大的胜利!
这是一个宫斗剧中的威严皇后的声音,展现了充满张力的戏剧叙事风格。她使用雍容华贵的普通话,中年女性声音沉稳。语速雍容和缓,但每个字都掷地有声,语气表面波澜不惊,实则暗藏锋芒和久居上位的威压。妹这话,是说给本宫听的吗?
这是一个宫斗剧中的威严皇后的声音,展现了充满张力的戏剧叙事风格。她使用雍容华贵的普通话,中年女性声音沉稳。语速雍容和缓,但每个字都掷地有声,语气表面波澜不惊,实则暗藏锋芒和久居上位的威压。放肆!在本宫面前,岂容你如此喧哗?
这是一个古装剧中的腹黑反派的声音,充满了戏剧性的叙事张力。他使用华丽而阴柔的普通话,青年男性声音说话时语速慢条斯理,语气看似温和,却在句尾带着一丝不易察觉的冷笑和威胁,让人不寒而栗。呵呵,看来,你还是不太明白自己的处境啊。

播客: 多人对话

Input Speaker1 PromptInput Speaker2 PromptTarget TextTTS Result
speaker_1: 你可以说一下,就大概说一下,可能虽然我也不知道,我看过那部电影没有。
speaker_2: 就是那个叫什么,变相一节课的嘛。
speaker_1: 嗯。
speaker_2: 一部搞笑的电影。
speaker_1: 一部搞笑的。
speaker_1: 所以你想成功的话,就推荐你看这些书。
speaker_2: 我会有时间去看一看的。
speaker_1: 要是像我看的话,我就会感觉特别的。
speaker_2: 枯燥。
speaker_1: 对枯燥无聊毕竟是古文也看不懂除非那些。
speaker_1: 知道家长在考虑什么让家长也知道孩子们在考虑什么。
speaker_2: 对。
speaker_1: 减少矛盾。
speaker_2: 对,就是感觉其实出这些电影或者电视剧,也是挺好的让彼此更加了解一下,我感觉如果是一个家长和一个小孩儿,去看电视剧的话,收获也是蛮多的。
speaker_1: 那你还有什么比较好的电影介绍给我呢。
speaker_1: 上个厕所,然后那有专门的人给你,就是你上厕所之前,专门有个人给你递纸了。
speaker_2: 对,上个厕所会出来给你递毛巾。
speaker_1: 啊对,让你去擦手这些什么的。
speaker_2: 是的。
speaker_1: 服务,服务非常周到,不过也有少数人就说,这个服务实在太久了,就是,就,就是像那种,就是那个。
speaker_1: 什么东西啊?
speaker_2: 叫那个的哪吒的那个。
speaker_1: 啊,那个哪吒,但是我没有去看一看嘛。
speaker_2: 我也没看过。
speaker_1: 我当时好像是本来是要去看的。
speaker_1: 啊,我吃过。
speaker_2: 是不是。
speaker_1: 因为我之前去过山东一次吃过人家那杂粮煎饼。
speaker_2: 反正跟咱们这儿,不一样是吧,正宗的人家那是正宗的。
speaker_1: 本地的。
speaker_1: 那就之前的妆都毁掉了。
speaker_2: 嗯,是是是。
speaker_1: 然后之后就是睫毛。
speaker_2: 哦,对,那睫毛涂睫毛膏。
speaker_1: 画睫呃涂睫毛的时候,先夹一下睫毛,夹。
speaker_1: 嗯哪三个字。
speaker_2: 足力健。
speaker_1: 哦听说过。
speaker_2: 那你给我讲讲。
speaker_1: 我听说这个足力健对老年人的脚底有好处,而且边走路都能健身是吗。
speaker_1: 就这样子,嗯,一般男生都是看什么电影啊? 推理的吗? 还是什么。
speaker_2: 也不是吧,就是看那种,嗯,具体也说不出哪种类型嘛。
speaker_1: 具体也说不出。
speaker_2: 嗯。
speaker_1: 就是都有看一点。
speaker_1: 是了,只有你,化化起妆了才能充实呢,自信心呃然后才,感觉自己的心情是美美哒的。
speaker_2: 你想化妆是,呃那就从眉毛开始说不是从打底开始说吧。
speaker_1: 嗯说,好想听呢。
speaker_2: 洁面以后就是拍水乳,水乳霜。
speaker_1: 嗯。

音乐生成

InstructionTTS Result
Genre: 迪斯科. Mood: 活力四射 / 精力充沛. Instrument: 电吉他. Theme: 运动. Duration: 30s
Genre: 当代古典音乐. Mood: 温暖 / 友善. Instrument: 合成拨弦. Theme: 节日. Duration: 60s.
Genre: 电子舞曲. Mood: 自信 / 坚定. Instrument: 架子鼓. Theme: 节日. Duration: 47s.
Genre: 独立民谣. Mood: 鼓舞人心 / 充满希望. Instrument: 合成铜管乐器. Theme: 节日. Duration: 63s.
Genre: 流行摇滚. Mood: 温暖 / 友善. Instrument: 低音鼓. Theme: 旅行. Duration: 76s.
Genre: 电子舞曲. Mood: 快乐. Instrument: 定音鼓. Theme: 好时光. Duration: 61s.
Genre: 流行乐. Mood: 温暖 / 友善. Instrument: 合成铜管乐器. Theme: 庆典与喜悦. Duration: 41s.
Genre: 当代古典音乐. Mood: 鼓舞人心 / 充满希望. Instrument: 合成拨弦. Theme: 庆典与喜悦. Duration: 45s.
Genre: 电子舞曲. Mood: 鼓舞人心 / 充满希望. Instrument: 电吉他. Theme: 运动. Duration: 94s.

语音/音乐单通道生成:单通道语音和音乐生成

InstructionInput PromptTarget TextTTS Result
Genre: 电子舞曲. Mood: 活力四射. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB.全神贯注,跟上这强劲的节奏,冲向终点吧!
Genre: 流行摇滚. Mood: 快乐. Instrument: 电吉他. Theme: 旅行. SNR: 5.0dB.阳光洒满公路,带上行囊,出发去远方!
Genre: 迪斯科. Mood: 兴奋. Instrument: 架子鼓. Theme: 生日. SNR: 5.0dB.派对时刻到!让我们在鼓点中祝你生日快乐!
Genre: 电子舞曲. Mood: 兴奋. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB.汗水在燃烧,感受这股能量,你就是最强的!
Genre: 流行摇滚. Mood: 活力四射. Instrument: 架子鼓. Theme: 旅行. SNR: 5.0dB.踏上未知的旅程,每一步都充满未知的惊喜!
Genre: 迪斯科. Mood: 快乐. Instrument: 电吉他. Theme: 生日. SNR: 5.0dB.吹灭蜡烛前,先跟着旋律尽情摇摆吧!
Genre: 电子舞曲. Mood: 快乐. Instrument: 合成铜管乐器. Theme: 生日. SNR: 5.0dB.这是属于你的闪耀时刻,生日派对正式开始!
Genre: 流行摇滚. Mood: 兴奋. Instrument: 电吉他. Theme: 运动. SNR: 5.0dB.超越极限,感受心跳的轰鸣,永不言弃!
Genre: 迪斯科. Mood: 活力四射. Instrument: 架子鼓. Theme: 旅行. SNR: 5.0dB.在霓虹闪烁的异国街头,找寻失落的快乐!
Genre: 流行摇滚. Mood: 快乐. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB.运动让生活更有趣,让我们一起快乐出发!

音效生成

InstructionTTS Result
A motor is revving and changing gears
Thunder and a gentle rain
Continuous snoring of a person
Nature sounds with a frog croaking
A man talking as a stream of water trickles in the background

语音/音效单通道生成:单通道语音和音效生成

InstructionInput PromptTarget TextTTS Result
Birds chirping副主任及以上号别就诊人次,为二百零八点二万。
Light rain其中又有大部分百分之四十一点九认为,由该品牌影楼拍摄。
Keyboard typing本次有害昆虫科普展,是一场专门为孩子准备的科普教育活动。
Fire engine siren他陪舅舅到简阳一所学校,考察捐资改建事宜。
Rainstorm请语音留言,告诉电话精灵您没有达到父母的哪些要求。

Ming-flash-omni-Preview,千亿参数 MoE,洞察与创造一体的全模态

· 阅读需 7 分钟
inclusionAI
Ant Group

GITHUB ARXIV 🤗 Hugging Face| 🤖 ModelScope

全模态 Ming-omni 系列更新!Ming-flash-omni-Preview 是首个参数规模达到千亿的开源全模态大模型。基于 Ling 2.0 的稀疏 MoE 架构,Ming-flash-omni-Preview 总参数 103B, 激活 9B。相比之前很受欢迎的 Ming-lite-omni-1.5,Ming-flash-omni-Preview 在全模态理解和生成能力上均有提升,各模态总体效果达到开源全模态模型的领先水平, 尤其在可控图像生成、流式视频理解、以及语音识别等领域性能表现尤为突出。

performance

能力一览

可控图像生成

针对图像生成这个常见的场景,Ming-flash-omni-Preview 首创生成式分割范式 ,将 “图像分割” 重构为语义保持的编辑任务 (Generative Segmentation-as-Editing),实现了细粒度的空间语义控制。Ming-flash-omni-Preview 在 GenEval 基准上评测达到 0.90 分,超越所有非强化学习的生成方法,展现出卓越的可控性。

流式视频理解

用户常有一种想跟 AI 基于现实场景持续对话,并通过 AI 来理解现实场景的需求。Ming-flash-omni-Preview 可以有效实现相关需求。如下图视频所示,Ming-flash-omni-Preview 可实现对流式视频的细粒度理解,看懂视频中的物体和交互,并实时提供相关理解和说明,帮助用户在实际场景中获得支持。

语音及方言理解

Ming-flash-omni-Preview 可实现上下文感知语音理解 (ContextASR) 和方言识别,在所有 12 个 ContextASR 子任务上全面 SOTA,对湖南话、闽南话、粤语等 15 种中国方言的理解能力大幅增强,对于在听不懂的方言中迷失的用户,能有效的提供翻译和实时理解支持。

音色克隆

Ming-flash-omni-Preview 的语音生成从离散 tokenizer 升级为连续 tokenizer,显著提升了音色克隆能力,中英文混合发音能力稳定性高,能够有效克隆原本对话的音色到新产生的对话中,seed-tts-zh WER 指标为 0.99,超过 qwen3 omni 和 seed-tts。

模型架构及能力简介

Ming-flash-omni-Preview 的模型结构图:

architecture

相比 Ming-lite-omni-1.5, Ming-flash-omni-Preview 主要有以下方面的技术优化:

基于稀疏专家架构的全模态训练

Ming-flash-omni-Preview 将 Ling-Flash-2.0 稀疏 MoE 架构拓展到全模态大模型,基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模,实现各模态的 “大容量、小激活”。通过在 Attention 层引入 VideoRoPE,强化对长视频的时空建模,提升视频交互能力。 另外在训练策略上:

  1. 稳定稀疏训练:使用混合专家平衡方案(结合辅助负载均衡损失与路由器偏置更新),确保稀疏 MoE 架构下全模态训练的均匀激活和收敛性;
  2. 上下文感知的 ASR 训练范式:语音训练任务上以任务 / 领域信息输入作为解码条件,显著提高专有名词识别和转录一致性。同时引入高质量方言等训练语料,实现对湖南话、闽南话、粤语等 15 种中国方言的识别准确率显著提升。

生成式分割编辑一体化

在构建统一多模态模型时,核心挑战在于如何高效融合图像的理解与生成能力。我们的Ming-lite-omni-1.5 通过冻结语言通路,并借助多尺度QueryToken注入层级化语义,从而在保持理解性能的同时,使生成目标能更好地与理解任务融合。这一训练策略虽然提升了稳定性,但由于理解与生成的学习目标本质上存在差异,即使引入层级化语义,那些细粒度的视觉知识(如物体属性和空间关系)仍难以高效迁移到高精度的生成与编辑任务中,进而限制了模型在生成质量和可控性上的提升。

为克服这一瓶颈,Ming-flash-omni-Preview 提出了 “生成式分割即编辑” 的协同训练范式。该范式将图像分割重构为语义保持的编辑任务(例如:“将香蕉涂成紫色”)。相应的设计所提供的关键帮助是:强制统一了理解和生成目标 —— 成功的编辑必须依赖对对象轮廓的精确理解,编辑质量直接为理解提供监督信号。这一范式直接增强了模型的细粒度时空语义控制能力,间接解决了纯文本到图像生成中的组合性问题。

在 GenEval 基准测试中,Ming-flash-omni-Preview 取得了 0.90 分,超越所有领先的非强化学习(non-RL)方法;在 GEdit 基准测试中,在物体删除、物体替换等精准编辑任务上的均分从 6.9 提升至 7.9。这两项结果共同证明:通过“生成式分割即编辑”训练所获得的细粒度时空语义控制能力,不仅显著提升了精准编辑任务的表现,还能够有效泛化到纯文本驱动的图像生成任务中。

高效全模态训练架构

训练全模态基础模型面临两大挑战:数据异构性(多模态输入形状不一)和模型异构性(模态专用编码器难以并行)。这些问题导致负载失衡、内存碎片化和流水线气泡,严重拖慢了训练速度。 为解决这些问题,我们在训练 Ming-flash-omni-Preview 模型时基于 Megatron-LM 框架进行了两项关键优化:

  1. 序列打包 (Sequence Packing):解决数据异构性。将变长序列密集打包成定长批次,大幅提升内存利用率和计算密度;
  2. 弹性编码器分片 (Flexible Encoder Sharding):解决模型异构性。扩展 Megatron-LM 支持模态编码器在 DP/PP/TP 上的细粒度分片,消除流水线气泡,实现负载均衡。 这些优化措施使 Ming-flash-omni-Preview 的训练吞吐量比基线提升了一倍。

开始使用 Ming-flash-omni-Preview

我们的模型和代码均已开源,欢迎大家试用、反馈和交流:

后续规划

这次开放的是 Ming-flash-omni-Preview 版, 当前版本有一些不完善的地方:

  1. 视觉文本理解能力,虽然Ming-flash-omni-Preview在全模态模型中效果整体领先,但和SOTA的专用VL大模型仍存在一定差距,我们会继续探索全模态omni模型的效果上限。
  2. 语音能力:在语音识别和语音合成整体效果领先,语音多轮对话效果以及高质量的音色克隆是我们下一步的优化重点。
  3. 图片生成能力: 模型在 GenEval 基准上取得 0.9分,展现了不错的可控性,并已具备文字生成和编辑能力,但在复杂布局文字渲染与编辑,以及特定IP 角色的生成方面还有待提升。

我们仍在持续优化 Ming-flash-omni-Preview 的使用体验,欢迎通过社区 discussion 讨论或 issue 向我们反馈问题,正式版本会很快跟大家见面。

Ming-UniAudio: 用于统一表征的联合理解、生成和编辑的语音语言大模型

· 阅读需 17 分钟
inclusionAI
Ant Group

GITHUB 🤗 Hugging Face| 🤖 ModelScope

Ming-UniAudio的视频介绍

语音编辑的视频展示

编辑任务的视频demo展示

🚀 技术亮点

  1. 首个面向理解与生成任务的统一连续语音分词器: MingTok-Audio 是一种基于 VAE 框架与因果 Transformer 架构的统一连续语音分词器,首个有效融合语义与声学特征的连续语音分词器,通过层次化特征表示与 LLM 形成闭环系统,同时适用于理解与生成任务。
  2. 首个采用统一连续分词器、同时支持理解与生成的语音大模型: Ming-UniAudio 是端到端的统一语音语言模型,仅用一个 LLM 主干即可同时完成理解与生成,并配备扩散头以保证高保真语音合成。
  3. 首个无需时序约束、支持语义与声学任务的通用自由形式语音编辑模型: 我们提出了首个指令引导的自由形式语音编辑框架,无需显式指定编辑区域即可实现全面的语义与声学编辑;同时发布 Ming-Freeform-Audio-Edit,首个面向该任务的开源评测集。
  4. 首个自由形式语音编辑基准: 我们推出 Audio-Edit-Benchmark,首个开源自由形式评测集,涵盖四类语义与五类声学编辑任务,用于系统评估模型的编辑能力。

多项指令引导的自由形式语音编辑的任务展示

语义编辑 - 插入

InstructionTranscriptionTarget TranscriptionBefore EditSpeechedit Result
insert '简直' after the character or word at index 8.真是个浪漫的邂逅可以说是英雄救美了真是个浪漫的邂逅简直可以说是英雄救美了
insert '真正' before the character or word '好'.就有道而正焉可谓好学也已就有道而正焉可谓真正好学也已
insert 'clearly' before the character or word at index 8.Its legal status in Trinidad was insufficient to preserve its ecological status.Its legal status in Trinidad was insufficient clearly to preserve its ecological status.
insert 'successfully' after the character or word 'profession'.Previously an attorney Korona left the profession to pursue a career in music.Previously an attorney Korona left the profession successfully to pursue a career in music.

语义编辑 - 替换

InstructionTranscriptionTarget TranscriptionBefore EditSpeechedit Result
substitute '妈妈' with '爸爸'.我想对于妈妈来说会比任何礼物都要温暖我想对于爸爸来说会比任何礼物都要温暖
substitute the characters or words from index 8 to index 10 with '五万元'.当时我想等筹齐两万元聘礼就送她妈回家当时我想等筹齐五万元聘礼就送她妈回家
substitute 'get pictures off' with 'transfer photos from'.I'm trying to explain to my mother how to get pictures off her phone.I'm trying to explain to my mother how to transfer photos from her phone.
substitute the words from index 8 to index 9 with 'could become'.Considering the growth of human population insects might be the food of the future.Considering the growth of human population insects could become the food of the future.

语义编辑 - 删除

InstructionTranscriptionTarget TranscriptionBefore EditSpeechedit Result
delete '比普通的茶叶要'.花草茶的口味一般比普通的茶叶要苦一些花草茶的口味一般苦一些
delete the characters or words from index 11 to index 15.我吃了点燕麦片煎鸡蛋还喝了点橙汁我吃了点燕麦片煎鸡蛋汁
delete 'times'.The classification of this gibbon has changed several times in the past few years.The classification of this gibbon has changed several in the past few years.
delete the characters or words from index 2 to index 6.On the second day the boy climbed to the top of a cliff near the campOn climbed to the top of a cliff near the camp

声学编辑 - 方言转换

InstructionTranscriptionBefore EditSpeechedit Result
Change the accent of the speech to Dongbei.之后,他考取导游证,成为拱北口岸中旅的导游。
Change the accent of the speech to Chengdu.只有当科技为本地社群创造价值的时候,才能真正有意义。
Change the accent of the speech to Chengdu.我得用回想与幻想补充我所缺少的饮食,安慰我所得到的痛苦。
Change the accent of the speech to Guangxi.全国恶性肿瘤发病,及死亡第一位的是肺癌。

声学编辑 - 变速

InstructionTranscriptionBefore EditSpeechedit Result
adjusts the speed to 0.5.我用胸抵住车把,掌握方向,速度一点也不比别人慢。
adjusts the speed to 0.7.There is a growing body of case law on Bayh-Dole.
adjusts the speed to 1.3.Cribb was born near Bristol but moved to London before starting professional fighting.
adjusts the speed to 2.切实帮助困难群众解决生产生活中,遇到的困难和问题。

声学编辑 - 变调

InstructionTranscriptionBefore EditSpeechedit Result
shifts the pitch by 3 steps.因为外面有战争,家里又有战争带来的悲伤和匮乏。
shifts the pitch by 5 steps.自动驾驶将大幅提升出行安全,效率。
shifts the pitch by -1 steps.The heart of the campus has a number of historic buildings.
shifts the pitch by -1 steps.Stevenson is also the director of music ministries at Angeles Mesa Presbyterian Church.

声学编辑 - 变音量

InstructionTranscriptionBefore EditSpeechedit Result
adjusts the volume to 1.4.A woman sits as she shows the designs she has made in the floor.
adjusts the volume to 1.6.For example, they both consist of predominately older, hence redder, stars.
adjusts the volume to 0.9.伏羲的儿孙们看见伏羲捉来了鱼,也都欢欢喜喜跑来问长问短。
adjusts the volume to 0.3.他们还告诉巨人,那座城市里群英荟萃。

声学编辑 - 降噪

InstructionTranscriptionBefore EditSpeechedit Result
denoise the audio.Be shape of example,before deriving this formula we explained what we mean by problems of this kind we now generalize these ideas for general binomial experiments.
denoise the audio.Summoned to himself with firmness no surrender his superiors had also preached this saying it was the way of eternal honor his comrades were old.
denoise the audio.There are people who travel long distances to assure my continued existence we have also seen the power of faith at work among us it was muscular but it wasn't symmetrical.
denoise the audio.Theory eventually proved inexact the heavens refused to give up their weeping but what has been happening recently might be described as creeping mannerism clever.

声学编辑 - 加背景音

InstructionBefore EditSpeechedit Result
add rain to audio.
add car sound to audio.
add carefree music to audio.
add groovy music to audio.

声学编辑 - 情感转换

InstructionTranscriptionBefore EditSpeechedit Result
change the emotion to happy mood.比尔想再看小主人一眼然后走进森林安静地死去。
change the emotion to happy mood.世界爱眼日是每年十月的第二个星期四。
change the emotion to happy mood.我会玩很多游戏呢听说多喝水能治百病。
change the emotion to happy mood.建议戴口罩空气质量轻度污染。

语音理解任务展示

中英文语音识别

InputTranscription
呃很久没有看到看过如此不带价值判断的电影
桃花庄人塔俱乐部是位于杭州市德清县的一个俱乐部
he was excited and at the same time uneasy maybe the girl had already forgotten him
it's true that everything has its destiny but one day that destiny will be realized

方言理解

InputTranscription
[方言-粤语] 你做乜嘢啊系咪唔想倾偈啊。
[方言-上海话] 阿拉考试还没定下来唻。
[方言-闽南语] 宝贝较早休困晚安。
[方言-川渝方言] 我难受得很别个都睡了。

上下文语音识别

InputPromptTranscription
Please recognize the language of this speech and transcribe it. Format: oral. This is an audio about Banking. This audio may contains the following words or phrases:Zelle,daily A C H transfer limit,cashier's checks,transaction memos,F D I C regulations,cryptocurrency wallet,K Y C requirements.Hey Chris, you won't believe what happened when I tried sending rent through Zelle yesterday. I hit some daily ACH transfer limit! My landlord's insisting on cashier's checks now. Remember how Sarah's Venmo payment got flagged last month? The bank's fraud detection system kept asking about transaction memos and 'source of funds' verification. Honestly, these FDIC regulations around peer-to-peer payments are getting ridiculous. I had to provide three months of bank statements just to increase my wire transfer threshold. Oh, and don't even get me started on cryptocurrency wallet KYC requirements.
Please recognize the language of this speech and transcribe it. Format: oral. This is an audio about Banking. This audio may contains the following words or phrases:Priority Pass lounges,T S A Pre Check,rewards structure,bonus miles,Citibank's Prestige Card,Visa Infinite,E M V chip security protocols,dynamic currency conversion.So listen, I finally canceled my Chase Sapphire Reserve last week. Remember how they touted those Priority Pass lounges and Luxury Hotel Collection benefits? Turns out I only used the T S A Pre Check credit once this whole year! The annual fee jumped to five hundred fifty dollars, plus they started requiring eighteen thousand points to waive it. My Amex Platinum isn't any better that seven hundred dollar fee just hit, and their new rewards structure requires thirty thousand in annual spending for bonus miles. Oh, and get this Citibank's Prestige Card now charges two hundred bucks for authorized users! Honestly, these Visa Infinite perks like concierge services and purchase protection sound fancy, but when do regular people actually use E M V chip security protocols or dynamic currency conversion?
Please recognize the language of this speech and transcribe it. Format: oral. This is an audio about 酒店常旅客计划. This audio may contains the following words or phrases:至悦大使,重庆来福士洲际,酒廊待遇,万豪旅享家,钛金会员.诶?小李,我最近在研究IHG的会员体系,这个‘至悦大使’的达标条件也太苛刻了吧!‘三百权益’里,洲际的认可房晚才给三十晚。你说,他们家的‘先行者任务’算不算‘里程碑奖励’啊?对了,我之前用积分兑换重庆来福士洲际的行政套房,礼宾部居然没给酒廊待遇,反而现金订房的客人能拿到双早。万豪旅享家的‘钛金会员’都能自动匹配套房升级券,IHG这个动态定价系统真是让人头大!
Please recognize the language of this speech and transcribe it. Format: oral. This is an audio about 汽车行业. This audio may contains the following words or phrases:汽车之家曹雷,矩阵式 L E D 大灯,四十八伏轻混系统,可变气门升程技术,M B U X 超联屏,Sportback,Allroad.嘿,老李,你看到‘汽车之家’曹雷发的文章没?说新款奥迪A3加长到四米六了。昨儿我去4S店试驾,销售说这车配了啥矩阵式LED大灯,还有四十八伏轻混系统。不过,宝马1系那个B48发动机也改了‘可变气门升程技术’,奔驰A级更夸张,直接把MBUX超联屏塞进紧凑车里!要我说啊,现在车企搞细分市场真够拼的!听说奥迪还要出Sportback、Allroad等四个版本呢,连自适应巡航都标配了!

语音生成

一句话音色克隆

Input PromptTarget TextTTS Result
全球每年有超过一百三十五万人,因交通事故而死亡。
The stained glass offered a hypnotic atmosphere.

多语种语音生成

Input Prompt TextInput Prompt audioTarget TextTTS Result
We asked over twenty different people, and they all said it was his.The stained glass offered a hypnotic atmosphere.
The wedding was photographed by celebrity wedding photographer Kid Chan.Bender also conducted extensive research on autism.
关于不少万达广场的注册资本金更改。哎,这些情况在北京这样的大都市,是无法避免的。
长春周二之前晴天多云五月七日是晴天。两人一直对婚变封口,使传闻闹得热烘烘。

Ming-UniVision:在连续的视觉世界里,统一理解与生成

· 阅读需 8 分钟
inclusionAI
Ant Group

GITHUB 🤗 Hugging Face| 🤖 ModelScope


🚀 技术亮点

  1. 业界首个连续统一的视觉令牌化器: MingTok 在单一连续潜空间内无缝支持图像理解与生成,彻底消除了量化过程,并有效打通了不同模态。
  2. 首个采用连续视觉 Token 的 NTP 式自回归 MLLM: 基于 MingTok,Ming-UniVision 在一个共享的“下一词元预测 (NTP)”框架下统一了视觉与语言,实现了对多种视觉任务的端到端自回归建模。
  3. 缓解表征竞争 → 实现 3.5 倍收敛加速: 统一的连续表征协同了语义理解与生成的目标,在不牺牲性能的前提下,显著加速了模型的联合训练过程。
  4. 单一特征空间内的多轮上下文学习: 所有操作(理解、生成、编辑)均在同一个连续空间内完成,彻底避免了代价高昂的跨空间转换,使得训练与推理过程更简洁、更高效。

挑战:‘看’与‘画’的逆向天性

自回归(Autoregression),这种通过“预测下一个 token”来建模世界的强大范式,已经成功统一了语言、音频等多种模态。下一个前沿领域,是将视觉理解(看懂图像)与视觉生成(画出图像)也纳入这个统一的序列预测框架。

然而,这一宏伟目标面临一个深层的挑战:在很多方面,理解与生成是互为逆向的任务。

  • 理解: 像素 → 高维、抽象的语义概念
  • 生成: 概念 → 精细、高保真的像素细节

这两种任务对底层视觉表征有着截然不同,甚至是相互竞争的偏好。

为何现有方案存在不足

现有模型尝试通过两种有限的策略来统一它们:

  1. 非对称设计: 为每个任务使用不同的、异构的特征空间。这导致在多轮交互中,模型必须在不同空间之间进行低效的“往返”,从而引入延迟和工程复杂性。
  2. 共享离散令牌: 统一了令牌空间,但引入了量化误差。这既损害了生成图像的保真度,也削弱了其理解能力。

我们的解决方案:Ming-UniVision 与 MingTok

为了打破这一僵局,我们推出了 Ming-UniVision,一个构建于颠覆性创新 MingTok 之上的新一代自回归视觉语言模型。

MingTok 是首个基于连续潜空间的视觉令牌化器。它提供了一个真正统一且高效的表征,构成了 Ming-UniVision 统一“下一词元预测 (NTP)”框架的基石——在一个统一的上下文学习多模态闭环中,将图像理解、生成和编辑融为一体。

核心设计:三段式架构,调和表征竞争

Ming-UniVision 的核心是 MingTok 令牌化器,它是一个三段式序列架构,旨在优雅地调和理解与生成对表征的竞争性需求。

Figure 1: Architecture Comparison 图1:(a) 现有模型使用分离的视觉表征。(b) MingTok 使用统一方案生成语义与生成表征。(c) 这种统一方法带来了超过 3.5 倍的训练收敛加速。

  1. 低维编码器 (Low-level Encoder): 将输入图像映射为一串紧凑、连续的潜码,为高效的自回归生成进行优化。
  2. 语义解码器 (Semantic Decoder): 将潜码自回归地“精炼”为与 CLIP 等顶级理解模型对齐的高维语义特征。
  3. 像素解码器 (Pixel Decoder): 作为质量保证模块,确保可以从语义特征中高保真地重建原始图像,保证表征过程的高保真度。

关键创新: MingTok 创造了一个统一、可微的接口。用于理解的高维特征可以直接作为下一轮生成或编辑任务的条件,彻底消除了代价高昂的“像素空间绕行”

突破:效率的根本性飞跃

通过集成 MingTok,Ming-UniVision 在理解和生成任务上均取得了极具竞争力的结果。其共享的连续潜空间从两个层面实现了效率的根本性提升,解决了困扰以往架构的瓶颈。

Figure 2: Benchmark Results 图 2:在通用识别任务上,我们的方法性能接近分离表征模型,并显著优于其他统一表征模型。在生成方面,我们的模型在颜色、位置等细粒度控制上表现出明显优势。

1. 训练效率革命:超过 3.5 倍的收敛加速

传统方法在对齐异构表征时会产生“任务竞争”,拖慢学习速度。MingTok 从根本上解决了这个问题。

  • 协同增强: 我们的实验证明,统一表征不仅避免了性能权衡,反而促进了理解与生成能力的协同增强。
  • >3.5倍加速: 由于避免了低效的对齐工作,模型可以将全部精力用于核心任务学习,从而将达到同等性能水平的时间缩短为原来的不到三分之一。

Figure 3: Pre-training Performance 图3:在使用统一的 MingTok 表征进行联合训练时,其性能与纯生成训练的差距极小,证明了统一方案的优越性。

2. 交互效率革命:告别“像素往返”

多轮交互(如“生成→编辑→再生成”)的效率取决于“理解-生成”循环的速度。这正是传统架构的症结所在。

架构类型多轮交互能力核心瓶颈交互路径效率与保真度
DiT-based Models❌ 原生不支持非自回归、无状态不适用 (需完全重启)
混合/分离架构⚠️ 支持,但低效空间不统一潜码 → 像素 → 特征低、复杂、有信息衰减
Ming-UniVision原生且高效统一连续空间特征 → 特征高,且高保真

如上表所示,任何分离式架构都无法摆脱低效的 潜码 → 像素 → 特征 往返宿命。这种“像素绕行”不仅延迟巨大,还会导致上下文信息在多轮传递中不断衰减。

Ming-UniVision 实现了 特征 → 特征 的直接闭环。来自理解任务的高维特征可以直接被下一轮生成任务无缝利用,解锁了真正连贯的多模态序列建模。这使得过去需要多个专用模型才能完成的任务,如今可以在一个统一框架内自然涌现:

  • 迭代式图像增强: 先执行超分辨率,然后直接在结果之上继续上色或去噪。
  • 生成式思维链: 先执行一个理解任务(如“分割出图中的汽车”),然后直接对该区域应用编辑指令。

Figure 4: Multi-turn Interaction Demo 图4:“超分→上色”和“分割→编辑”等多轮任务,现在可以在一个无缝的流程中完成。

理解、生成与编辑,不再是孤立的管道,而是被编织在一场连续的视觉对话之中。


总结与展望

我们相信,像 MingTok 这样统一、连续的视觉表征,为构建更灵活、更直观、更接近人类认知方式的多模态交互系统开辟了新的可能性。

我们深知这只是漫长探索中的一步。我们已将代码和初步的模型权重开源,希望能为社区提供一个可用的基石,并激发更多关于统一表征的讨论。我们期待与业界同仁交流学习,共同推动多模态人工智能的发展。

项目链接

编辑式图像分割:Ming-lite-omni 1.5 破解AI“左右互搏”的隐藏催化剂

· 阅读需 10 分钟
inclusionAI
Ant Group

最近,多模态AI领域风起云涌。从 Qwen-Image 的亮相到 Nano Banana 引发的交互式编辑热潮,图像编辑俨然已是下一个“兵家必争之地”。编辑既要明白“在哪里、是什么、怎么变”(理解图像),又要高质量地创造出结果(生成图像),其丰富的玩法和强交互性,吸引了大量用户和开发者参与讨论。然而,图像编辑除了好玩之外,还有被行业忽略的重要基础价值。

长久以来,我们追求着一个宏大目标:构建一个统一的多模态模型,它既能像科学家一样深刻理解世界(理解能力,如图像分割),又能像艺术家一样自由创造世界(生成能力,如图像编辑)。理想中,这两种能力应相辅相成,形成“理解越深,创造越好;创造越多,理解越透”的良性循环。

但现实却不尽人意。理解与生成,如同AI体内的“左手”和“右手”,往往无法协同工作。 训练模型识别一万张猫的图片,并不会直接提升它画猫的能力,反之亦然。更糟糕的是,在统一模型的训练中,两种任务常常因优化目标不同而陷入“左右互搏”的零和博弈:一次针对理解能力的优化,可能无意中损害了模型的生成质量。

这意味着,我们缺少一个关键的“催化剂”——一种能够促进“左手”与“右手”协同进化的任务机制。

今天,我们想分享一个令人兴奋的发现。我们找到了这样一种催化剂,一个简单而极其有效的任务转换,它不仅打破了僵局,还使模型的两项核心能力均实现了质的飞跃。这个秘诀就是:在统一模型的训练框架中,将经典的分割任务,重新定义为一次图像编辑,不仅让生成式分割能力达到 SOTA,还使编辑一致性实现了飞跃。


困局:16%的分割得分与失控的生成

在找到这个方法之前,我们的统一模型在一个关键任务上举步维艰:生成式分割。我们希望模型能根据指令(如“分割出右上角那只香蕉”),直接“画”出分割掩码图。

图示说明:根据指令进行分割。

结果是,模型在 RefCOCO-val 上的推理分割指标(cIoU)顽固地停留在 16% 上下。

我们分析,根本原因在于数据分布的巨大鸿沟。生成模型习惯了处理自然、连续的图像数据。而分割任务的目标(黑白掩码图)是一种极度抽象、非自然的数据分布。强迫一个“画家”去画黑白掩码图,无异于缘木求鱼。

我们意识到,必须找到一个任务,它既能满足“理解之手”对边界精度的要求,又能让“创造之手”在自己熟悉的领域内大展拳脚。


灵感迸发:让分割“穿上色彩的外衣”

我们的“Ah‑ha moment”来源于一个简单的类比:如果想让孩子准确地圈出一个物体,是让他用铅笔画一个生硬的轮廓更容易,还是让他用彩笔把那个物体涂满颜色更容易?

答案显然是后者。

我们将这个想法应用到AI训练中。我们不再让模型生成抽象的黑白掩码,而是将分割任务转换成一个色彩编辑任务

例如,对于“分割右上角的香蕉”这个指令,我们不再要求模型输出掩码,而是要求它直接在原图上执行一个新的指令:“把右上角的香蕉涂成紫色”、“把右上角的香蕉涂成红色”等等。

图示说明:左侧为原图香蕉,从生成抽象的黑白掩-码(中),到直接在原图上进行色彩编辑(右三)。这个转换让任务的数据分布回归到了自然图像领域。

这个看似微小的改动,却是那个我们梦寐以求的“催化剂”。

  • 对“理解”的促进:为了准确地只给目标香蕉上色而不溢出,模型必须在内部先完成一次完美的、像素级的分割。分割能力从最终目标,变成了完成任务的必要前提。
  • 对“创造”的释放:模型不再处理奇怪的掩码图,而是在做它最擅长的事——图像到图像的编辑。它所有的生成能力,如光影、纹理、边缘融合,都能用来把颜色“涂”得更逼真、更准确。

“左手”和“右手”终于有了一个共同的目标,它们的每一次努力都在互相加强。


效果惊人:从16%到72.4%,以及更可控的编辑能力

当我们用这种新方法重新训练模型后,结果超出了所有人的预期。

1. SoTA级别的分割能力

首先,最直观的变化来自于分割指标。它从之前惨淡的16%,一跃飙升至 72.4%!这是一个超过 350% 的相对提升。

指标的背后,是肉眼可见的质变。在处理复杂的推理分割任务时,我们的模型展现出超越竞品的准确性和场景理解力。

图示说明:我们的模型(右)精准定位并分割了目标主体,Qwen-Image(左二)未能准确定位要分割的目标,Nano-banana(左三)则未能准确分割男士的头部,以及分割的边缘线不够贴合。

图示说明:这个case的指令“please segment the girl with red mask”, 我们的模型(右)精准定位并分割了目标主体,Qwen-Image(左二)未能分割脚部,Nano-banana(左三)则改变了主体尺寸。

在“分割女孩”的案例中,Qwen没有包含脚部,而Nano-banana改变了主体尺寸。在“分割拿雨伞的女人”这类需要推理的案例中,我们的模型能准确找到目标,而竞品则出现了主体识别错误或指令理解偏差。这证明,通过“上色”训练,模型的语义理解与视觉定位能力被深度绑定并共同强化了。

在推理分割指标评估过程中,依托于我们模型在非编辑区域的高度一致性,我们直接通过将涂色编辑结果与原图进行差分计算,获得分割掩码,示例如下:

Ming-Lite-Omni1.5, Qwen-Image-Edit, Nano-banana 差分对比

模型类别模型名称RefCOCO (val)RefCOCO+ (val)RefCOCOg (val)
Vision Specialist
(专用视觉分割模型)
VLT67.556.355.0
CRIS70.562.359.9
LAVT72.762.161.2
PolyFormer-B74.867.667.8
MLLM + SAM
(专用的分割模型)
LISA-7B74.162.466.4
PixelLM-7B73.066.369.3
MLLM + DiT
(生成式模型做分割)
Nano-banana*15.713.914.9
Qwen-Image-Edit*30.328.834.0
Ming-Lite-Omni1.572.462.864.3

评估结果表明,我们的模型在分割任务中的表现已接近专为分割设计的专业模型。在评估过程中,Qwen-Image-Edit 和Nano-banana 在每个测试子集上随机采样 500 个样本进行测试,以降低计算开销,同时保证结果的统计趋势稳定。评估过程中我们发现,Nano-banana 在推理中经常无法准确把握图像分割的意图,因此评价指标相对较低,这可能与训练目标和数据侧重差异有关。

2. 更精准、更可控的编辑能力

这个方法的魅力在于,它不仅治好了分割的“短板”,还反过来极大地增强了模型的通用编辑能力。

因为模型在成千上万次“精确上色”的练习中,学会了对边界前所未有的尊重。这种对细粒度控制的“肌肉记忆”迁移到了所有编辑任务中。我们的编辑精度可控性指标,在背景改变、颜色修改和材质修改等子项上,均分从7.69提升到8.12。

图示说明:指令为“消除图中最右侧男士的领结”。我们的模型(右)精准地移除了目标领结,同时保持了背景马匹等元素的一致性。Qwen(左二)错误地移除了多个领结,且马匹和老虎出现了不一致。Nano-banana(左三)同样在衣服款式的一致性和老虎斑纹的一致性上表现不佳。

3. 身份的一致性保持

在人像编辑中,一个核心痛点是身份(ID)一致性。我们的模型在这方面也表现出色。无论是改变发型,还是调整表情,模型都能很好地保持人物的核心特征。

指令:“头转向左侧”

  • Qwen(左)的ID、肤色存在不一致现象。
  • Nano-banana(中)人物额头与背景处的行人均发生了改变。
  • 我们的模型(右)在转动头部的同时,很好地保持了主体和背景的一致性。

指令:“微笑”

  • Qwen(左)表情变化的同时人物ID也发生了改变。
  • Nano-banana(中)在换表情的同时手部动作出先畸变。
  • 我们的模型(右)很好地遵循了指令,同时保持了ID一致性。

指令:“变换背景”

  • Qwen(左)的ID一致性明显下降,看起来像换了一个人。
  • Nano-banana(中)人物ID保持的不错,但画面结构产生了较大差异。
  • 我们的模型(右)在准确地更换背景的同时,很好地保持了ID、外表的一致性。

ID一致性对比图

更多一致性 Case:


诚实的审视:我们的不足与未来方向

尽管取得了令人鼓舞的进展,但我们深知模型仍有很大的提升空间。特别是在以下几个方面:

  • 大幅度的动作改变:实现从站立到奔跑这样的大姿态变换,仍然是一个巨大的挑战。
  • 复杂指令的跟随能力:对于包含多个步骤或条件的复杂指令,模型的理解和执行能力还有待加强。
  • 指令多样性的支持:扩展模型能理解和执行的指令类型,是我们下一步的重点工作。

结语:寻找下一个“催化剂”

从16%到72.4%,这个故事的核心并非某个复杂的网络结构或海量的新数据,而是一个关于**“任务设计”**的尝试。

我们证明了,与其试图用“胶水”把AI的各种能力勉强粘合在一起,不如去寻找或设计那些本身就是“一体两面”的协同任务。这些任务就像催化剂,能让不同的能力在解决同一个问题的过程中,自然而然地相互促进、共同进化。

“分割即编辑”只是第一个成功的尝试。我们相信,在3D理解、视频生成等更广阔的领域,还隐藏着更多这样的“催化剂”等待我们去发现。

AI的“左手”与“右手”,终于学会了如何优雅地击掌。而这,仅仅是交响乐的序章。

欢迎使用开源的 Ming-lite-omni 1.5 GitHub Page / Demo Page

欢迎我们的新成员—Ring-lite!它推理更有深度,能力更均衡

· 阅读需 7 分钟
inclusionAI
Ant Group

📖 Technical Report | 🤗 Hugging Face| 🤖 ModelScope

概述

我们推出了Ring-lite-2507,该模型是在我们之前发布的轻量级推理模型Ring-lite-2506上的一次全面升级!Ring-lite-2507是一个激活参数为2.75B,总参数为16.8B的MoE大语言模型。此次升级,我们的模型不仅进一步提升了在数学、代码和逻辑任务上的推理能力,同时在知识理解、对齐和智能体等多个广泛使用的通用类评测榜单中取得了卓越的表现。通过我们提出的创新性强化学习算法和多阶段强化学习训练流程,Ring-lite-2507相比最新10B参数以下的Dense推理模型,在仅激活其1/3参数规模的情况下,在各项任务中达到了相当或更具竞争力的性能。

我们提出了一种创新的强化学习训练算法,即Constrained Contextual Computation Policy Optimization(C3PO),旨在解决MoE强化学习训练过程中的不稳定性问题。通过算法-系统协同设计,我们的方法同时提高了训练稳定性和计算吞吐量。此外,我们系统性地研究了长思维链SFT和RL训练之间的动态关系,并提出使用token效率指标来帮助我们探索选择更适合RL训练的微调模型,从而实现了RL训练过程中的性能和效率的双平衡。此外,我们还采用了新型两阶段强化学习的训练范式,以平衡多领域融合数据的训练效果,在增强推理能力的同时,更有效地提升各种下游通用任务的表现。

亮点

  • 🚀 多项任务中的卓越表现: Ring-lite-2507在推理和通用任务上均表现出卓越的性能;
  • 🔥 仅激活2.75B模型参数: Ring-lite-2507是一个基于MoE的大语言模型,仅激活了2.75B模型参数;
  • ⛓️‍💥 算法-系统协同设计: 我们创新性地提出了C3PO训练方法,并采用token效率来平衡RL训练的稳定性和有效性;
  • 🔍 公开可用: 我们的训练数据和模型权重均已公开。

模型评测

我们在两个主要领域对模型进行了全面评估:推理和通用。我们使用了一系列公开评测榜单来衡量模型能力,包括:知识理解、数学、代码、推理 & 智能体,以及对齐任务。

知识理解

BenchmarkRing-lite-2507Ring-lite-2506Qwen3-8B-Thinking
MMLU-Pro (EM)72.5063.4472.56
GPQA-Diamond (Pass@1)69.3563.5162.00
SuperGPQA (EM)40.0513.9740.36
Phybench (Pass@1)28.5129.1922.14

数学

BenchmarkRing-lite-2507Ring-lite-2506Qwen3-8B-Thinking
MATH-500 (Pass@1)97.9596.8097.30
CNMO 2024 (Pass@1)75.0977.2674.57
AIME 2024 (Pass@1)79.7979.0074.90
AIME 2025 (Pass@1)72.9269.5067.19
LiveMathBench (Pass@1)83.3785.0881.90
TheoremQA (Pass@1)70.0070.1968.81
OlympiadBench (math) (Pass@1)80.6482.8680.20

代码

BenchmarkRing-lite-2507Ring-lite-2506Qwen3-8B-Thinking
LiveCodeBench(2408-2505) (Pass@1)60.3559.5355.12
Codeforces(Percentile) (Pass@1)183016731580
Codeforces(Rating)92.1688.0079.44

推理 & 智能体

BenchmarkRing-lite-2507Ring-lite-2506Qwen3-8B-Thinking
DROP (zero-shot F1)89.2760.2187.13
BBH (EM)88.6550.8487.30
ARCPrize (Pass@1)19.003.123.88
MuSR (EM)77.1966.7776.92
BFCL_Live (Pass@1)74.8166.7675.99

对齐

BenchmarkRing-lite-2507Ring-lite-2506Qwen3-8B-Thinking
IFEval (Prompt Strict)84.6654.3485.40
AlignBench v1.1(gpt-4.1)80.9069.6074.70
FoFo (gpt-4-turbo)85.0267.8181.93
ArenaHard (gpt-4.1)88.8556.1286.14

Constrained Contextual Computation Policy Optimization(C3PO)

我们提出了一个创新性的token级强化学习训练算法,Constrained Contextual Computation Policy Optimization(C3PO),该算法旨在通过稳定训练过程中token的吞吐量,从而提升强化学习训练的鲁棒性。与样本级的筛选不同,C3PO在token级别通过采样来形成一个全局固定的token批次,每个训练步骤都保证输入给优化器的token数量一致,从而降低了梯度方差,使得训练更加稳定。

Image description

C3PO

在蒸馏和强化学习之间平衡token效率

尽管蒸馏训练在很多情况下表现出优秀的性能,但我们发现,与RL训练相比,它通常需要更多的训练迭代才能达到相当的性能。此外,我们观察到,蒸馏模型的训练迭代次数会显著影响RL训练中熵损失的走势,进而影响了RL的探索空间。从实验上来看,模型经过过多的SFT训练轮次可能会导致RL熵迅速崩溃,另一方面,SFT阶段训练不足也不可避免地会导致性能下降。为了系统性地量化最优SFT训练的程度,我们提出采用token效率指标来动态指导更适合强化学习的起始模型。

训练数据

为构建一个高质量的强化学习训练数据集,我们搭建了一个全面而细致的数据处理链路。这个链路包括多个关键阶段,如数据清洗、答案验证和数据标注等,从而确保我们的训练数据免于数据污染,同时具有信息量,更适用于强化学习训练。

Image description

Data Pipeline

训练流程

Image description

Training Pipeline

推理强化学习

与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、代码和科学数据来扩展了我们的推理数据集。具体来说,我们采用了67K个数学问题、32K个代码问题和9.9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、Countdown、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。

通用强化学习

除了推理任务之外,我们的Ring-lite-2507在训练过程中广泛补充了用于RL训练的通用数据集。我们的通用RL训练不仅没有牺牲在推理任务上的强劲表现,同时,它在广泛的通用榜单评测中均展现了强大的文本理解以及通用任务能力。

我们的通用强化学习训练数据中包括了指令遵循、问答、文本摘要等多个不同任务。对于开放式问题,我们采用了一个通用奖励模型来计算奖励分数。此外,我们还集成了一个基于规则的验证器来处理易于验证的通用问题,例如指令遵循任务等。

引用

@misc{lingteam2025ringlitescalablereasoningc3postabilized,
title={Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs},
author={Ling Team and Bin Hu and Cai Chen and Deng Zhao and Ding Liu and Dingnan Jin and Feng Zhu and Hao Dai and Hongzhi Luan and Jia Guo and Jiaming Liu and Jiewei Wu and Jun Mei and Jun Zhou and Junbo Zhao and Junwu Xiong and Kaihong Zhang and Kuan Xu and Lei Liang and Liang Jiang and Liangcheng Fu and Longfei Zheng and Qiang Gao and Qing Cui and Quan Wan and Shaomian Zheng and Shuaicheng Li and Tongkai Yang and Wang Ren and Xiaodong Yan and Xiaopei Wan and Xiaoyun Feng and Xin Zhao and Xinxing Yang and Xinyu Kong and Xuemin Yang and Yang Li and Yingting Wu and Yongkang Liu and Zhankai Xu and Zhenduo Zhang and Zhenglei Zhou and Zhenyu Huang and Zhiqiang Zhang and Zihao Wang and Zujie Wen},
year={2025},
eprint={2506.14731},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2506.14731},
}

Ming-lite-omni v1.5:全能模型再升级,效果与体验双优化

· 阅读需 6 分钟
inclusionAI
Ant Group

GITHUB 🤗 Hugging Face| 🤖 ModelScope

本次发布的 Ming-lite-omni V1.5 是对 Ming-lite-omni(Github) 全模态能力的一次全面升级, 在包括图文理解、文档理解、视频理解、语音理解和合成、图像生成和编辑等任务上均有明显提升。Ming-lite-omni V1.5 基于Ling-lite-1.5 构建,总参数20.3B, MoE部分激活参数为3B。与各领域同等规模的业界领先模型相比,在各模态基准测试中展现出极具竞争力的结果:

Image description

性能对比图

Ming-lite-omni v1.5能力介绍:三大维度全面优化,效果与体验双提升!

可控图像生成:像素级掌控,创意无限

Ming-lite-omni v1.5 重点优化了图像编辑的 场景一致性(Scene Consistency)、ID 一致性(Character / Style Consistency),在人物图像编辑时,在场景和人物ID 保持上展现出明显的优势,同时拓展了对生成式分割、深度预测、目标检测 以及 边缘轮廓生成 等感知任务的支持。

Image description
生成式图像分割
User
Given the following instructions: little girl, pink, your monitors colors off friend p pink shirt girl; please perform referring segmentation on this image.
Ming-lite-omni v1.5
User
Please segment different classes in this image.
Ming-lite-omni v1.5
User
Please segment different instances in this image.
Ming-lite-omni v1.5

深度及边缘检测

原图生成的深度图生成的检测框生成的边缘轮廓

音视频交互理解:音视频全线提升,理解力MAX!

体验对齐优化:智能交互更懂你,沟通无障碍

User
这张图片看起来设计感很强烈,可以详细描述一下它的各个设计元素?
Ming-lite-omni
这张图片展示了一款高端游戏鼠标,具有现代感和科技感的设计。鼠标主体为黑色,表面光滑且具有金属质感。鼠标顶部有一个蓝色的发光标志,标志下方是鼠标滚轮和左右按键区域。鼠标侧面有蓝色的灯光装饰,增加了视觉吸引力。鼠标底部有防滑纹理设计,确保使用时的稳定性。整体设计简洁而富有未来感,适合游戏玩家使用。
Ming-lite-omni v1.5
这张图片展示了一款设计感强烈的游戏鼠标,具有以下设计元素:
1. **颜色和材质**: - 鼠标主体为黑色,表面光滑且具有金属质感。 - 鼠标边缘和按钮部分有蓝色LED灯带,增加了科技感和视觉吸引力。
2. **形状和结构**: - 鼠标整体呈流线型设计,顶部略微倾斜,便于手部自然放置。 - 鼠标侧面有明显的曲线设计,符合人体工程学,提供舒适的握持感。
3. **按钮和滚轮**: - 鼠标左侧有一个滚轮,滚轮上方有蓝色LED灯带。 - 鼠标右侧有额外的按钮,这些按钮也有蓝色LED灯带,增加了功能性和美观性。
4. **品牌标识**: - 鼠标底部中央有一个发光的“G”标志,这是该品牌的标志性设计元素。
5. **灯光效果**: - 鼠标上的蓝色LED灯带在暗色背景下显得尤为突出,增强了科技感和未来感。
6. **纹理和细节**: - 鼠标顶部有纹理设计,可能是为了增加防滑效果。 - 鼠标侧面有细长的纹理设计,增加了视觉上的层次感。
整体来看,这款鼠标的设计结合了现代科技感和人体工程学设计,既美观又实用,适合游戏玩家使用。
User
图中的书法为什么好?
Ming-lite-omni
这幅书法作品展示了高超的书法技巧和深厚的文化底蕴。笔法流畅自然,字形结构严谨,布局合理,体现了书法家的深厚功力和艺术修养。
Ming-lite-omni v1.5
这幅书法作品展示了几个显著的特点,使其成为一件优秀的书法作品:
1. **笔法精湛**:书法的笔法流畅自然,线条粗细变化丰富,表现出书法家的深厚功力和熟练技巧。
2. **结构严谨**:每个字的结构都经过精心设计,笔画之间的衔接自然,字与字之间保持了良好的平衡和协调。
3. **章法布局**:整幅作品的章法布局合理,行距和字距均匀,给人一种整齐有序的感觉。
4. **墨色变化**:墨色的浓淡变化自然,增添了作品的层次感和立体感。
5. **内容优美**:书法内容是一篇优美的古文,文字内容富有哲理和文学价值,增加了作品的文化内涵。
6. **印章点缀**:作品上有红色的印章,印章的使用不仅增加了作品的装饰性,还起到了点缀和平衡的作用。
这些特点共同构成了这幅书法作品的高超艺术价值,使其成为一件值得欣赏和学习的佳作。
User
图中这款手机适合给父母买吗?
Ming-lite-omni
这款手机外观简约时尚,适合追求简约风格的父母使用。相机配置也较为先进,适合喜欢拍照的用户。
Ming-lite-omni v1.5
这款手机适合给父母购买,原因如下:
1. **外观设计**:手机采用简约时尚的设计,白色机身显得干净利落,符合现代审美。
2. **摄像头配置**:后置摄像头设计独特,排列整齐,可能提供良好的拍照体验。
3. **品牌**:荣耀(Honor)品牌在智能手机市场上有良好的口碑,提供稳定可靠的产品。
4. **功能**:通常这类手机会配备大容量电池和长续航能力,适合日常使用。
5. **易用性**:可能提供简洁的用户界面和易于操作的功能,适合不太熟悉复杂操作的用户。
6. **性价比**:荣耀手机通常以高性价比著称,适合预算有限但希望获得良好体验的用户。
当然,具体是否适合还需考虑父母的实际需求和偏好。
User
如何使用图中软件购买机票?请列出具体操作步骤
Ming-lite-omni
使用图中软件购买机票的具体操作步骤如下:
1. 打开携程app。 2. 点击“机票”选项。 3. 在机票页面选择出发地、目的地、出发日期和返回日期。 4. 点击搜索按钮,查看可用的航班信息。 5. 选择合适的航班后,点击“预订”按钮。 6. 填写乘客信息并选择支付方式。 7. 确认订单信息并提交支付,完成购票。
Ming-lite-omni v1.5
使用携程软件购买机票的具体操作步骤如下:
1. **下载并安装携程App**: - 如果您还没有安装携程App,可以在应用商店(如苹果App Store或安卓应用市场)搜索“携程旅行”并下载安装。
2. **打开携程App**: - 安装完成后,打开携程App。
3. **选择“机票”选项**: - 在首页的导航栏中,点击“机票”选项。
4. **输入出发地和目的地**: - 在机票预订页面,输入您的出发地和目的地。
5. **选择出发日期和返回日期**: - 选择您的出发日期和返回日期(如果是往返票)。
6. **选择乘客信息**: - 输入乘客人数和座位类型(成人、儿童、婴儿)。
7. **选择航班**: - 浏览并选择您喜欢的航班。
8. **填写乘客信息**: - 输入乘客的姓名、身份证号码、联系方式等信息。
9. **选择支付方式**: - 选择您喜欢的支付方式(如支付宝、微信支付、银行卡等)。
10. **确认订单并支付**: - 确认订单信息无误后,点击“支付”按钮完成支付。
11. **接收电子机票**: - 支付成功后,您将收到电子机票,可以通过App内的“我的订单”查看或下载。
通过以上步骤,您就可以使用携程App轻松购买机票了。
User
根据图表计算样本之间的 Δct 在哪一个引物下相差最小? | 根据图表计算样本之间的 Δct 在 cGAS-qF+qR 引物下相差最小。(图片来源:互联网公开-舒桐科技公众号)
Ming-lite-omni
根据图表计算样本之间的 Δct 在 cGAS-qF+qR 引物下相差最小。
Ming-lite-omni v1.5
在 **EGFP-cGAS单克隆** 引物下,样本之间的 Δct 相差最小。

**计算过程:**
**1. 理解 Δct 的含义:** Δct 是目标基因(cGAS-qF+qR 或 EGFP-cGAS)与内参基因(cTubulin)的相对表达量差值。Δct 越小,说明目标基因与内参基因的表达量差异越小。
**2. 比较不同引物下的 Δct:**
- **cGAS-qF+qR 引物:** - 野生型:Δct = 8.06 - EGFP-cGAS单克隆:Δct = -0.15 - 差异:8.06 - (-0.15) = 8.21
- **EGFP-cGAS单克隆 引物:** - 野生型:Δct = 10.44 - EGFP-cGAS单克隆:Δct = -2.9 - 差异:10.44 - (-2.9) = 13.34
- **EGFP-cGAS-qF+qR 引物:** - 野生型:Δct = 21.43 - EGFP-cGAS单克隆:Δct = -13.45 - 差异:21.43 - (-13.45) = 34.88
**3. 结论:** 在 **EGFP-cGAS单克隆** 引物下,样本之间的 Δct 差异最小(Δct 差异为 13.34),说明该引物下样本之间的表达量差异最小。

**总结:** 在 **EGFP-cGAS单克隆** 引物下,样本之间的 Δct 相差最小。

模型架构升级与能力评测

Ming-lite-omni v1.5 模型架构如下,主题参考了Ming-lite-omni v1版本的结构,区别在于为了增强图像编辑人物 和 场景一致性,升级Vision head 支持参考图特征输入。

Image description

模型架构图

模型能力上重点在全模态理解能力、精准的视觉编辑控制 以及 用户体验 三个方面进行优化升级。

增强的全模态理解能力

得益于数据质量优化,Ming-lite-omni v1.5 在视觉文本理解(包括图文理解、文档理解、视频理解)和语音理解等任务上均有明显提升,达到相同规模的业界领先水平。

视觉文本理解

Task TypeDatasetQwen2.5-VL-7BMing-lite-omniMing-lite-omni v1.5
OpenCompass图文AI2D84.3683.184.91
HallusionBench55.7755.054.59
MMBench_TEST_V1182.7580.880.73
MMMU56.5656.354.33
MMStar65.2764.765.07
MMVet71.6171.373.99
MathVista68.1071.672.00
OCRBench87.8088.488.90
Average71.571.471.8
视频理解VideoMME(w/o subs)65.1063.467.07
VideoMME(w/ subs)71.6066.0172.59
VideoMME(avg)68.3567.769.83
MVBench69.6067.769.43
LongVideoBench56.0056.659.54
OvOBench51.1048.4852.17
Average61.2658.8962.74
文档理解ChartQA_test87.2485.188.84
DocVQA_test95.579393.68
TextVQA_val85.0682.882.27
OCRBench87.888.488.9
Average88.9187.3288.42

语音理解

ModelAverage(Open-ended QA)AlpacaEvalCommonEvalSD-QAMMSUOpenBookQAIFEvalAdvBench
Ming-lite-omni v1.54.4744.6484.361.1645.7765.93455.59998.076
Ming-lite-omni4.344.634.0658.8447.5361.9858.3699.04
MiniCPM-o4.2854.424.1550.7254.7878.0249.2597.69
Kimi-Audio4.2154.463.9763.1262.1783.5261.10100.00
Qwen2.5-Omni4.214.493.9355.7161.3281.1052.8799.42
GLM-4-Voice3.774.063.4843.3140.1152.9724.9188.08

精准的视觉编辑控制

Ming-lite-omni v1.5 针对图像编辑时的人物ID及场景ID一致性问题采用以下优化策略:

  1. 引入ID和场景一致性损失,通过增大目标图编辑区域的权重 和 参考图非编辑区域的参考强度, 同时降低参考图编辑区域的参考强度 以增强图像编辑一致性
  2. 引入生成式检测分割任务增强感知能力。通过支持生成式分割和关键点检测,提升模型对画面细节和空间关系的理解,增强编辑和生成过程的结构可控性,显著提高评测指标中与位置、结构、数量相关的得分。
  3. 引入多任务协同学习策略。通过联合训练链路实现生成与编辑的相互促进,将分割任务转化为彩色上色编辑任务,显著提升分割指标和图像局部编辑的精度与可控性,使编辑区域边缘更光滑。 基于以上优化,Ming-lite-omni v1.5在图像编辑能力明显提升,GenEval上达到0.87。
1-Obj2-ObjCountingColorsPositionColor AttrAvg.
Ming-lite-omni0.990.770.680.780.460.420.64
Ming-lite-omni v1.50.990.930.860.870.900.660.87

优化的用户体验

得益于高质量的对齐偏好数据构建, Ming-lite-omni v1.5 在图文问答的内容准确性、相关性、格式美观性以及表述流畅性方面相比领先模型展现出一定优势, Ming-lite-omni v1.5在内部对抗评测集上相比Ming-lite-omni v1 胜和率为 87.07%, 使用体验得到了明显优化。

体验评测维度Qwen2.5-VL-7BMing-lite-omni V1.5
相关性4.3084.5
流畅性4.7654.91
内容丰富性3.8283.69
格式合理性4.7274.8
正确性3.7413.92
均分4.2744.365

开始使用 Ming-lite-omni v1.5

Ming-lite-omni v1.5的模型和代码已开源,诚邀大家试用、反馈和交流。值得期待的是,我们即将发布量化加速版本的Ming-lite-omni,该版本将不仅进一步优化全模态效果,还使Ming-lite-omni更加轻量化,同时强化多模推理和生成能力。欢迎持续关注!

M2-Reasoning: 赋予多模态大语言模型统一的通用与空间推理能力

· 阅读需 7 分钟
inclusionAI
Ant Group

📖 Technical Report | 🤗 Hugging Face| 🤖 ModelScope

介绍

我们推出了 M2-Reasoning-7B,一个在通用与空间推理方面都表现卓越的模型。我们的方法融合了两项关键创新:(1) 一个全新的数据管道,生成了29.42万个高质量数据样本(其中16.8万用于冷启动微调,12.62万用于RLVR)。这些数据具有逻辑连贯的推理轨迹,并经过了全面评估。(2) 一种动态多任务训练策略,通过逐步优化来缓解数据间的冲突,并利用针对特定任务的奖励机制来提供定制化的激励信号。通过这种精心筛选的数据与先进训练方法的结合,M2-Reasoning-7B 在8个基准测试中创造了新的业界最佳水平(SOTA),在通用和空间推理领域均展现出卓越的性能。

📌 更新

主要特性

  • 高质量的数据构建流程:我们设计并实现了一个多阶段的数据合成与筛选流程,能够生成大量的推理数据。
  • 动态多任务训练策略:我们提出了一种高效的训练策略,能够有效应对数据异构性问题。该策略包括逐步动态优化,以缓解不同数据源之间的冲突,以及任务特定的奖励机制,提供定制化的激励信号。
  • 统一的通用与空间推理模型:我们提出了 M2-Reasoning-7B,这是一款专为通用推理与空间推理任务而设计的多模态大语言模型(MLLM)。在8个不同的基准测试中进行的广泛评估表明,借助我们定制的数据和训练流程,M2-Reasoning在通用推理和空间推理领域均取得了新的SOTA成果。

评测

我们在通用推理和空间推理对模型进行了全面评估。我们的评估使用了一组多样化的公开基准测试,这些测试根据它们主要衡量的能力进行分类:

  • 通用推理(数学与逻辑):为了评估这一能力,我们采用了六项基准测试:MathVista、MathVision、MathVerse、DynaMath、WeMath 和 LogicVista。
ModelsMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaAvg. (Δ)
基础规模通用模型
InternVL3-8B70.530.038.525.739.544.541.4
InternVL3-9B69.029.337.925.134.849.040.8
Qwen2.5-VL-7B68.125.441.121.836.247.940.1
MUG-U-7B74.826.135.417.226.539.836.6
SAIL-VL-1.6-8B74.223.233.414.029.641.436.0
基础规模推理模型
WeThink-VL-7B71.626.044.224.848.051.244.3 (+4.2)
Taichu-VLR-7B72.327.146.723.044.048.343.6
VLAA-Thinker-7B68.026.448.222.441.548.542.5 (+2.4)
URSA-8B-PS-GRPO67.831.841.522.438.344.741.1 (+8.2)
Ovis2-8B71.825.942.320.427.239.437.8
本文模型
Base Model70.225.930.520.227.237.835.5
M2-Reasoning-CI-7B71.729.242.125.042.846.842.9 (+7.4)
M2-Reasoning-7B75.031.544.726.841.850.045.0 (+9.5)
  • 空间推理:我们使用两项基准来评估这一能力:CV Bench和VSI Bench

    • CV-Bench:
    ModelsCountRelationDepthDistanceAvg.
    大规模模型
    GPT-4O65.985.787.878.278.9
    Gemini-1.5-pro70.485.282.472.877.4
    基础规模模型
    InternVL3-8B74.090.684.381.082.0
    Qwen2.5-VL-7B-Instruct65.286.670.679.875.0
    LLava-NEXT-Video-7B59.377.071.354.765.2
    本文模型
    M2-Reasoning-7B66.692.889.384.382.3
    • VSI-Bench:
    OCADOSRSRDsRDrRPAOAvg.
    大规模模型
    Gemini-1.5-pro56.230.964.143.651.346.336.034.645.4
    GPT-4O46.25.343.838.237.041.331.528.534.0
    基础规模模型
    InternVL3-8B68.139.048.433.648.336.427.335.442.1
    Video-R1-7B--------37.1
    Qwen2.5-VL-7B-Instruct37.720.149.737.438.540.431.432.035.9
    LLava-NeXT-Video-7B48.514.047.824.243.542.434.030.635.6
    本文模型
    M2-Reasoning-7B41.034.060.955.440.747.329.928.842.3

模型下载

您可以从 Hugging FaceModelScope 两个平台下载模型。 如果您位于中国大陆,我们建议您从 ModelScope 下载模型。

使用样例

基础环境为:python=3.10torch=2.6.0+cu124transformers=4.49.0

我们提供了一个简单的示例,展示如何使用本模型。

import os
import torch

from transformers import (
AutoProcessor,
AutoTokenizer,
)

import warnings
import argparse
from modeling_bailing_qwen2_5 import Bailing_qwen2_5NativeForConditionalGeneration
from processing_bailing_qwen2_5 import Bailing_qwen2_5Processor

warnings.filterwarnings("ignore")

class BailingMMInfer:
def __init__(self,
model_name_or_path,
device="cuda",
max_pixels=None,
min_pixels=None,
video_max_pixels=768 * 28 * 28,
video_min_pixels=128 * 28 * 28,
generation_config=None
):
super().__init__()
self.model_name_or_path = model_name_or_path

self.device = device

self.device_map = device

self.video_max_pixels = video_max_pixels if video_max_pixels is not None else 768 * 28 * 28
self.video_min_pixels = video_min_pixels if video_min_pixels is not None else 128 * 28 * 28

self.model, self.tokenizer, self.processor = self.load_model_processor()
if max_pixels is not None:
self.processor.max_pixels = max_pixels
if min_pixels is not None:
self.processor.min_pixels = min_pixels
if generation_config is None:
generation_config = {
"num_beams": 1,
"do_sample": True,
"temperature": 0.9
}

self.generation_config = generation_config


def load_model_processor(self):

model = Bailing_qwen2_5NativeForConditionalGeneration.from_pretrained(
self.model_name_or_path,
torch_dtype=torch.bfloat16,
device_map=self.device_map,
_attn_implementation="flash_attention_2"
).eval()

tokenizer = AutoTokenizer.from_pretrained(self.model_name_or_path, add_bos_token=True, trust_remote_code=True)
processor = Bailing_qwen2_5Processor.from_pretrained(self.model_name_or_path, trust_remote_code=True)

return model, tokenizer, processor

def generate(self, messages, max_new_tokens=512):
text = self.processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True, use_system=True
)

image_inputs, video_inputs = self.processor.process_vision_info(messages)


inputs = self.processor(
text=[text],
images=image_inputs,
videos=video_inputs,
return_tensors="pt",
)
# print(inputs)
print(self.tokenizer.decode(inputs['input_ids'][0]))

inputs = inputs.to(self.device)

for k in inputs.keys():
if k == "pixel_values" or k == "pixel_values_videos":
inputs[k] = inputs[k].to(dtype=torch.bfloat16)

with torch.no_grad():
generated_ids = self.model.generate(
inputs,
max_new_tokens=max_new_tokens,
eos_token_id=self.processor.tokenizer.eos_token_id,
**self.generation_config,
)

generated_ids_trimmed = [
out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]

output_text = self.processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=False, clean_up_tokenization_spaces=False
)[0]

return output_text

if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument('--model_name_or_path', type=str, default="inclusionAI/M2-Reasoning")
parser.add_argument('--max_pixels', type=int, default=401408)
parser.add_argument('--min_pixels', type=int, default=401408)
parser.add_argument('--max_new_tokens', type=int, default=4096)

args = parser.parse_args()

device = "cuda" if torch.cuda.is_available() else "cpu"
# model_name_or_path = os.path.join(args.input_dir, args.model_name_or_path)
bailing2 = BailingMMInfer(
args.model_name_or_path,
device=device,
max_pixels=args.max_pixels,
min_pixels=args.min_pixels
)

messages = [
{
"role": "system",
"content": [
{"type": "text", "text": "You are a helpful assistant. When the user asks a question, your response must include two parts: first, the reasoning process enclosed in <think>...</think> tags, then the final answer enclosed in <answer>...</answer> tags. The critical answer or key result should be placed within \\boxed{}."}]},
{
"role": "user",
"content": [
{"type": "image", "image": "./assets/example1.png"},
{"type": "text", "text": "\nQuestion:\n\nRhombus $QRST$ has an area of 137.9 square meters. If $RT$ is 12.2 meters, find $QS$.\nA. 11.3\nB. 22.4\nC. 22.6\nD. 25.6"},
],
},
]
output_text = bailing2.generate(messages, max_new_tokens=args.max_new_tokens)
print(output_text)



'''
[Output]:

<think>
To find the length of \( QS \) in the rhombus \( QRST \), we can use the formula for the area of a rhombus, which is given by:

\[
\text{Area} = \frac{1}{2} \times d_1 \times d_2
\]

where \( d_1 \) and \( d_2 \) are the lengths of the diagonals. In this problem, we are given:
- The area of the rhombus is 137.9 square meters.
- One of the diagonals,

ABench: An Evolving Open-Source Benchmark

· 阅读需 2 分钟
inclusionAI
Ant Group
GITHUB

🌟 Overview

ABench is an evolving open-source benchmark suite designed to rigorously evaluate and enhance Large Language Models (LLMs) on complex cross-domain tasks. By targeting current model weaknesses, ABench provides systematic challenges in high-difficulty specialized domains, including physics, actuarial science, logical reasoning, law, and psychology.

🎯 Core Objectives

  1. Address Evaluation Gaps: Design high-differentiation assessment tasks targeting underperforming question types
  2. Establish Unified Standards: Create reliable, comparable benchmarks for multi-domain LLM evaluation
  3. Expand Capability Boundaries: Drive continuous optimization of knowledge systems and reasoning mechanisms through challenging innovative problems

📊 Dataset Release Status

DomainDescriptionStatus
Physics500 university/competition-level physics problems (400 static + 100 dynamic parametric variants) covering 10+ fields from classical mechanics to modern physics✅ Released
ActuaryCurated actuarial exam problems covering core topics: probability statistics, financial mathematics, life/non-life insurance, actuarial models, and risk management✅ Released
LogicHigh-differentiation logical reasoning problems from authoritative tests (LSAT/GMAT/GRE/SBI/Chinese Civil Service Exam)🔄 In Preparation
PsychologyPsychological case studies and research questions (objective/subjective) evaluating understanding of human behavior and theories🔄 In Preparation
LawAuthoritative judicial exam materials covering core legal domains: criminal/civil/administrative/procedural/international law🔄 In Preparation

AWorld:为智能体自我演进提供运行环境

· 阅读需 8 分钟
inclusionAI
Ant Group

"自我认知:最难的问题不是在有局限的情况下解决问题,而是发现自己的局限性" Twitter 关注 微信二维码 Discord 许可证: MIT DeepWiki

目录

  • 最新动态 — 项目最新更新与公告。
  • 简介 — 项目概述与目标。
  • 安装 — 步骤详尽的安装指南。
  • 快速开始 — 使用示例,快速上手。
  • 架构 — 多智能体系统设计解析。
  • 演示 — 项目实际运行演示。
  • 贡献 — 如何参与和贡献代码。
  • 许可证 — 项目授权信息。

最新动态

  • 🦤 [2025/07/07] AWorld 作为运行时现已准备好进行智能体训练。详情请参见自我改进部分。我们在 GAIA 测试中的得分已更新至 77.08。在演示部分了解如何构建 GAIA 运行时。
  • 🦩 [2025/06/19] GAIA 测试分数提升至 72.43,新增本地运行模式,详见 ./README-local.md
  • 🐳 [2025/05/22] GAIA 评测、MCP 工具、AWorld 及模型现已集成于单一 Docker 镜像,详见 ./README-docker.md演示视频
  • 🥳 [2025/05/13] 浏览器场景状态管理升级,视频处理 MCP server 增强,GAIA 验证分数 77.58(Pass@1 = 61.8),继续保持开源框架第一。详见 GAIA 排行榜
  • ✨ [2025/04/23] GAIA 基准测试排名第三(69.7 分),Pass@1 = 58.8,开源框架第一。可用 python examples/gaia/run.py 复现。

简介

AWorld(Agent World)是一个多智能体 playground,支持智能体协作与自我提升。该框架适用于产品原型验证、基础模型训练、多智能体系统(MAS)设计元学习等多种场景。

框架主要特性

1. 智能体构建2. 拓扑编排3. 环境支持
• ✅ 支持多种模型服务
• ✅ 集成 MCP 工具
• ✅ 支持自定义工具
• ✅ 封装模型与工具间协议
• ✅ 封装智能体间协议
• ✅ 运行时状态管理
• ✅ 状态追踪支持
• ✅ 分布式高并发训练环境

多样化运行时的自我演进

通过构建多样化的运行时环境(包含工具、智能体和模型),AWorld 旨在发现模型的局限性并推动智能向前发展。在这里,我们将记录我们的一些工作来证明我们方法的有效性。

类别运行时指标关键信息
工具使用函数调用运行时即将发布在 BFCL 基准测试中达到竞争性 SOTA 水平
智能体框架
数据集
模型
论文
博客
代码
深度搜索搜索运行时即将发布在 HotpotQA 基准测试中达到 SOTA 水平
Agent Framework
数据集
模型
论文
代码

GAIA 智能体运行时演示

GAIA 智能体运行时演示

这里我们首先介绍 GAIA 运行时,它可以在您的本地计算机上构建。它可以用于:

  • 产品原型验证
  • 自我改进训练(详情请参见训练流程

按照 ./examples/gaia/README.md 中的说明来初始化 GAIA 智能体运行时并运行上面显示的演示。

想构建自己的多智能体系统?请参考下方详细教程! ⬇️⬇️⬇️

安装

Python>=3.11:

git clone https://github.com/inclusionAI/AWorld
cd AWorld
python setup.py install

快速开始

快速指南:(1)创建你的第一个智能体;(2)为其配置 MCP 工具;(3)添加队友;(4)通过团队协作完成用户任务。

from aworld.config.conf import AgentConfig
from aworld.agents.llm_agent import Agent
from aworld.runner import Runners
from aworld.core.agent.swarm import Swarm

if __name__ == '__main__':
agent_config = AgentConfig(
llm_provider="openai",
llm_model_name="gpt-4o",

# 可通过环境变量或直接配置
# llm_api_key="YOUR_API_KEY",
# llm_base_url="https://api.openai.com/v1"
)

# 在此注册 MCP 工具,或单独配置文件
mcp_config = {
"mcpServers": {
"amap-amap-sse": {
"type": "sse",
"url": "https://mcp.amap.com/sse?key=YOUR_API_KEY",
"timeout": 5,
"sse_read_timeout": 300
}
}
}

# 创建配备 MCP 工具的智能体
search = Agent(
conf=agent_config,
name="search_agent",
system_prompt="You are a helpful agent.",
mcp_servers=["amap-amap-sse"], # MCP server name for agent to use
mcp_config=mcp_config
)

# 添加队友
summary = Agent(
conf=agent_config,
name="summary_agent",
system_prompt="You are a helpful summary agent."
)

# 团队协作,默认静态工作流
swarm = Swarm(search, summary)

# 运行智能体团队
res = Runners.sync_run(input="Hotels within 1 kilometer of West Lake in Hangzhou",
swarm=swarm)
print(res)

架构

AWorld 旨在实现两个核心目标:(1)高效的前向流程;(2)多样化的后向流程,包括基础模型训练和系统设计元学习等。

前向流程

运行时示意图,展示 Agent1 接收用户请求时的消息流转。

后向流程

训练时,AWorld 分布式环境下的动作-状态 rollout 示意。

演示

运行预定义智能体(如 演示代码)。下方为多种智能体配置和环境下的演示视频。

模式类型演示
单智能体浏览器场景AWorld Browser Demo on YouTube

▶️ YouTube 浏览器演示

手机场景AWorld Mobile Demo on YouTube

▶️ YouTube 手机演示

多智能体协作团队AWorld Travel Demo on YouTube

▶️ YouTube 旅行演

对抗团队AWorld Debate Demo on YouTube

▶️ YouTube 辩论演示

混合团队敬请期待 🚀

贡献

我们热忱欢迎开发者加入 AWorld 的建设!无论是完善框架、修复 bug 还是添加新特性,您的贡献都非常宝贵。如需学术引用或联系,请使用以下 BibTeX:

@software{aworld2025,
author = {Agent Team at InclusionAI},
title = {AWorld: Enabling Agent Self-Improvement through Interactive Experience with Dynamic Runtime},
year = {2025},
url = {https://github.com/inclusionAI/AWorld},
version = {0.1.0},
publisher = {GitHub},
email = {chenyi.zcy at antgroup.com}
}

许可证

本项目采用 MIT 许可证,详见 LICENSE

Star 历史