Ming-Omni-TTS: Simple and Efficient Unified Generation of Speech, Music, and Sound with Precise Control

The Introduction Video of Ming-Omni-TTS

🚀 Featured Abilities

Ming-omni-tts is a high-performance unified audio generation model that achieves precise control over speech attributes and enables single-channel synthesis of speech, environmental sounds, and music. Powered by a custom 12.5Hz continuous tokenizer and Patch-by-Patch compression, it delivers competitive inference efficiency (3.1Hz). Additionally, the model features robust text normalization capabilities for the accurate and natural narration of complex mathematical and chemical expressions.

🔊 Fine-grained Vocal Control: Enables precise control over speech rate, pitch, volume, emotion, and dialects via simple instructions. It achieves 93% accuracy for Cantonese and 46.7% for emotional control, outperforming CosyVoice3.
🌌 Intelligent Voice Design: Features 100+ premium built-in voices and supports zero-shot voice design through natural language descriptions. Its performance on the Instruct-TTS-Eval-zh benchmark is on par with Qwen3-TTS.
🎶 Immersive Unified Generation: The industry’s first autoregressive model to jointly generate speech, ambient sound, and music in a single channel. Built on a custom 12.5Hz continuous tokenizer and a DiT head architecture, it delivers a seamless, “in-the-scene” auditory experience.
⚡ High-efficiency Inference: Introduces a “Patch-by-Patch” compression strategy that reduces the LLM inference frame rate to 3.1Hz. This significantly cuts latency and enables podcast-style audio generation while preserving naturalness and audio detail.
🧪 Professional Text Normalization: The model accurately parses and narrates complex formats, including mathematical expressions and chemical equations, ensuring natural-sounding output for specialized applications.

Model Structure

Ming-omni-tts is a unified audio language model for the generation of speech, music, and sound, based on a unified continuous audio tokenizer.

Unified Continuous Audio Tokenizer.

Unified Audio Language Model for Speech, Music and Sound Generation.

Benchmark Evaluations

Table showing benchmark evaluation results.

Voice Control – Support Structured and Natural Command Control

Basic Attributes Control: Speed, Volume and Pitch Control for Voice Generating

Target Text	Instruction1	Instruction2
导航开始，全程二十五公里，预计需要十二分钟。	语速：慢速	语速：快速
烟雨弥漫下，山环绕着水耸立着，水环绕着山流淌着。	语速慢一点	语速快一点
目前共享出行市场处于高速增长阶段。	音量：低	音量：高
北京在出行规模，城市影响力方面表现优异。	音量尽量低一点	音量尽量高一点
他们脱掉笨重的冬衣，走起路来腰杆挺直步履轻盈。	基频：低	基频：高
自动驾驶将大幅提升出行安全，效率。	基频低一点	基频高一点

Same Dialect/Cross-Dialect Control: Generating Cantonese and Sichuanese from Mandarin and Native Prompts

Instruction	Conversion Type	Target Text
方言：广粤话	广粤话 -> 广粤话	佢系头大冇脑脑大生草种
方言：广粤话	广粤话 -> 广粤话	今个周末全场货品低至五折，数量有限，卖晒就冇喇。
请用广粤话表达	广粤话 -> 广粤话	我觉得社会企业同个人都有责任
用广粤语说，越地道越好。	普通话 -> 广粤话	你嚟探我，我真系好感动，好耐冇见你啦！
以广粤话的口语风格来表达。	普通话 -> 广粤话	快啲啦，唔好再拖拖拉拉，大家都等紧你开会呀
方言：川渝话	川渝话 -> 川渝话	你要自己打扮，不穿咋个晓得穿起漂不漂亮嘛？看我们这新款多时尚。
方言：川渝话	川渝话 -> 川渝话	赛尔号那个时候，才出来的时候，还是他那个机制，还是特别好耍的。
请用川渝话表达	川渝话 -> 川渝话	哎，刚刚晚上想吃点啥子？煮点火锅要得。
模仿川渝话的语气来表达	普通话 -> 川渝话	你晓不晓得？你啥我都喜欢，嗯，就是有一点不喜欢装。
挑战一下用川渝话的味儿来朗读	普通话 -> 川渝话	你那哈屋头还有电脑，那时候就已经先进了。

Cross-Emotion Control: Cross-Emotion Synthesis Using a Single Neutral Prompt

Instruction	Conversion Type	Target Text
情感: 高兴	中性 -> 高兴	If these examinations are held orally, they may be known colloquially as “orals”.
情感: 愤怒	中性 -> 愤怒	I’m done arguing with you. You’re not worth my time!
情感: 愤怒	中性 -> 愤怒	In cities, driving speeds are set by which lane a driver is in.
情感: 悲伤	中性 -> 悲伤	Everything has changed. The promises and dreams we once had are shattered. How should I face this?
情感: 高兴	中性 -> 高兴	But it does not allow for adding new members to interfaces.
情感: 愤怒	愤怒 -> 愤怒	港湾道是每年农历新年举行的香港新春花车巡游的路线之一。
情感: 悲伤	悲伤 -> 悲伤	我觉得自己好像在黑暗中迷失了，再也找不到出口了。
情感: 高兴	中性 -> 高兴	我竟然抢到了陈奕迅的演唱会门票！太棒了！终于可以现场听一听他的歌声了！
情感: 悲伤	悲伤 -> 悲伤	我们俩从一开始就君子之交，都说好啦，背信弃义出尔反尔的是她，我告诉你这件事我是受害者。
表达时要悲伤一点。	悲伤 -> 悲伤	有些软体开发者也注意到软体度量已成为软体开发过程中的一部份。
把这件事说得高兴一点。	高兴 -> 高兴	I bought my first mountain bike with my own earnings, a Merida Warrior 500! Go me!
表达时，请务必流露出高兴的情感。	中性 -> 高兴	I ran into a teacher I hadn’t seen in years at the coffee shop today. He still remembered me, and we talked about so many fun memories.

Built-in Premium Sounds: Over 100 Built-in, High-Quality Timbres

Instruction	Describe	Target Text
克隆一下灵小甄的说话腔调。	销售、直播带货: 声音明亮清脆，语速轻快且充满活力，语气中带有强烈的推荐感和亲和力，典型的带货主播风格。	这款产品的名字，叫变态坑爹牛肉丸。
模仿灵梦的风格。	虚拟恋人: 充满糖分的高甜少女音，语气娇憨任性，完美演绎了想要人陪伴时的撒娇状态。	认为在中文歌曲里，夹杂几句英文就很时髦。
麻烦学一下灵岩的口音	新闻、客服: 声音清晰正式且专业	届时会按照原定计划，与国防部签署相关以地换地协议。
克隆一下灵娇的说话腔调。	邻家女孩、女大学生、Vlog博主: 清甜明亮的少女音，语感轻快活泼，在讲述生活趣事时充满画面感与青春朝气，极具感染力。	总裁问，刚才皮皮鲁唱的歌是谁的词谁的曲，大手笔呀。
克隆一下妩媚妲己的说话腔调。	妩媚角色: 声音甜美清脆，语调轻盈上扬，表现性感妩媚	新娘是一位俄国公主，坐着六只驯鹿拉的雪车，从芬兰一路而来。
克隆一下灵绮木的说话腔调。	透着刻薄与傲慢的冷艳御姐音	这就是它第二个特色——灵活的音色设计能力，你可以直接用文字描述，比如"知性女主播的声音"，它就能给你生成。要是懒得想，它还内置了一百多种精品音色，什么动漫角色、短视频配音统统搞定！
克隆一下灵若虚的说话腔调。	老奶奶形象，声音饱含岁月的温暖与慈爱，语速舒缓，透着对生活细节的满足感，极具治愈力。	这就是它第二个特色——灵活的音色设计能力，你可以直接用文字描述，比如"知性女主播的声音"，它就能给你生成。要是懒得想，它还内置了一百多种精品音色，什么动漫角色、短视频配音统统搞定！
克隆一下花小呗的说话腔调。	儿童角色，声音清脆甜美，带有明显的幼态特征，语调轻快活泼	这就是它第二个特色——灵活的音色设计能力，你可以直接用文字描述，比如"知性女主播的声音"，它就能给你生成。要是懒得想，它还内置了一百多种精品音色，什么动漫角色、短视频配音统统搞定！
克隆一下灵浅忧的说话腔调。	小男孩，声音清脆明亮，充满元气	今天天气不错，要出去玩了。

Voice Design: Zero-Shot Synthesis of Custom Vocal Identities via Natural Language Descriptions

Instruction	Target Text	TTS Result
性别: 女童声音. 音高: 音高尖锐，持续偏高. 语速: 语速迅捷，语气急促. 音量: 音量响亮，情绪饱满. 年龄: 学龄儿童. 清晰度: 吐字清晰，发音用力. 流畅度: 表达流畅，伴强调性重复. 口音: 标准普通话. 音色质感: 童声清亮，略显尖锐. 情绪: 激动委屈，带有抗议. 语调: 声调高昂，语势急切. 性格: 急躁率真，不甘示弱.	人家从那走过，他们就说我故意偷听，还说我是小广播，我偏要广播，偏要广播偏。
性别: 男性. 音高: 男性沉稳中低音. 语速: 语速舒缓，有自然停顿. 音量: 正常谈话音量. 年龄: 中老年男性. 清晰度: 吐字清晰，发音标准. 流畅度: 言语连贯，表达自然. 口音: 标准普通话. 音色质感: 音质温和，略显沧桑. 情绪: 饱含不舍与怀念，转为平静嘱托. 语调: 前段感叹意味，后段请求意味. 性格: 念旧重情，温和坦诚.	这就是天望娃娃送给我的我一直舍不得丢掉它，你替我上交了吧。
性别: 男性语音特征. 音高: 男性中低音域，初始疑问时音调上扬. 语速: 整体偏快，表述急切清晰. 音量: 正常交谈音量，偶有强调加重. 年龄: 青年至中年男性. 清晰度: 吐字清晰，发音标准. 流畅度: 叙述流畅，偶有为强调而设的短暂停顿. 口音: 带有北方地区特征的普通话. 音色质感: 声音较为浑厚，略带一丝沙哑质感. 情绪: 从关切疑问过渡到解释性陈述，略显急切. 语调: 初始疑问扬起，后转为肯定叙述语调. 性格: 显得坦率直接，急于说明情况.	没有欺负这孩子呢，报告团长没人欺负他，不是怎么的，他本来是给他师父小杨上门的，回来，就说鬼鬼的鬼。
性别: 女性. 音高: 女性高音，句末随情绪上扬. 语速: 语速偏缓，充满恳切感. 音量: 音量正常，激动处略有提高. 年龄: 中年女性. 清晰度: 吐字清晰，略带哭腔. 流畅度: 整体流畅，因情绪略显迟缓. 口音: 标准普通话. 音色质感: 音色略显沙哑，蕴含悲伤. 情绪: 悲伤焦虑，带有不解与恳求. 语调: 起伏较大，表达焦急质问. 性格: 情感浓烈，忧心忡忡.	我们家好容易恢复成这个样子，你明知有危险，为什么还一定要拉着杉杉？
用活泼的童声带着喜悦和兴奋不间断地讲述一个有趣的故事。	我有个大哥叫小王，能吃饭也能喝汤，别看他手里没武器啊，说话赛过歪白的机关枪。
这是一个粤语地区长辈的声音，是一种带有地域特色的创意风格。他使用粤语（广东话），年长男性声音沉厚，语速较慢。语气在说教时显得严肃，但言语间仍透露出对家人的关心。	做人呢，最紧要就係开心。
这是一个粤语地区长辈的声音，是一种带有地域特色的创意风格。他使用粤语（广东话），年长男性声音沉厚，语速较慢。语气在说教时显得严肃，但言语间仍透露出对家人的关心。	你睇你，成日挂住玩，书又唔读。
是一个粗犷豪放的东北大哥的声音，是一种极具地域辨识度的创意与特殊风格。他使用带有浓郁东北口音的普通话，中年男性声音洪亮，嗓门大。说话直来直去，语速快，语气中充满了幽默感和不拘小节的豪爽。	哎呀我的妈呀，这嘎冷的天儿，你穿这点儿？
这是一种ASMR耳语，属于一种旨在引发特殊感官体验的创意风格。这个女性使用轻柔的普通话进行耳语，声音气音成分重。音量极低，紧贴麦克风，语速极慢，旨在制造触发听者颅内快感的声学刺激。	放松……现在……闭上你的眼睛……
这是一种ASMR耳语，属于一种旨在引发特殊感官体验的创意风格。这个女性使用轻柔的普通话进行耳语，声音气音成分重。音量极低，紧贴麦克风，语速极慢，旨在制造触发听者颅内快感的声学刺激。	听……这个声音……是不是……很舒服……
这是一个体育赛事激情解说员的声音，是极具感染力的创意与特殊风格。他使用高亢的普通话，中年男性声音沙哑（因长时间呐喊）。语速快如机枪，在关键时刻会瞬间爆发，语调充满了紧张、激动和不可思议的情绪。	球进了！进了进了进了！伟大的胜利！
这是一个宫斗剧中的威严皇后的声音，展现了充满张力的戏剧叙事风格。她使用雍容华贵的普通话，中年女性声音沉稳。语速雍容和缓，但每个字都掷地有声，语气表面波澜不惊，实则暗藏锋芒和久居上位的威压。	妹这话，是说给本宫听的吗？
这是一个宫斗剧中的威严皇后的声音，展现了充满张力的戏剧叙事风格。她使用雍容华贵的普通话，中年女性声音沉稳。语速雍容和缓，但每个字都掷地有声，语气表面波澜不惊，实则暗藏锋芒和久居上位的威压。	放肆！在本宫面前，岂容你如此喧哗？
这是一个古装剧中的腹黑反派的声音，充满了戏剧性的叙事张力。他使用华丽而阴柔的普通话，青年男性声音说话时语速慢条斯理，语气看似温和，却在句尾带着一丝不易察觉的冷笑和威胁，让人不寒而栗。	呵呵，看来，你还是不太明白自己的处境啊。

Podcast: Multi-person Conversation

Input Speaker1 Prompt	Input Speaker2 Prompt	Target Text	TTS Result
		speaker_1: 你可以说一下，就大概说一下，可能虽然我也不知道，我看过那部电影没有。 speaker_2: 就是那个叫什么，变相一节课的嘛。 speaker_1: 嗯。 speaker_2: 一部搞笑的电影。 speaker_1: 一部搞笑的。
		speaker_1: 所以你想成功的话，就推荐你看这些书。 speaker_2: 我会有时间去看一看的。 speaker_1: 要是像我看的话，我就会感觉特别的。 speaker_2: 枯燥。 speaker_1: 对枯燥无聊毕竟是古文也看不懂除非那些。
		speaker_1: 知道家长在考虑什么让家长也知道孩子们在考虑什么。 speaker_2: 对。 speaker_1: 减少矛盾。 speaker_2: 对，就是感觉其实出这些电影或者电视剧，也是挺好的让彼此更加了解一下，我感觉如果是一个家长和一个小孩儿，去看电视剧的话，收获也是蛮多的。 speaker_1: 那你还有什么比较好的电影介绍给我呢。
		speaker_1: 上个厕所，然后那有专门的人给你，就是你上厕所之前，专门有个人给你递纸了。 speaker_2: 对，上个厕所会出来给你递毛巾。 speaker_1: 啊对，让你去擦手这些什么的。 speaker_2: 是的。 speaker_1: 服务，服务非常周到，不过也有少数人就说，这个服务实在太久了，就是，就，就是像那种，就是那个。
		speaker_1: 什么东西啊？ speaker_2: 叫那个的哪吒的那个。 speaker_1: 啊，那个哪吒，但是我没有去看一看嘛。 speaker_2: 我也没看过。 speaker_1: 我当时好像是本来是要去看的。
		speaker_1: 啊，我吃过。 speaker_2: 是不是。 speaker_1: 因为我之前去过山东一次吃过人家那杂粮煎饼。 speaker_2: 反正跟咱们这儿，不一样是吧，正宗的人家那是正宗的。 speaker_1: 本地的。
		speaker_1: 那就之前的妆都毁掉了。 speaker_2: 嗯，是是是。 speaker_1: 然后之后就是睫毛。 speaker_2: 哦，对，那睫毛涂睫毛膏。 speaker_1: 画睫呃涂睫毛的时候，先夹一下睫毛，夹。
		speaker_1: 嗯哪三个字。 speaker_2: 足力健。 speaker_1: 哦听说过。 speaker_2: 那你给我讲讲。 speaker_1: 我听说这个足力健对老年人的脚底有好处，而且边走路都能健身是吗。
		speaker_1: 就这样子，嗯，一般男生都是看什么电影啊？推理的吗？还是什么。 speaker_2: 也不是吧，就是看那种，嗯，具体也说不出哪种类型嘛。 speaker_1: 具体也说不出。 speaker_2: 嗯。 speaker_1: 就是都有看一点。
		speaker_1: 是了，只有你，化化起妆了才能充实呢，自信心呃然后才，感觉自己的心情是美美哒的。 speaker_2: 你想化妆是，呃那就从眉毛开始说不是从打底开始说吧。 speaker_1: 嗯说，好想听呢。 speaker_2: 洁面以后就是拍水乳，水乳霜。 speaker_1: 嗯。

Music Generation

Instruction	TTS Result
Genre: 迪斯科. Mood: 活力四射 / 精力充沛. Instrument: 电吉他. Theme: 运动. Duration: 30s
Genre: 当代古典音乐. Mood: 温暖 / 友善. Instrument: 合成拨弦. Theme: 节日. Duration: 60s.
Genre: 电子舞曲. Mood: 自信 / 坚定. Instrument: 架子鼓. Theme: 节日. Duration: 47s.
Genre: 独立民谣. Mood: 鼓舞人心 / 充满希望. Instrument: 合成铜管乐器. Theme: 节日. Duration: 63s.
Genre: 流行摇滚. Mood: 温暖 / 友善. Instrument: 低音鼓. Theme: 旅行. Duration: 76s.
Genre: 电子舞曲. Mood: 快乐. Instrument: 定音鼓. Theme: 好时光. Duration: 61s.
Genre: 流行乐. Mood: 温暖 / 友善. Instrument: 合成铜管乐器. Theme: 庆典与喜悦. Duration: 41s.
Genre: 当代古典音乐. Mood: 鼓舞人心 / 充满希望. Instrument: 合成拨弦. Theme: 庆典与喜悦. Duration: 45s.
Genre: 电子舞曲. Mood: 鼓舞人心 / 充满希望. Instrument: 电吉他. Theme: 运动. Duration: 94s.

Speech/Music Mono Generation: Single-Channel Generation of Speech and Music

Instruction	Input Prompt	Target Text	TTS Result
Genre: 电子舞曲. Mood: 活力四射. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB.		全神贯注，跟上这强劲的节奏，冲向终点吧！
Genre: 流行摇滚. Mood: 快乐. Instrument: 电吉他. Theme: 旅行. SNR: 5.0dB.		阳光洒满公路，带上行囊，出发去远方！
Genre: 迪斯科. Mood: 兴奋. Instrument: 架子鼓. Theme: 生日. SNR: 5.0dB.		派对时刻到！让我们在鼓点中祝你生日快乐！
Genre: 电子舞曲. Mood: 兴奋. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB.		汗水在燃烧，感受这股能量，你就是最强的！
Genre: 流行摇滚. Mood: 活力四射. Instrument: 架子鼓. Theme: 旅行. SNR: 5.0dB.		踏上未知的旅程，每一步都充满未知的惊喜！
Genre: 迪斯科. Mood: 快乐. Instrument: 电吉他. Theme: 生日. SNR: 5.0dB.		吹灭蜡烛前，先跟着旋律尽情摇摆吧！
Genre: 电子舞曲. Mood: 快乐. Instrument: 合成铜管乐器. Theme: 生日. SNR: 5.0dB.		这是属于你的闪耀时刻，生日派对正式开始！
Genre: 流行摇滚. Mood: 兴奋. Instrument: 电吉他. Theme: 运动. SNR: 5.0dB.		超越极限，感受心跳的轰鸣，永不言弃！
Genre: 迪斯科. Mood: 活力四射. Instrument: 架子鼓. Theme: 旅行. SNR: 5.0dB.		在霓虹闪烁的异国街头，找寻失落的快乐！
Genre: 流行摇滚. Mood: 快乐. Instrument: 合成铜管乐器. Theme: 运动. SNR: 5.0dB.		运动让生活更有趣，让我们一起快乐出发！

Sound Generation(TTA)

Instruction	TTS Result
A motor is revving and changing gears
Thunder and a gentle rain
Continuous snoring of a person
Nature sounds with a frog croaking
A man talking as a stream of water trickles in the background

Speech/Sound Mono Generation: Single-Channel Generation of Speech and Sound

Instruction	Input Prompt	Target Text	TTS Result
Birds chirping		副主任及以上号别就诊人次，为二百零八点二万。
Light rain		其中又有大部分百分之四十一点九认为，由该品牌影楼拍摄。
Keyboard typing		本次有害昆虫科普展，是一场专门为孩子准备的科普教育活动。
Fire engine siren		他陪舅舅到简阳一所学校，考察捐资改建事宜。
Rainstorm		请语音留言，告诉电话精灵您没有达到父母的哪些要求。

The Introduction Video of Ming-Omni-TTS#

🚀 Featured Abilities#

Model Structure#

Unified Continuous Audio Tokenizer.#

Unified Audio Language Model for Speech, Music and Sound Generation.#

Benchmark Evaluations#

Voice Control – Support Structured and Natural Command Control#

Basic Attributes Control: Speed, Volume and Pitch Control for Voice Generating#

Same Dialect/Cross-Dialect Control: Generating Cantonese and Sichuanese from Mandarin and Native Prompts#

Cross-Emotion Control: Cross-Emotion Synthesis Using a Single Neutral Prompt#

Built-in Premium Sounds: Over 100 Built-in, High-Quality Timbres#

Voice Design: Zero-Shot Synthesis of Custom Vocal Identities via Natural Language Descriptions#

Podcast: Multi-person Conversation#

Music Generation#

Speech/Music Mono Generation: Single-Channel Generation of Speech and Music#

Sound Generation(TTA)#

Speech/Sound Mono Generation: Single-Channel Generation of Speech and Sound#