关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro7人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

哥大新方法:频率指纹揭示AI数学思维盲点

科技行者 浏览 58

陈涛:我们最后四轮赛程可以用地狱级来形容,已经没有退路了

懂球帝 浏览 85

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

静儿时尚达人 浏览 8

比尔·盖茨警告:AI或成恐怖主义武器且智能无上限

IT之家 浏览 31

张天阳再破天花板,他让整个娱乐圈都沉默了

陈意小可爱 浏览 91

美记@湖人盼尽快换凯斯勒!艾顿难堪大任 湖媒愿提高报价出2首轮

颜小白的篮球梦 浏览 63

别再买“网红同款”了,显胖又低级!

Yuki女人故事 浏览 74

10样回购N次的解馋小零食!好吃到嗦手指

Yuki女人故事 浏览 80

王俊杰流下不甘的泪水!王俊杰、胡金秋入选本届亚洲杯最佳阵容

直播吧 浏览 85

我国将发布《人工智能应用伦理安全指引(1.0版)》

IT之家 浏览 6

春天穿“黑色”太沉闷?学会这些搭配小技巧,显瘦减龄还洋气

静儿时尚达人 浏览 7

停火协议第一阶段生效后 加沙小男孩光脚踏上回家路

国际在线 浏览 72

鲁尼:索尔-坎贝尔说我假摔终结阿森纳49场不败,半年不和我说话

直播吧 浏览 90

孙红雷和妻子王骏迪逛街,比老婆矮显娇小

八怪娱 浏览 40

小鹏汽车CEO何小鹏:所有核心产品线都要走向全球市场

IT之家 浏览 32

苹果在中国又开一店 有人为抢"001号"手环排队26小时

每日经济新闻 浏览 82

上半年营收同比增2.1%至14亿元 一鸣食品上半年关店104家

网易号外 浏览 92

阿里巴巴:最新归纳4大业务架构,「1+6+N」汇报方式进入历史

深蓝财经 浏览 94

双巴大战来了!萨巴伦卡、莱巴金娜会师WTA总决赛争冠

懂球帝 浏览 37

消息称小鹏今年将推G01等4款新车,冲击55万-60万销量目标

IT之家 浏览 30

马绩效:尤文对皇马机会多但把握差,很难说这就是积极的表现

懂球帝 浏览 54
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12