优优资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

巴基斯坦男子...

鹿晗关晓彤恋...

吉利星座第四...

外媒称“美国...

邮报：热刺加...

文章开大G车...

足总杯117年最大冷门！卫冕冠军首战出局，被业余球队淘汰

向五角大楼匿名捐赠1.3亿美元＂军饷＂的富豪身份披露

恩里克：萨福诺夫是我执教过的最擅长点球预判的门将

哥大新方法：频率指纹揭示AI数学思维盲点

陈涛：我们最后四轮赛程可以用地狱级来形容，已经没有退路了

这些才是最适合普通人的造型！不用穿大牌、不老套，真实自然

比尔·盖茨警告：AI或成恐怖主义武器且智能无上限

张天阳再破天花板，他让整个娱乐圈都沉默了

美记@湖人盼尽快换凯斯勒！艾顿难堪大任湖媒愿提高报价出2首轮

别再买“网红同款”了，显胖又低级！

10样回购N次的解馋小零食！好吃到嗦手指

王俊杰流下不甘的泪水！王俊杰、胡金秋入选本届亚洲杯最佳阵容

我国将发布《人工智能应用伦理安全指引（1.0版）》

春天穿“黑色”太沉闷？学会这些搭配小技巧，显瘦减龄还洋气

停火协议第一阶段生效后加沙小男孩光脚踏上回家路

鲁尼：索尔-坎贝尔说我假摔终结阿森纳49场不败，半年不和我说话

孙红雷和妻子王骏迪逛街，比老婆矮显娇小

小鹏汽车CEO何小鹏：所有核心产品线都要走向全球市场

苹果在中国又开一店有人为抢＂001号＂手环排队26小时

上半年营收同比增2.1%至14亿元一鸣食品上半年关店104家

阿里巴巴：最新归纳4大业务架构，「1+6+N」汇报方式进入历史

双巴大战来了！萨巴伦卡、莱巴金娜会师WTA总决赛争冠

消息称小鹏今年将推G01等4款新车，冲击55万-60万销量目标

马绩效：尤文对皇马机会多但把握差，很难说这就是积极的表现