当前位置:都市生活刊 > 正文

Soul张璐团队开源SoulX-Singer,为歌唱语音合成领域添科技助力

时间:2026-05-19 14:34:23

  近些年来,生成式人工智能持续渗透音乐产业,从旋律创作、编曲制作到音效生成,不断为行业带来全新创作体验与应用可能。然而在歌唱语音合成(SVS,Singing Voice Synthesis)这一细分赛道,整体技术落地与开源进展仍相对迟缓,制约着音乐AI实用化落地。在此背景下,Soul张璐团队联合吉利汽车研究院人工智能中心(AIC)、天津大学以及西北工业大学,正式开源歌声合成模型SoulX-Singer,为歌唱语音合成领域增添了全新科技助力。

  SoulX-Singer 结构简图

  作为一个面向真实工业应用场景设计的零样本歌声合成模型,SoulX-Singer 的核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。也正因如此,该模型在多个方面进行了针对 SVS 场景的系统性设计,比如整体架构、建模范式以及控制机制。

  在模型架构上,SoulX-Singer 采用基于Flow Matching 的生成建模范式,创新性地将歌声合成建模为一种audio infilling(音频补全)任务。针对歌声合成中“歌词—旋律—发声”三者强耦合的特点,SoulX-Singer则是在建模阶段显式引入了note级别的对齐机制。

  模型通过构建歌词、MIDI 音符(note)与声学特征之间的精细对齐关系,使得每个音符的起止时间、音高及时长均实现了精准建模与独立控制。这一设计使得模型不仅能够忠实还原乐谱信息,还可以在生成阶段灵活调整音符结构,完美契合音乐编辑、重编曲等复杂工业需求。

  大规模 SVS 训练数据,夯实零样本能力基础

  零样本歌声合成对训练数据的规模、多样性与覆盖范围提出了极高要求。而SoulX-Singer 拥有超42000小时训练数据,覆盖多语言、多音色及多种演唱风格。得益于这一数据,SoulX-Singer在稳定性、可控性与泛化能力方面,均达到了当前开源 SVS 模型中的领先水平。在实际测试中,SoulX-Singer更是展现出了良好的鲁棒性和一致性,为零样本歌声合成技术从“可演示”走向“可使用”提供了坚实基础,为其在内容创作、虚拟歌手、互动娱乐等应用场景中的落地提供了更广阔的空间。

  客观表现

  在评测方面,SoulX-Singer选取了 GMO-SVS 和 SoulX-Singer-Eval 两个数据集,在对零样本歌声合成、歌词编辑后的歌声合成以及跨语言歌声合成等多项任务进行了系统评测。

  具体来看,GMO-SVS 综合了 GTSinger、M4Singer以及Opencpop 等主流开源SVS数据集;而SoulX-Singer-Eval则专门面向严格的零样本场景构建,通过独立音乐人等渠道采集数据,确保参与测试的歌手均未出现在模型的训练集当中。

  从实验结果可知,SoulX-Singer 在语义清晰度、基频一致性、歌手相似度以及整体合成质量等多个维度上均显著优于此前的相关工作;在主观听感评测中,其表现同样取得了明显领先优势。

  SoulX-Singer的开源精准解决了歌声合成落地难题。随着其广泛应用,歌声合成技术有望在虚拟偶像、智能音乐教育、个性化内容推荐、车载娱乐系统等多个领域产生深远影响,帮助更多人享受到AI音乐创作的乐趣。
免责声明:此文内容为本网站转载企业资讯,仅代表作者个人观点,与本网无关。所涉内容不构成投资、消费建议,仅供读者参考,并请自行核实相关内容。


来源:生活网