在实时数字人技术快速发展的当下,行业普遍面临大模型延时高、长视频易崩坏、生成效果不稳定等难题,Soul App AI实验室正式开源的SoulXFlashTalk模型,以14B参数规模实现亚秒级延时、高帧率与超长视频稳定生成三大核心突破,为行业带来切实可行的商用解决方案,推动实时生成式数字人从技术演示走向规模化落地。

Soul在AI技术研发中始终坚持以用户体验为导向,通过持续创新优化交互质感,此次开源SoulXFlashTalk,不仅彰显团队技术实力,更以开放姿态助力全行业升级,让AI数字人真正服务于多元业务场景。
SoulXFlashTalk从用户实际使用痛点出发,全面优化实时交互核心体验。0.87秒亚秒级延时让大模型数字人告别反应滞后,实现即时反馈,无论是视频通话中的实时交流,还是直播场景下的快速弹幕响应,都能做到自然无卡顿。32fps高帧率远超行业通用实时标准,在长时间运行中依旧保持画面流畅,彻底解决低帧率带来的生硬感与割裂感。超长视频稳定生成能力则依托自纠正双向蒸馏技术实现,多步回溯自纠正机制实时修正生成误差,双向注意力机制保障人物身份与背景环境长期一致,即便持续直播数小时,也不会出现面部漂移、口型错位、画质模糊等问题,满足商用场景全天候运行需求。
与传统数字人方案相比,SoulXFlashTalk实现了从局部口型对齐到全身动态交互的跨越,模型可根据音频驱动生成自然全身动作,手部细节还原精准,无畸形、无模糊,动态表现接近真人水准,同时保持极高的身份一致性,适用于更注重真实感的互动场景。这些能力的实现,源于团队独创的技术架构与全栈优化,两阶段训练策略兼顾生成质量与推理速度,全栈加速引擎针对硬件深度适配,多项技术创新叠加,让14B大模型在保持高性能的同时,实现低延迟、高吞吐运行。
经专业数据集量化对比,SoulXFlashTalk在TalkBenchShort短视频评测中,以3.51的ASE、4.79的IQA刷新视觉保真度记录,口型同步精度SyncC分数达1.47;在5分钟以上长视频评测中,依旧保持1.61的SyncC优异成绩,全程稳定输出32fps高帧率画面,各项指标全面领先行业主流模型。这样的性能表现让模型具备极强的商用适配性,在电商直播领域,可打造7×24小时不间断AI直播间,稳定高清且响应迅速,大幅降低人力与运营成本;在短视频制作领域,可快速生成高质量数字人内容,提升创作效率;在AI教育、智能客服、互动娱乐等场景,也能提供稳定可靠的实时交互方案。

此次开源是SoulAI开源战略的延续,此前团队开源的SoulXPodcast语音合成模型,曾登顶HuggingFace TTS趋势榜,在GitHub收获超3100星标。SoulXFlashTalk的发布,标志着团队进入视觉交互技术开源新阶段,未来Soul将持续聚焦语音对话合成、视觉交互等核心能力,不断提升产品沉浸感与智能度,以开放合作姿态连接全球开发者,共建AI+社交技术生态,为行业与用户创造更具温度的智能交互体验。
来源:生活头条网
