Soul开放SoulXFlashTalk技术，推动实时数字人进入商用落地阶段-壹日讯

当前位置：海内新闻 > 正文

Soul开放SoulXFlashTalk技术，推动实时数字人进入商用落地阶段

时间:2026-05-15 17:27:59

　　在实时数字人技术快速发展的当下，行业普遍面临大模型延时高、长视频易崩坏、生成效果不稳定等难题，Soul App AI实验室正式开源的SoulXFlashTalk模型，以14B参数规模实现亚秒级延时、高帧率与超长视频稳定生成三大核心突破，为行业带来切实可行的商用解决方案，推动实时生成式数字人从技术演示走向规模化落地。

　　Soul在AI技术研发中始终坚持以用户体验为导向，通过持续创新优化交互质感，此次开源SoulXFlashTalk，不仅彰显团队技术实力，更以开放姿态助力全行业升级，让AI数字人真正服务于多元业务场景。

　　SoulXFlashTalk从用户实际使用痛点出发，全面优化实时交互核心体验。0.87秒亚秒级延时让大模型数字人告别反应滞后，实现即时反馈，无论是视频通话中的实时交流，还是直播场景下的快速弹幕响应，都能做到自然无卡顿。32fps高帧率远超行业通用实时标准，在长时间运行中依旧保持画面流畅，彻底解决低帧率带来的生硬感与割裂感。超长视频稳定生成能力则依托自纠正双向蒸馏技术实现，多步回溯自纠正机制实时修正生成误差，双向注意力机制保障人物身份与背景环境长期一致，即便持续直播数小时，也不会出现面部漂移、口型错位、画质模糊等问题，满足商用场景全天候运行需求。

　　与传统数字人方案相比，SoulXFlashTalk实现了从局部口型对齐到全身动态交互的跨越，模型可根据音频驱动生成自然全身动作，手部细节还原精准，无畸形、无模糊，动态表现接近真人水准，同时保持极高的身份一致性，适用于更注重真实感的互动场景。这些能力的实现，源于团队独创的技术架构与全栈优化，两阶段训练策略兼顾生成质量与推理速度，全栈加速引擎针对硬件深度适配，多项技术创新叠加，让14B大模型在保持高性能的同时，实现低延迟、高吞吐运行。

　　经专业数据集量化对比，SoulXFlashTalk在TalkBenchShort短视频评测中，以3.51的ASE、4.79的IQA刷新视觉保真度记录，口型同步精度SyncC分数达1.47;在5分钟以上长视频评测中，依旧保持1.61的SyncC优异成绩，全程稳定输出32fps高帧率画面，各项指标全面领先行业主流模型。这样的性能表现让模型具备极强的商用适配性，在电商直播领域，可打造7×24小时不间断AI直播间，稳定高清且响应迅速，大幅降低人力与运营成本;在短视频制作领域，可快速生成高质量数字人内容，提升创作效率;在AI教育、智能客服、互动娱乐等场景，也能提供稳定可靠的实时交互方案。

　　此次开源是SoulAI开源战略的延续，此前团队开源的SoulXPodcast语音合成模型，曾登顶HuggingFace TTS趋势榜，在GitHub收获超3100星标。SoulXFlashTalk的发布，标志着团队进入视觉交互技术开源新阶段，未来Soul将持续聚焦语音对话合成、视觉交互等核心能力，不断提升产品沉浸感与智能度，以开放合作姿态连接全球开发者，共建AI+社交技术生态，为行业与用户创造更具温度的智能交互体验。

来源：生活头条网

上一篇：什么牌子的胶原蛋白肽安全？2026睡眠质量差人群放心选，零添加小分子肽科普
下一篇：返回列表

​Soul开放SoulXFlashTalk技术，推动实时数字人进入商用落地阶段

Soul开放SoulXFlashTalk技术，推动实时数字人进入商用落地阶段