当前位置:澎湃界线 > 正文

宜信财富:端侧小模型进阶,AI落地场景持续延伸

时间:2026-05-19 18:34:09

  当大模型技术走出实验室,AI应用已从“可实现”迈入“划不划算”的价值考量阶段。在各行业数字化转型的浪潮中,模型技术的迭代正重塑生产效率,催生全新商业闭环——一个五六人的小团队借助AI,一天可生成6000条广告视频,单条成本控制在10元以下,远低于市场常规售价;AI漫剧异军突起,相关市场规模已超越电影市场,视频生成时长持续突破,商业化潜力持续释放。与此同时,模型推理成本大幅下降、速度显著提升,端侧小模型能力实现跨越式发展,让AI落地更具可行性。

  阿里在大模型领域布局已久,构建了覆盖语言、视觉、音频的三大基座模型矩阵。语言模型千问(Qwen)在开源领域影响力深远,成为众多企业的基座选择,聚焦工具调用与生产环节渗透;视觉生成模型万相(Wan)可实现图片、视频的生成与编辑,持续迭代升级,在视频创作领域收获广泛反馈;音频模型Fun涵盖ASR、TTS及声音克隆,追求拟真度与多语言适配,助力更好地人机语音交互。

  以万相模型为代表的视频生成技术,已实现从娱乐特效到生产领域的跨越。当前视频生成已进入15秒时代,未来有望突破1分钟,内容连贯性显著提升;镜头语言愈发丰富,光影调整、镜头切换接近专业影视级,普通用户通过简单提示词即可实现;角色一致性保持能力升级,可通过短时间真人出镜复刻形象与声音,提升内容可控性,成为动漫、短剧创作的重要助力,推动AI漫剧、自动化广告等场景快速发展。

  成本优势成为AI商业化落地的关键推手。短剧领域,AI生成成本可控制在2万元以下,结合投流可实现盈利;15秒广告视频AI生成成本低至10-15元,远低于25-50元的市场售价,形成良性商业循环。语言模型虽无范式级变革,但在细节上持续深耕:通过精耕细作数据集提升学习效率,借助模型稀疏化技术提升速度、降低成本,指令遵循、Agent工具调用等能力不断迭代,未来有望实现连续运行的智能Agent。音频模型则聚焦拟真度与多场景适配,为语音交互场景提供支撑,与语言、视觉模型协同,丰富AI落地形态。

  阿里千问的商业化呈现全行业渗透态势,一方面助力企业提升生产力,覆盖设计、研发、销售等全环节;另一方面推动产品智能化升级,与消费电子、互联网企业深度合作。针对手机、车厂等场景,推出端侧Omni模型,满足低延时、本地化需求,形成端云协同架构,通过MaaS服务平台“百炼”,为企业提供高并发、低延时的服务支撑,推动AI从云端走向更贴近用户的智能设备。


来源: