本报记者 李静 北京报道
2024年年初,视频生成大模型Sora刚刚问世,就在市场上掀起了轩然大波,国内随后也出现了一批视频生成大模型。
现在来看,一年多前的视频生成大模型产品制作的视频,在响应速度、动态质量上还略显“稚嫩”,容易出现文本理解偏差、动作畸变、复杂物理交互不稳定等问题。
今年多款视频生成大模型相继发布了2.0版本的产品,例如,国产视频生成平台Vidu带来了Vidu 2.0,MiniMax发布了MiniMax S2V-01视频模型,阿里云发布了通义万相2.1视频生成模型。4月15日,快手推出可灵2.0视频生成模型及可图2.0图像生成模型。
“过去一年多,国内视频生成大模型最明显的突破是‘可控性’的提升,一些模型能精准控制角色位置、运动轨迹甚至音效同步,用户不用再疯狂‘抽卡’碰运气了。”深度科技研究院院长张孝荣在接受《中国经营报》记者采访时说道。
技术挑战仍然存在
“没有想到生成式视频的发展会这么快。”《新世界加载中》总导演、异类Outliers创始人陈翔宇说。2024年年初Sora出现后,国内很多企业也推出类似的生成式视频大模型。2024年6月,可灵AI发布第一个版本,当天陈翔宇和团队几个人一起,用可灵AI“手搓”了一支测试片,是一个写实风格的小短片,内容是一辆小汽车飞上了太空。“即使在当时的技术,最后的成片效果来看,视频依然保持了稳定性。”
但当时的视频生成速度还比较慢,质量也不太稳定。“国内的视频生成模型虽然也采用扩散模型路线,但在技术积累和模型规模方面与Sora存在差距。”北京大数据协会理事、北京融信数联科技有限公司CTO张广志曾这样对记者解释道,在产品层面,国内的一些生成式视频模型在运动平滑度和成像质量方面表现出色,但从整体来看仍存在一些稳定性问题。例如,某些模型在生成过程中,质量不够稳定。此外,这些模型的生成速度相对较慢,例如生成2—4秒视频的等待时间为3—5分钟甚至更久。
过去一年多时间,生成式视频大模型快速迭代,2024年视频生成模型生成厂商基本迭代3—5个版本。
与此同时,普通用户使用视频生成产品的数量快速增长。记者发现,如今在各大短视频平台上都有大量由AI生成的短视频内容在传播,不少传播量还非常高。
来自东方证券研究所的报告显示,从视频生成产品的用户访问量来看,2025年2月海螺、可灵、Sora位居Top3,分别为2756万、1591万、1050万;从独立访客数看,海螺、Sora、可灵分别以634万、592万、376万保持领先。
可灵方面披露,目前可灵AI全球用户规模已突破2200万,累计生成1.68亿个视频及3.44亿张图片素材。自去年6月上线至今的10个月时间里,可灵AI的月活用户数量增长25倍。
“视频大模型技术方面的进步主要在基座模型方面。”微盟集团AI负责人裘皓萍对记者指出,各视频大模型采用时空联合注意力机制,能更好地建模视频中的复杂时空运动,使生成的运动更符合客观规律。并且通过升级架构,将视频编码放到紧凑的隐空间并解码成带有丰富细节的视频,提升计算效率。拓宽模型感知范围,增强对复杂动态场景的建模能力。扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时能保持主体、风格、氛围的一致性。
但目前视频生成大模型和top级别的AI产品(如ChatGPT、DeepSeek)在访问量级上仍然存在较大差距。东方证券分析师项雯倩表示:“这说明目前视频生成产品的发展仍处于早期阶段,距离达到产品to C 大范围应用仍有距离。”
萨摩耶云科技集团首席经济学家郑磊对记者指出:“在技术层面,视频生成大模型的连贯性、真实感和一致性仍需提升。”
“现阶段视频生成较大的难题依然是如何进一步提升可控性。”裘皓萍也对记者说道,无论是产品化还是商业化,无论是短视频还是长分镜,哪些细节、部分需要控制、一致,哪些部分可以AI发挥,一定程度上会决定这个技术能实用的节奏和场景。
记者在体验一些视频生成大模型时也发现,虽然生成的视频质量较一年前在一致性上有增强,但在复杂场景中(多人物互动、物理交互)容易出错。例如,记者使用自己的照片生成视频,在视频中生成的人物形象逐渐发现了一些细微的变化,“变得不太像本人”。
盖坤也坦承,AI在辅助创意表达上拥有巨大潜力,但当前的行业发展现状还远远无法满足用户需求,在AI生成内容的稳定性以及用户复杂创意的精确传达上仍有“很多挑战”。
商业化仍处于早期
记者观察发现,目前在可灵AI、海螺AI等产品的首页,“图生视频”的入口排在“文生视频”的前面。“因为文生视频对于输入文本(提示词)的质量要求很高。”一位热爱AI内容创作的人士对记者说道。
“因为图生视频约占到可灵AI视频创作量的85%,而且图片质量也对视频的生成效果产生重要作用。”快手副总裁、可灵AI负责人张迪透露。
可灵2.0版本一个很重要的迭代是对用户输入内容的创新,用户在使用可灵AI输入创意时,将不只局限于文字、图片和视频,还可以引入其他模态的信息,例如声音、运动轨迹等更丰富的表达。同时,可灵2.0大师版还上线了多模态视频编辑功能,支持在一段视频的基础之上,通过输入图片或文字,对生成的视频内容实现元素的增加、删减、替换,可以实现更加灵活的二次编辑和处理。这些技术的迭代,都是为了解决目前视频生成大模型存在的连贯性、一致性等问题。
以此作为行业发展的案例可以看到,随着视频生成大模型的迭代发展,性能的显著提升使得生成的视频质量更高、更自然,模型的应用场景也在不断扩大。一些影视作品已经开始尝试使用视频生成大模型参与制作。去年,知名导演如李少红、贾樟柯、俞白眉等利用可灵AI已经有一些AIGC电影短片诞生。今年3月,抖音和即梦也在扶持科幻、国风、悬疑等题材的AI短剧创作。
裘皓萍表示,视频生成速度加快了,且成本可接受,这是生成视频进入各方面实际使用的重要基础。微盟服务电商零售和营销客户的过程中,已经在大量使用生成式的图片和视频。
“视频生成大模型的商业化主要是To C的订阅制和To B的行业定制。但目前整体还在试水,还没到爆发期,大部分产品还未跑通变现闭环。”张孝荣指出,“现阶段更多是‘玩具+辅助’,大多数场景依然是自媒体的娱乐玩具,少数场景里,比如导演用AI快速生成分镜草稿,后期用AI批量渲染,省下时间搞创意。”
大部分的大模型厂商并未对外透露商业化的情况,不过快手对可灵AI的商业化寄予厚望。在2024年的财报电话会议上,快手管理层透露,可灵AI自商业化以来截至2025年2月累计营业收入超1亿元。快手管理层还表示,预计在2025年可灵AI将实现收入的跨越式增长。
“通过提供定制化 API服务探索收入,这将是可灵AI在2025年的重点发力方向。”项雯倩认为,未来随着视频生成模型的不断迭代完善,可能会有变现更高的商业模式出现。
“这类技术应用落地的门槛相对比较高,难度不完全是在技术本身,而在于三个方面:基于快速更新迭代的大模型和配套设施,掌握真实行业客户的需求,很重要的部分是沉淀行业Knowhow。” 裘皓萍解释到,“绝大部分AI应用在服务的客群和场景都是真实的工作、学习、生活场景,积累了很多细分场景的方法论、诀窍,这些部分对绝大多数AI应用的使用者而言,希望应用本身自带这些方法论、诀窍,而不是靠使用者通过包括prompt(提示词)在内的方式输入进去。”