提供最具价值的商业资讯

阿里开源通义万相首尾帧生视频14B模型

紫金财经4月18日消息 阿里开源通义万相首尾帧生视频14B模型,成为业内首个百亿级参数规模的开源视频模型。用户可以根据指定的开始和结束图片生成720p高清视频,并满足延时摄影、变身等需求。该模型已可在官网免费体验或通过GitHub、Hugging Face、魔搭社区下载本地部署后进行二次开发。

据介绍,基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型进一步引入了额外的条件控制机制,通过该机制可实现流畅且精准的首尾帧变换。

在训练阶段,团队还构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略,这些策略提升了模型训练和生成效率,也保障了模型具备高分辨率视频生成的效果。

在推理阶段,为了在有限内存资源的条件下支持高清视频推理,万相首尾帧模型分别采用了模型切分策略以及序列并行策略,在确保推理效果无损的前提下,显著缩短了推理时间。

首尾帧生视频比文生视频、单图生视频更具可控性,是AI视频创作者最喜欢的功能之一。但这类模型训练难度较大,要求对指令遵循、画面一致性和过渡流畅性有高要求。

转载请注明来源:华夏商业网_华夏财经_华夏资讯 » 阿里开源通义万相首尾帧生视频14B模型
分享到: 更多 (0)