阿里开源通义万相首尾帧生视频14B模型_华夏商业网_华夏商业网_华夏财经

紫金财经4月18日消息阿里开源通义万相首尾帧生视频14B模型，成为业内首个百亿级参数规模的开源视频模型。用户可以根据指定的开始和结束图片生成720p高清视频，并满足延时摄影、变身等需求。该模型已可在官网免费体验或通过GitHub、Hugging Face、魔搭社区下载本地部署后进行二次开发。

据介绍，基于现有的Wan2.1文生视频基础模型架构，通义万相首尾帧生视频模型进一步引入了额外的条件控制机制，通过该机制可实现流畅且精准的首尾帧变换。

在训练阶段，团队还构建了专门用于首尾帧模式的训练数据，同时针对文本与视频编码模块、扩散变换模型模块采用了并行策略，这些策略提升了模型训练和生成效率，也保障了模型具备高分辨率视频生成的效果。

在推理阶段，为了在有限内存资源的条件下支持高清视频推理，万相首尾帧模型分别采用了模型切分策略以及序列并行策略，在确保推理效果无损的前提下，显著缩短了推理时间。

首尾帧生视频比文生视频、单图生视频更具可控性，是AI视频创作者最喜欢的功能之一。但这类模型训练难度较大，要求对指令遵循、画面一致性和过渡流畅性有高要求。