拓展器材综合服务商
全面开源旗下视频生成模型万相2.1。该模型是阿里云通义系列AI模型的重要组成部分,于2025年1月发布。在威望评测集VBench中,其以总分86.22%的成果大幅逾越Sora、Luma、Pika等国内外模型,稳居第一方位。
万相2.1采用了自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构,增强了时空上下文建模才能。这种规划使得模型可以更精确地捕捉和模仿实际国际的动态改变,一起经过参数同享机制降低了练习本钱。
模型经过将视频划分为多个块(Chunk)并缓存中心特征,避免了传统端到端编解码的杂乱性,支撑无限长1080P视频的高效生成和处理。
它也是首个支撑中文文字生成及中英文文字特效生成的视频生成模型。在指令遵从上,能严厉按照镜头移动等指令输出视频,对长文本指令也能精确了解和履行。
此外,该模型可以精准模仿实际国际的物理规则,例如雨滴落在伞上溅起水花、人物运动时的天然过渡等。在处理杂乱运动(如花样滑冰、游水等)时,万相2.1可以坚持肢体的协调性和运动轨道的真实性。
阿里根据Apache 2.0协议将万相2.1的14B和1.3B两个参数标准的悉数推理代码和权重全面开源,全球开发者可在 Github、HuggingFace和魔搭社区下载体会。
据界面新闻记者了解,14B模型在指令遵从、杂乱运动生成等方面体现杰出,1.3B版别能在消费级显卡运转,仅需8.2GB显存就可生成高质量视频,适用于二次模型开发和学术研究,极大降低了运用门槛。
事实上,开源视频生成模型业界已有先例,此前阶跃星斗就开源了全国际内参数量最大、功能最好的开源视频生成模型阶跃Step-Video-T2V。而阿里的开源,逐渐推动了这一趋势。
对AI职业来说,开源可为开发者供给强壮的东西,加快视频生成范畴的技术创新和使用拓宽。现在,国内AI明星公司DeepSeek正在继续开源,百度也已宣告于6月30日起全面开源文心大模型4.5。国外的OpenAI CEO山姆·奥特曼此前供认, “闭源战略站在了过错的一边”,而马斯克的Grok-3则采取了 “有限开源” 形式。