阿里开源文生视频模型万相2.1，推出双版本。

2025-03-04

阿里云近日宣布，其最新的文本生成视频模型——万相2.1正式开源，并同步推出两种不同版本，以满足不同用户群体的需求。作为国内首个大模型开源体系通义大模型系列的重要组成部分，万相2.1在性能、效率和易用性方面实现了显著提升，为开发者提供了更加灵活的选择。

性能优化与技术创新

相较于前代产品，万相2.1在多个维度进行了深度优化。首先，在生成质量上有了质的飞跃。通过对海量高质量数据的学习以及算法的改进，该模型能够生成更加逼真、连贯且富有创意的视频内容。无论是人物表情的细腻刻画，还是场景转换的自然流畅，都达到了行业领先水平。例如，在处理复杂背景或动态场景时，新版本可以准确捕捉细节，避免了以往可能出现的画面模糊或失真问题。

其次，万相2.1大幅提升了推理速度。通过引入先进的剪枝技术（Pruning Technique）和量化方法（Quantization Method），使得模型在保持高精度的同时降低了计算资源消耗。这意味着即使是在普通硬件环境下，用户也能享受到快速高效的视频创作体验。根据内部测试数据显示，在同等条件下，新版模型的推理时间相比之前缩短了近30%，这无疑将极大提高生产力并降低成本。

此外，针对跨模态理解这一关键能力，研发团队也做出了重要突破。万相2.1不仅能够根据文字描述生成对应的视觉内容，还能反向解析现有视频片段中的语义信息，从而实现双向交互。这种强大的跨模态转换功能为应用场景带来了无限可能，比如可以帮助创作者从已有的素材中提取有价值的信息，或者用于自动标注大量未标记的数据集等。

双版本策略：满足多样化需求

考虑到不同用户群体对于模型的具体要求存在差异，此次发布的万相2.1特别推出了基础版(Base Model)和增强版(Enhanced Model)两个版本，旨在覆盖更广泛的应用场景。

基础版：面向广大个人开发者及小型企业用户设计，它继承了核心算法框架，保留了主要功能特性，如基本的文字转视频生成能力、简单的风格迁移效果等。同时，为了便于部署和使用，官方还提供了一系列简化的API接口文档和支持工具，让用户能够轻松上手，快速集成到自己的项目当中。更重要的是，基础版完全免费开放源代码，鼓励社区成员积极参与贡献，共同推动技术进步。
增强版：则专注于满足专业级用户的更高标准。除了具备所有基础功能外，增强版还增加了多项高级特性，包括但不限于：
- 更精准的人物动作捕捉与重建；
- 多种风格化滤镜选项，支持自定义调整参数；
- 强大的后期编辑功能，允许直接对生成结果进行裁剪、拼接等操作；
- 支持多语言输入，适应国际化市场需求。

值得注意的是，虽然增强版同样遵循开源协议，但为了确保服务质量和技术安全，阿里云会对使用者身份进行审核认证。只有符合条件并通过评估后，才能获得完整授权访问权限。

开源生态建设

随着万相2.1的开源发布，阿里云再次彰显了其在人工智能领域开放合作的态度。通过将如此先进的技术成果分享给全球开发者，不仅有助于加速AI技术的发展普及，也为构建健康可持续发展的产业生态系统奠定了坚实基础。

一方面，开源模式可以吸引更多优秀的科研人才加入进来，围绕着这个平台开展深入研究探索，形成良性循环。另一方面，借助开源社区的力量，能够迅速收集到来自各方的意见反馈，帮助团队及时发现潜在问题并加以改进完善。此外，广泛的交流互动还有利于促进不同地区、文化之间的相互学习借鉴，激发更多创新灵感。

总之，阿里云此次推出的万相2.1及其双版本策略，不仅是自身技术研发实力的一次集中展示，更是对整个行业未来发展路径的一次积极探索。未来，随着更多伙伴的加入，相信这一开源项目将会不断发展壮大，为人们带来更多惊喜与改变。

性能优化与技术创新

双版本策略：满足多样化需求

开源生态建设

15201532315 CONTACT US