Wan 2.2 AI视频生成器

Wan 2.2是阿里巴巴达摩院的开源生成式AI视频模型,于2025年7月28日公开发布。它在视频扩散模型中引入了专家混合(MoE)架构,在不增加推理成本的情况下显著增强了模型容量和性能。该模型以其电影级美学、高清1080p输出以及生成复杂、流畅运动的能力而闻名,并且比以前的模型具有更好的控制力。

示例视频

由Wan 2.2生成

提示
侧光,柔光,高对比度,中等拍摄,居中构图,干净的单个主体框架,暖色调。一个年轻人站在森林里,他的头轻轻地抬起,眼睛清澈。阳光透过树叶,在他的头发周围形成一个金色的光环。他穿着一件浅色衬衫,微风吹拂着他的头发和衣领,每一个动作,光线都在他的脸上舞动。背景模糊,以远处斑驳的光线和柔和的树木轮廓为特色。
Copied
提示
这是一部纯粹的视觉和大气视频作品,专注于光影的相互作用,以玉米火车为中心主题。想象一下,一个沐浴在戏剧性的温暖聚光灯下的舞台,一列玉米火车,呈现出鲜明的轮廓,在空间中缓慢移动。该视频探索了火车投射的光影的动态相互作用,创造了在舞台上跳舞的抽象图案、形状和幻觉。配乐应该是环境和极简主义的,增强作品的大气和抽象性。
Copied
提示
广角镜头,视频显示一名身穿红色服装的人站在自动扶梯上,背对着镜头。自动扶梯正在向上移动,人似乎静止不动。周围光线昏暗,反射表面创造了一种镜像效果,给人一种多个相同人物同时上升的印象。
Copied
提示
一名男子在奔跑,在霓虹灯闪烁的城市夜晚,穿过被雨水浸泡的后巷,湿漉漉的人行道上冒出蒸汽。他穿着一件湿透的风衣,当他沿着小巷冲刺时,他的脸上充满了恐慌,不断地回头看。从后面拍摄的追逐序列,让观众深深地沉浸在其中,就好像追逐者就在镜头后面。
Copied
提示
一个带有黄昏色调的复古滤镜捕捉到了一个平静的三十多岁的黑人女性坐在行驶中的地铁车厢里。周围的人来回移动,造成了明显的模糊效果,但她仍然清晰可见。柔和的光线和电影般的质量在这个喜怒无常的环境中营造出一种神秘的氛围。
Copied
提示
空中杂技在飞行的飞机机翼上,一名体操运动员穿着红白相间的运动服向前移动,强风抽打着她的头发和衣服。突然,她在半空中侧手翻,优雅地落在金属翼尖上。接着,她在咆哮的气流中做了一个侧身翻转。结束她的例行公事后,她双脚站稳脚跟,指尖轻轻地擦过翅膀的边缘。
Copied
提示
蔚蓝的天空下,在一旁柔和温暖的阳光照射下,一个红发女子正笑容可掬。她长长的卷发在微风中舞动。她穿着一套饰有花卉图案的绿色西装和合身的裤子,搭配引人注目的霓虹绿短靴。她头上戴着一顶边缘微微下垂的大檐草帽。站在一条覆盖着金色干草的乡村小路上,广阔的田野和原始的蓝色地平线构成了背景。她举起双手,挥舞着一根蓝色的花园软管,从软管中喷出的是五颜六色的花朵而不是水,像烟花一样散落在空中。颜色和形状各异的花朵在阳光下闪烁着柔和的光泽。
Copied

Wan 2.2的主要功能

Wan 2.2是阿里巴巴达摩院的开源生成式AI视频模型,于2025年7月28日公开发布。它在视频扩散模型中引入了专家混合(MoE)架构,在不增加推理成本的情况下显著增强了模型容量和性能。该模型以其电影级美学、高清1080p输出以及生成复杂、流畅运动的能力而闻名,并且比以前的模型具有更好的控制力。

高级运动生成

在视频中创建复杂、流畅和自然的动作,提高真实感和连贯性。

电影美学

接受精心策划的数据培训,可精确控制灯光、色彩和构图的视频。

高清晰度输出

以24fps的速度生成原生1080p分辨率的视频,适合专业使用。

专家会议(MoE)

电影摄影机控制 以24fps的速度生成原生1080p分辨率的视频,适合专业使用。

倒数第一帧到视频(FLF2V)

通过在指定的开始帧和结束帧之间进行插值来创建无缝视频过渡。

消费级GPU兼容性

高度压缩的5B型号可以在RTX 4090等消费级GPU上运行。

开源和可定制

该模型是公开可用的,允许使用LoRA和其他社区开发的工具进行微调。

Wan 2.2功能和使用案例

一个滑板运动员在户外表演复杂把戏的电影镜头。
复杂运动生成
模拟角色和对象的真实物理和自然运动动力学。
电影日夜风景延时
倒数第一帧到视频
模拟角色和对象的真实物理和自然运动动力学。
黑色电影场景,两个角色在一个阴暗的,下雨的房间。
电影审美控制
允许精确控制输出的视觉风格、照明和情绪。
在人群的注视下,黄色直升机在班加罗尔上空放下巨型香蕉片。
高清晰度输出
以1080p的原生分辨率渲染视频,无需升级。
在轻轻触摸下,素描会变成一只3D蓝鸟。
LoRA微调
支持集成LoRA模型来微调视频的风格。
可口可乐广告变成了一个逼真的3D气泡瓶。
高效混合TI2V
使用单个模型来支持文本到视频和图像到视频的生成。
超现实楼梯、工业车间、金色舞蹈和发光数字面纱的电影蒙太奇。
开源的
该模型的架构和权重可公开下载。

如何在Vizard上使用Wan 2.2

以下是帮助您在Vizard上探索Wan 2.2的三个简单步骤:

选择Wan 2.2型号

选择Wan 2.2型号

转到Vizard的文本到视频生成器,选择Wan 2.2型号。

输入您的提示

输入您的提示

输入您的提示或上传您的图像开始。

保存视频以供下载或共享

保存视频以供下载或共享

一旦视频准备好了,你可以直接通过Vizard下载或分享到你的社交媒体账户上。

关于Wan 2.2的YouTube视频

常见问题

什么是Wan 2.2?

Wan 2.2是阿里巴巴达摩院开发的最先进的开源生成式人工智能视频模型。这是对基础Wan视频模型系列的重大升级,旨在根据文本和图像提示创建高质量的电影视频。该模型以其先进的运动生成和美学控制而闻名。

有哪些版本可用?

Wan 2.2有几个版本,具有不同的功能。核心开源模型包括高效的TI2V-5B模型,该模型同时支持720p分辨率的文本到视频(T2V)和图像到视频(I2V),可以在消费级GPU上运行。还有更强大的14B型号,如T2V-A14B和I2V-A14B,它们使用专家混合(MoE)架构,以获得卓越的质量和性能,适合更健壮的硬件。

是什么让它独一无二?

Wan 2.2因其创新的专家混合(MoE)架构而脱颖而出,该架构将去噪过程分为专门的阶段,以获得更好的性能,而不会显著增加计算成本。它还具有电影级的美学控制,能够生成复杂和流畅的运动,以及在两个图像之间创建平滑过渡的倒数第一帧到视频(FLF2V)功能。它的开源性质允许社区驱动的微调和集成。

使用安全吗?

作为一个开源模型,Wan 2.2的安全性很大程度上取决于它是如何实现和使用的。开发人员已经制定了使用政策,禁止生成非法、有害或误导性的内容。虽然该模型本身没有内置的内容审核系统,但使用Wan 2.2的开发人员和平台应该实施自己的安全措施,以确保负责任的使用并遵守法律和道德标准。

速度有多快?

Wan 2.2针对速度进行了高度优化,尤其是其TI2V-5B型号,这是720p分辨率和24fps下最快的型号之一。在RTX 4090这样的消费级GPU上,只需几分钟就可以生成5秒的视频,更强大的硬件可以提供更快的结果。其高效的专家混合(MoE)架构进一步提高了速度。

可以通过手机访问吗?

Wan 2.2主要是一个以开发人员为中心的开源模型。它没有来自其生产商的官方专用移动应用程序。然而,因为它是开源的,开发人员可以将它集成到移动友好的web应用程序中,或者创建自己的移动应用程序。它的消费级GPU兼容性也使它更容易被拥有高端移动工作站的用户使用。

它能产生或创造什么?

Wan 2.2能够生成各种各样的视频内容,从短片广告和社交媒体剪辑到电影场景和动画。它的功能包括文本到视频、图像到视频和基于图像的绘画。用户可以生成具有特定摄像机运动、精确美学风格以及角色和物体逼真运动的视频,使其成为技术和创意项目的多功能工具。

怎么用?

使用Wan 2.2最常见的方法是下载模型文件并在本地兼容机器上运行它们,通常通过ComfyUI或Diffusers等平台进行集成。为了获得更易于访问的体验,该模型可通过云API提供商获得。还有机会通过Vizard平台免费试用Wan 2.2,该平台提供了一个用于试验该模型功能的在线界面。

立即在Vizard上开始使用Wan 2.2!

Wan 2.2 AI视频生成器

Wan 2.2是阿里巴巴达摩院的开源生成式AI视频模型,于2025年7月28日公开发布。它在视频扩散模型中引入了专家混合(MoE)架构,在不增加推理成本的情况下显著增强了模型容量和性能。该模型以其电影级美学、高清1080p输出以及生成复杂、流畅运动的能力而闻名,并且比以前的模型具有更好的控制力。

在Vizard Desktop上试用Wan 2.2
示例视频

由Wan 2.2生成

提示
侧光,柔光,高对比度,中等拍摄,居中构图,干净的单个主体框架,暖色调。一个年轻人站在森林里,他的头轻轻地抬起,眼睛清澈。阳光透过树叶,在他的头发周围形成一个金色的光环。他穿着一件浅色衬衫,微风吹拂着他的头发和衣领,每一个动作,光线都在他的脸上舞动。背景模糊,以远处斑驳的光线和柔和的树木轮廓为特色。
Copied
提示
这是一部纯粹的视觉和大气视频作品,专注于光影的相互作用,以玉米火车为中心主题。想象一下,一个沐浴在戏剧性的温暖聚光灯下的舞台,一列玉米火车,呈现出鲜明的轮廓,在空间中缓慢移动。该视频探索了火车投射的光影的动态相互作用,创造了在舞台上跳舞的抽象图案、形状和幻觉。配乐应该是环境和极简主义的,增强作品的大气和抽象性。
Copied
提示
广角镜头,视频显示一名身穿红色服装的人站在自动扶梯上,背对着镜头。自动扶梯正在向上移动,人似乎静止不动。周围光线昏暗,反射表面创造了一种镜像效果,给人一种多个相同人物同时上升的印象。
Copied
提示
一名男子在奔跑,在霓虹灯闪烁的城市夜晚,穿过被雨水浸泡的后巷,湿漉漉的人行道上冒出蒸汽。他穿着一件湿透的风衣,当他沿着小巷冲刺时,他的脸上充满了恐慌,不断地回头看。从后面拍摄的追逐序列,让观众深深地沉浸在其中,就好像追逐者就在镜头后面。
Copied
提示
一个带有黄昏色调的复古滤镜捕捉到了一个平静的三十多岁的黑人女性坐在行驶中的地铁车厢里。周围的人来回移动,造成了明显的模糊效果,但她仍然清晰可见。柔和的光线和电影般的质量在这个喜怒无常的环境中营造出一种神秘的氛围。
Copied
提示
空中杂技在飞行的飞机机翼上,一名体操运动员穿着红白相间的运动服向前移动,强风抽打着她的头发和衣服。突然,她在半空中侧手翻,优雅地落在金属翼尖上。接着,她在咆哮的气流中做了一个侧身翻转。结束她的例行公事后,她双脚站稳脚跟,指尖轻轻地擦过翅膀的边缘。
Copied
提示
蔚蓝的天空下,在一旁柔和温暖的阳光照射下,一个红发女子正笑容可掬。她长长的卷发在微风中舞动。她穿着一套饰有花卉图案的绿色西装和合身的裤子,搭配引人注目的霓虹绿短靴。她头上戴着一顶边缘微微下垂的大檐草帽。站在一条覆盖着金色干草的乡村小路上,广阔的田野和原始的蓝色地平线构成了背景。她举起双手,挥舞着一根蓝色的花园软管,从软管中喷出的是五颜六色的花朵而不是水,像烟花一样散落在空中。颜色和形状各异的花朵在阳光下闪烁着柔和的光泽。
Copied

Wan 2.2的主要功能

Wan 2.2是阿里巴巴达摩院的开源生成式AI视频模型,于2025年7月28日公开发布。它在视频扩散模型中引入了专家混合(MoE)架构,在不增加推理成本的情况下显著增强了模型容量和性能。该模型以其电影级美学、高清1080p输出以及生成复杂、流畅运动的能力而闻名,并且比以前的模型具有更好的控制力。

高级运动生成

在视频中创建复杂、流畅和自然的动作,提高真实感和连贯性。

电影美学

接受精心策划的数据培训,可精确控制灯光、色彩和构图的视频。

高清晰度输出

以24fps的速度生成原生1080p分辨率的视频,适合专业使用。

专家会议(MoE)

电影摄影机控制 以24fps的速度生成原生1080p分辨率的视频,适合专业使用。

倒数第一帧到视频(FLF2V)

通过在指定的开始帧和结束帧之间进行插值来创建无缝视频过渡。

消费级GPU兼容性

高度压缩的5B型号可以在RTX 4090等消费级GPU上运行。

开源和可定制

该模型是公开可用的,允许使用LoRA和其他社区开发的工具进行微调。

Wan 2.2功能和使用案例

一个滑板运动员在户外表演复杂把戏的电影镜头。
复杂运动生成
模拟角色和对象的真实物理和自然运动动力学。
电影日夜风景延时
倒数第一帧到视频
模拟角色和对象的真实物理和自然运动动力学。
黑色电影场景,两个角色在一个阴暗的,下雨的房间。
电影审美控制
允许精确控制输出的视觉风格、照明和情绪。
在人群的注视下,黄色直升机在班加罗尔上空放下巨型香蕉片。
高清晰度输出
以1080p的原生分辨率渲染视频,无需升级。
在轻轻触摸下,素描会变成一只3D蓝鸟。
LoRA微调
支持集成LoRA模型来微调视频的风格。
可口可乐广告变成了一个逼真的3D气泡瓶。
高效混合TI2V
使用单个模型来支持文本到视频和图像到视频的生成。
超现实楼梯、工业车间、金色舞蹈和发光数字面纱的电影蒙太奇。
开源的
该模型的架构和权重可公开下载。

如何在Vizard上使用Wan 2.2

以下是帮助您在Vizard上探索Wan 2.2的三个简单步骤:

选择Wan 2.2型号

选择Wan 2.2型号

转到Vizard的文本到视频生成器,选择Wan 2.2型号。

输入您的提示

输入您的提示

输入您的提示或上传您的图像开始。

保存视频以供下载或共享

保存视频以供下载或共享

一旦视频准备好了,你可以直接通过Vizard下载或分享到你的社交媒体账户上。

关于Wan 2.2的YouTube视频

常见问题

什么是Wan 2.2?

Wan 2.2是阿里巴巴达摩院开发的最先进的开源生成式人工智能视频模型。这是对基础Wan视频模型系列的重大升级,旨在根据文本和图像提示创建高质量的电影视频。该模型以其先进的运动生成和美学控制而闻名。

有哪些版本可用?

Wan 2.2有几个版本,具有不同的功能。核心开源模型包括高效的TI2V-5B模型,该模型同时支持720p分辨率的文本到视频(T2V)和图像到视频(I2V),可以在消费级GPU上运行。还有更强大的14B型号,如T2V-A14B和I2V-A14B,它们使用专家混合(MoE)架构,以获得卓越的质量和性能,适合更健壮的硬件。

是什么让它独一无二?

Wan 2.2因其创新的专家混合(MoE)架构而脱颖而出,该架构将去噪过程分为专门的阶段,以获得更好的性能,而不会显著增加计算成本。它还具有电影级的美学控制,能够生成复杂和流畅的运动,以及在两个图像之间创建平滑过渡的倒数第一帧到视频(FLF2V)功能。它的开源性质允许社区驱动的微调和集成。

使用安全吗?

作为一个开源模型,Wan 2.2的安全性很大程度上取决于它是如何实现和使用的。开发人员已经制定了使用政策,禁止生成非法、有害或误导性的内容。虽然该模型本身没有内置的内容审核系统,但使用Wan 2.2的开发人员和平台应该实施自己的安全措施,以确保负责任的使用并遵守法律和道德标准。

速度有多快?

Wan 2.2针对速度进行了高度优化,尤其是其TI2V-5B型号,这是720p分辨率和24fps下最快的型号之一。在RTX 4090这样的消费级GPU上,只需几分钟就可以生成5秒的视频,更强大的硬件可以提供更快的结果。其高效的专家混合(MoE)架构进一步提高了速度。

可以通过手机访问吗?

Wan 2.2主要是一个以开发人员为中心的开源模型。它没有来自其生产商的官方专用移动应用程序。然而,因为它是开源的,开发人员可以将它集成到移动友好的web应用程序中,或者创建自己的移动应用程序。它的消费级GPU兼容性也使它更容易被拥有高端移动工作站的用户使用。

它能产生或创造什么?

Wan 2.2能够生成各种各样的视频内容,从短片广告和社交媒体剪辑到电影场景和动画。它的功能包括文本到视频、图像到视频和基于图像的绘画。用户可以生成具有特定摄像机运动、精确美学风格以及角色和物体逼真运动的视频,使其成为技术和创意项目的多功能工具。

怎么用?

使用Wan 2.2最常见的方法是下载模型文件并在本地兼容机器上运行它们,通常通过ComfyUI或Diffusers等平台进行集成。为了获得更易于访问的体验,该模型可通过云API提供商获得。还有机会通过Vizard平台免费试用Wan 2.2,该平台提供了一个用于试验该模型功能的在线界面。

立即在Vizard上开始使用Wan 2.2!