Generación de video

Wan 2.2

Modelo open weights de video (MoE) con generación 1080p nativa, opción ligera 5B y soporte speech-to-video.

Resumen

¿Qué es?

Wan 2.2 es la versión más reciente de la familia de modelos de video de Wan-AI (Alibaba Cloud). Introduce arquitectura Mixture of Experts (MoE) para mayor calidad/eficiencia, genera video Full HD 1080p nativo y ofrece una variante ligera TI2V-5B que puede correr en GPUs de consumo (ej. RTX 4090). Soporta speech-to-video (S2V) para animar rostros con audio y permite descarga de pesos para uso local vía herramientas como ComfyUI.

A favor

Ventajas

Calidad 1080p nativa: videos nítidos sin upscaling externo.
Arquitectura MoE + variante ligera 5B: viable en GPUs de consumo; el 14B sigue siendo tope.
Speech-to-video: anima fotos/logos con audio para avatares parlantes.
Open weights: se puede integrar en flujos locales (ComfyUI/Diffusers) manteniendo datos en tu infraestructura.

A revisar

Desventajas

El modelo completo (14B MoE) exige múltiples GPUs potentes; alto requisito de VRAM.
Configurar localmente requiere pericia técnica (ComfyUI/Diffusers); no es clic-and-go.
Revisar licencia y origen (Alibaba) para contratos gubernamentales o clientes con restricciones geopolíticas.

Casos de uso

Funciona mejor para

Generar video 1080p para marketing (fondos, anuncios, B-roll) sin depender de servicios externos.
Crear avatares parlantes (S2V) para demos o características "wow" en experiencias de soporte.
Experimentar con pipelines locales de video IA usando modelos descargables y control total de datos.

Fuentes

¿Qué es?

Ventajas

Desventajas

Funciona mejor para

Enlaces recomendados