Idioma
Volver a todas las guías
Generación de video

Wan 2.2

Modelo open weights de video (MoE) con generación 1080p nativa, opción ligera 5B y soporte speech-to-video.

Resumen

¿Qué es?

Wan 2.2 es la versión más reciente de la familia de modelos de video de Wan-AI (Alibaba Cloud). Introduce arquitectura Mixture of Experts (MoE) para mayor calidad/eficiencia, genera video Full HD 1080p nativo y ofrece una variante ligera TI2V-5B que puede correr en GPUs de consumo (ej. RTX 4090). Soporta speech-to-video (S2V) para animar rostros con audio y permite descarga de pesos para uso local vía herramientas como ComfyUI.

A favor

Ventajas

  • Calidad 1080p nativa: videos nítidos sin upscaling externo.
  • Arquitectura MoE + variante ligera 5B: viable en GPUs de consumo; el 14B sigue siendo tope.
  • Speech-to-video: anima fotos/logos con audio para avatares parlantes.
  • Open weights: se puede integrar en flujos locales (ComfyUI/Diffusers) manteniendo datos en tu infraestructura.
A revisar

Desventajas

  • El modelo completo (14B MoE) exige múltiples GPUs potentes; alto requisito de VRAM.
  • Configurar localmente requiere pericia técnica (ComfyUI/Diffusers); no es clic-and-go.
  • Revisar licencia y origen (Alibaba) para contratos gubernamentales o clientes con restricciones geopolíticas.
Casos de uso

Funciona mejor para

  • Generar video 1080p para marketing (fondos, anuncios, B-roll) sin depender de servicios externos.
  • Crear avatares parlantes (S2V) para demos o características "wow" en experiencias de soporte.
  • Experimentar con pipelines locales de video IA usando modelos descargables y control total de datos.
Fuentes

Enlaces recomendados