¿Qué es?
Wan 2.2 es la versión más reciente de la familia de modelos de video de Wan-AI (Alibaba Cloud). Introduce arquitectura Mixture of Experts (MoE) para mayor calidad/eficiencia, genera video Full HD 1080p nativo y ofrece una variante ligera TI2V-5B que puede correr en GPUs de consumo (ej. RTX 4090). Soporta speech-to-video (S2V) para animar rostros con audio y permite descarga de pesos para uso local vía herramientas como ComfyUI.
Ventajas
- Calidad 1080p nativa: videos nítidos sin upscaling externo.
- Arquitectura MoE + variante ligera 5B: viable en GPUs de consumo; el 14B sigue siendo tope.
- Speech-to-video: anima fotos/logos con audio para avatares parlantes.
- Open weights: se puede integrar en flujos locales (ComfyUI/Diffusers) manteniendo datos en tu infraestructura.
Desventajas
- El modelo completo (14B MoE) exige múltiples GPUs potentes; alto requisito de VRAM.
- Configurar localmente requiere pericia técnica (ComfyUI/Diffusers); no es clic-and-go.
- Revisar licencia y origen (Alibaba) para contratos gubernamentales o clientes con restricciones geopolíticas.
Funciona mejor para
- Generar video 1080p para marketing (fondos, anuncios, B-roll) sin depender de servicios externos.
- Crear avatares parlantes (S2V) para demos o características "wow" en experiencias de soporte.
- Experimentar con pipelines locales de video IA usando modelos descargables y control total de datos.