Utilizando una foto y una pista de sonido, Microsoft ha diseñado una IA llamada Vasa-1, que puede producir imágenes realistas de rostros en movimiento.
Microsoft ha dado un gran salto en el campo de la inteligencia artificial con el lanzamiento de VASA-1, una herramienta revolucionaria que transforma una sola imagen estática y un clip de audio en vídeos realistas y expresivos. Esta innovadora herramienta de generación de imágenes a vídeo tiene capacidades sorprendentes para crear rostros parlantes con movimientos labiales perfectamente sincronizados con el audio, así como una amplia gama de expresiones faciales y movimientos naturales de la cabeza.
El marco de VASA, según lo explicado por Microsoft, se centra en generar rostros virtuales realistas con habilidades visuales afectivas (VAS) a partir de una imagen y un audio de habla. El modelo VASA-1 ha sido elogiado por su capacidad para capturar la autenticidad y la vivacidad de los personajes generados, gracias a su enfoque holístico en la generación de dinámicas faciales y movimientos de cabeza en un espacio latente facial.
Uno de los aspectos más destacados de VASA-1 es su capacidad para personalizar los vídeos generados manipulando la dirección de la mirada, la distancia percibida y el estado emocional del personaje. Esto significa que los usuarios pueden adaptar los vídeos según sus necesidades específicas o para lograr efectos deseados, añadiendo un nivel de flexibilidad y creatividad sin precedentes en la generación de contenido visual.
El proceso de uso de VASA-1 es bastante sencillo e intuitivo. Basta con subir una fotografía al programa, agregar una instrucción y un discurso de audio, y luego el sistema genera automáticamente el vídeo con la capacidad de ajustar la mirada, el estado emocional y la velocidad de las palabras, permitiendo así una interacción en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos.
Evento de Apple para desvelar los nuevos iPad se llevará a cabo el 7 de mayo