Sora: creador de vídeos desde texto

Creando video a partir de texto, Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones textuales. Todos los videos en esta página han sido generados directamente por Sora sin modificaciones. Esta nueva IA está comenzando a entender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real.

OpenAI presenta a Sora, el modelo de texto a vídeo. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y la adherencia a las instrucciones del usuario.

Sora es un modelo de IA que puede crear videos realistas e imaginativos a partir de instrucciones de texto, y está siendo puesto a disposición de expertos en seguridad y un grupo seleccionado de artistas visuales, diseñadores y cineastas para evaluar sus posibles riesgos y recopilar comentarios que ayuden a mejorar el modelo, especialmente para profesionales creativos. OpenAI comparte este progreso para colaborar y obtener retroalimentación de personas fuera de la organización, ofreciendo una visión de las futuras capacidades de la IA.

Prompt: Varios enormes mamuts lanudos se acercan caminando por una pradera nevada, su largo pelaje lanudo se mueve ligeramente con el viento mientras avanzan, árboles cubiertos de nieve y montañas nevadas dramáticas en la distancia, luz de media tarde con nubes tenues y un sol alto en la distancia crea un resplandor cálido, la vista baja de la cámara es impresionante capturando al gran mamífero peludo con hermosa fotografía, profundidad de campo. Fuente: OpenAI

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo, entendiendo no solo lo que el usuario solicita, sino también cómo existen esos elementos en el mundo físico.

El modelo tiene una comprensión profunda del lenguaje, lo que le permite interpretar de manera precisa las instrucciones y generar personajes convincentes que expresan emociones vivas. Sora también puede crear múltiples tomas dentro de un único video generado, manteniendo de manera precisa los personajes y el estilo visual.

El modelo actual tiene limitaciones, como dificultades para simular con precisión la física de escenas complejas o entender instancias específicas de causa y efecto. Por ejemplo, puede no reflejar de manera precisa el resultado de acciones, como una marca de mordida en una galleta después de que alguien la muerda. Además, podría confundir detalles espaciales o tener problemas con descripciones precisas de eventos a lo largo del tiempo.

Prompt: Una cámara de dron rodea una hermosa iglesia histórica en un saliente rocoso a lo largo de la Costa Amalfitana, mostrando detalles arquitectónicos magníficos, senderos y patios escalonados. Se observan olas chocando contra las rocas mientras se contempla el horizonte costero e Italia. Gente a lo lejos disfruta de las vistas en patios con vistas al océano, bajo el cálido resplandor del sol de la tarde, añadiendo un toque mágico y romántico a la escena capturada con hermosa. Fuente OpenAI


Seguridad

Antes de hacer disponible Sora en los productos de OpenAI, se tomarán importantes medidas de seguridad, incluyendo pruebas adversarias por expertos en áreas como la desinformación y el sesgo. También se están desarrollando herramientas para detectar contenidos engañosos y se planea incluir metadatos C2PA en futuros despliegues. Además, se aplicarán métodos de seguridad existentes, como clasificadores de texto e imagen para revisar el cumplimiento de las políticas de uso. OpenAI también involucrará a legisladores, educadores y artistas para entender sus preocupaciones y encontrar casos de uso positivos.

Investigaciones técnica

Sora es un modelo de difusión que genera videos a partir de instrucciones de texto, iniciando con un video que parece ruido estático y transformándolo gradualmente. Utiliza una arquitectura de transformador similar a los modelos GPT y representa los videos e imágenes como colecciones de «parches», lo que permite un entrenamiento más amplio con diferentes tipos de datos visuales. Sora puede generar videos completos, extenderlos o rellenar fotogramas faltantes, basándose en investigaciones anteriores y técnicas como la recaptación de DALL·E 3 para seguir fielmente las instrucciones de texto.