Los creadores de ChatGPT quieren todo con Sora 2: una app estilo TikTok, pero con videos hechos con IA como los de Gemini de Google

Después de varios rumores, OpenAI finalmente ha presentado Sora 2, su nuevo modelo de generación de video y audio que representa una mejora del Sora original lanzado en 2024. Esta nueva versión cuenta con mejoras de simulación más avanzadas gracias a una mayor comprensión del mundo físico.

OpenAI compara a Sora 2 con el lanzamiento del modelo GPT-3.5 en video, ya que puede hacer cosas “excepcionalmente difíciles” que serían casi imposibles para cualquier otro modelo de generación anterior. Por ejemplo, rutinas de gimnasia olímpica o volteretas hacia atrás en tablas de surf que deben mantener la precisión de la flotabilidad y la rigidez de los materiales.

En el caso de los modelos anteriores, dice OpenAI, estos eran “demasiado optimistas” y tenían una tendencia a deformar la realidad o transformar objetos con el objetivo de llegar a un resultado. Esto provocaba que, en acciones como un jugador de basquetbol que fallaba un tiro, el balón se teletransportara espontáneamente al aro. Ahora con Sora 2, si esto pasa, la pelota rebota en el tablero.

Aunque Sora 2 puede seguir con este tipo de errores de forma interna y aún es imperfecto, la compañía indica que obedece mejor a las leyes de la física. Esto permite simular mundos más útiles para poder modelar fracasos y no solo éxitos. También representa un avance en controlabilidad, ya que es capaz de seguir instrucciones complejas con múltiples tomas y mantiene de forma constante el estado del mundo generado en diferentes estilos, como anime, realista o cinematográfico.

Además, al ser un “sistema de generación de video y audio de propósito general”, la compañía indica que es capaz de crear cosas como paisajes sonoros de fondo, diálogos y efectos de sonido con un alto grado de realismo.

Otra de las novedades de Sora 2 es la posibilidad de “agregar” elementos del mundo real. Por ejemplo, si se graba el video de una persona, el modelo es capaz de insertarlo en prácticamente cualquier entorno generado por Sora y mantiene una representación precisa de su apariencia y voz. Esta funcionalidad se puede utilizar no solo con seres humanos, sino también con animales u objetos.

Eso sí, OpenAI indica que el modelo aún está lejos de ser perfecto y sigue cometiendo muchos errores, pero esto se solucionará a medida que se amplíen las redes neuronales con más datos de video para simular mejor la realidad.

Sora, la nueva red social para experimentar con IA

Como una forma de que este tipo de sistemas de simulación de propósito general puedan servir en el mundo físico, la compañía considera que la gente “puede divertirse mucho” con los modelos que construye.

Para ello, como parte de su despliegue, OpenAI ha trabajado en varias funciones. El equipo de Sora ha probado la plataforma durante meses y, según la compañía, es como una “evolución natural” de la comunicación, que pasa de los mensajes de texto a los emojis, las notas de voz y ahora a esta nueva modalidad.

Por esta razón, OpenAI ha presentado su propia app de red social llamada Sora. La plataforma utiliza su nuevo modelo Sora 2, que permite crear, remezclar generaciones de otras personas y descubrir nuevos videos en un feed personalizable, de la misma forma que en otras plataformas como TikTok, Instagram o YouTube.

Además, también está la posibilidad de aparecer uno mismo o sus amigos con la función de “Cameos”, que permite aparecer directamente en cualquier escena de Sora con lo que OpenAI llama “una fidelidad excepcional”. Solamente requiere una grabación breve de video y audio directamente en la app que sirve, por un lado, para capturar la imagen del usuario, y por otro, para verificar su identidad.

App Sora 01

Es decir, quien quiera tener su imagen dentro de la plataforma, deberá “escanearse” y aceptar los términos y condiciones de uso. Esta app se ha utilizado de forma interna dentro de OpenAI y, como indicaba el reporte original de Wired, ha tenido una gran recepción dentro de la compañía.

Cameos, personalización y controles parentales

Al igual que con otros productos de la compañía, OpenAI ha indicado que la app de Sora y el nuevo modelo cuentan con herramientas para controlar lo que se ve en el feed. Con los modelos de lenguaje existentes, se ha desarrollado un nuevo tipo de algoritmo de recomendación que se puede ajustar con lenguaje natural, además de otras herramientas que permiten ajustar de forma proactiva el contenido.

De forma predeterminada, dice la compañía, se mostrará contenido con un fuerte sesgo hacia las personas que se sigue o con las que se interactúa. También se priorizarán los videos que el modelo considera más probables para usarse como inspiración para las propias creaciones. El sistema no toma en cuenta el tiempo que se pasa en el feed, sino que es una app diseñada para maximizar la creación, no tanto el consumo.

Esta app, dice la compañía, está también pensada para usarse con amigos, que tienen una gran relevancia al utilizar herramientas como Cameos, la cual permite nuevas formas de comunicación.

Para proteger a los adolescentes, se implementan límites de generaciones que pueden ver al día en el feed y cuentan con permisos más estrictos para los Cameos. Además, tienen un equipo de moderadores humanos para revisar casos de acoso y, al igual que en ChatGPT, a Sora también llegan nuevos controles parentales. Estos permiten anular los límites de desplazamiento infinito, desactivar las personalizaciones del algoritmo y hasta administrar las configuraciones de mensajes directos.

En el caso de los Cameos, dice OpenAI, el usuario tiene el control total de su imagen en Sora. Este decide quién la puede usar, pero también puede revocar el acceso o eliminar cualquier video que lo incluya, además de poder revisar las creaciones que contienen sus cameos, incluso los borradores de otros usuarios.

Finalmente, hay otros controles de seguridad en esta aplicación, como el consentimiento para el uso de la imagen, la procedencia del contenido y la prevención de generación de material dañino.

La compañía también indica que, a diferencia de otras apps donde la búsqueda de monetización incentiva decisiones contrarias al bienestar del usuario, de momento su único plan es ofrecer la opción de pagar una cantidad para generar videos adicionales. Esto aplicaría solo si la demanda es excesiva en relación con el cómputo disponible, es decir, si supera sus límites generales.

Disponibilidad de Sora 2

De momento, Sora está disponible únicamente para iOS y ya se puede descargar, pero solamente tiene lanzamiento oficial en Estados Unidos y Canadá, aunque la compañía tiene la intención de expandirla a más países.

Inicialmente será una aplicación que necesitará invitaciones para funcionar. Una vez recibida, se podrá acceder a Sora 2 a través de sora.com, donde el nuevo modelo estará disponible de forma gratuita “con generosos límites” para que se exploren libremente sus capacidades.

En el caso de los usuarios de ChatGPT Pro, podrán utilizar de forma adicional un modelo Sora 2 Pro que tiene una mayor calidad y que pronto llegará a la app de Sora. Mientras tanto, Sora 1 Turbo seguirá disponible y todo el contenido generado previamente seguirá en la biblioteca de la plataforma.

Cortesía de Xataka



Dejanos un comentario: