
El nuevo generador de imágenes de OpenAI despierta tanto emoción como miedo
abril 9, 2022
OpenAI ha presentado una nueva herramienta de inteligencia artificial que convierte texto en imágenes, y los resultados son sorprendentes.
Llamado DALL-E 2, el sistema sucede a un modelo presentado el año pasado. Si bien su predecesor generó resultados impresionantes, la nueva versión es una actualización importante.
DALL-E-2 agrega una mejor comprensión del texto, una generación de imágenes más rápida y cuatro veces la resolución.
“Al acercarnos a DALL-E 2, nos enfocamos en mejorar la calidad y la latencia de la resolución de imagen, en lugar de construir un sistema más grande”, dijo Aditya Ramesh, investigador de OpenAI, en TNW.
Quimeras de animales helicóptero generadas con DALL·E 2: pic.twitter.com/5b8a9iq3k9
—Aditya Ramesh (@modelo_mecánico) 7 de abril de 2022
La nueva herramienta también presenta dos características adicionales: reinterpretaciones de imágenes existentes y una función de edición llamada inpainting.
Repintar realiza cambios en una imagen existente mediante el análisis de una leyenda en lenguaje natural.
Puede agregar y eliminar componentes, al tiempo que incorpora los cambios esperados en las sombras, los reflejos y las texturas.

DALL·E 2 se entrenó en pares de imágenes y sus correspondientes leyendas, que le enseñaron al modelo las relaciones entre imágenes y palabras.
Las nuevas imágenes son generadas por un proceso llamado difusión.
Comienza con un patrón de puntos al azar. Luego, el sistema transforma gradualmente el patrón en una imagen a medida que reconoce aspectos específicos de esa imagen.

Algunos de los diseños de DALL-E 2 parecen demasiado buenos para ser verdad. Aún así, los investigadores dicen que el sistema tiende a generar imágenes visualmente consistentes para la mayoría de los subtítulos que la gente prueba.
Las imágenes de arriba de un astronauta, por ejemplo, fueron seleccionadas de un conjunto de nueve producido por el modelo. Prafulla Dhariwal, investigadora de OpenAI, dijo que los resultados son generalmente consistentes:
A veces puede ser útil iterar con el modelo en un ciclo de retroalimentación modificando el indicador en función de su interpretación del anterior o probando un estilo diferente como «una pintura al óleo», «del arte digital», «una foto», «un emoji», etc Esto puede ser útil para lograr el estilo o la estética deseada.

Los usos potenciales de DALL-E 2 son amplios.
Los diseñadores gráficos, los desarrolladores de aplicaciones, los medios, los arquitectos, los ilustradores comerciales y los diseñadores de productos podrían usar la herramienta para inspirarse, crear nuevas creaciones y editar.
Los artistas comerciales pueden estar preocupados por sus futuras perspectivas laborales. Ramesh reconoce que muchos trabajos podrían cambiar:
Hemos visto que la IA es una buena herramienta para las personas en el espacio creativo. Por ejemplo, a medida que el software de edición de fotos se ha vuelto más poderoso y accesible, ha permitido que más personas ingresen al campo de la fotografía. En los últimos años, también hemos visto artistas que usan IA para crear nuevos tipos de arte.
Es difícil predecir el futuro, pero sabemos que la IA tendrá un impacto en los trabajos al igual que las computadoras personales. La naturaleza de muchos puestos de trabajo cambiará, se crearán puestos de trabajo que antes no existían y es posible que se eliminen otros.
Creado con DALL·E 2 por @OpenAI
Rápido:
«Mona Lisa bebe vino con da Vinci».// Incluso si no vemos Maestro, la composición es perfecta. Tenga en cuenta el nivel horizontal de líquido en el vaso.
Hecho con #LOSA // #DALLEmerz pic.twitter.com/wk8Kf6DKcd
— Merzmensch Kosmopol (@Merzmensch) 6 de abril de 2022
El sistema aún no se ha hecho público. El CEO de OpenAI, Sam Altman, espera lanzar el producto este verano, pero los investigadores quieren estudiar primero los riesgos.
Planean incorporar resguardos que eviten que el sistema genere contenido engañoso y de otro modo dañino.
Además, DALL·E 2 hereda varios sesgos de sus datos de entrenamiento, y sus resultados a veces refuerzan los estereotipos sociales.
El equipo ya eliminó el contenido explícito de los datos de entrenamiento y prohíbe el contenido violento, de odio y para adultos en su política de contenido.
Si los filtros identifican imágenes y mensajes de texto que violan las reglas, el sistema no generará los resultados. También se han implementado sistemas de monitoreo automatizados y humanos como protección contra el abuso.
Altman cree que el mecanismo de DALL-E podría cambiar la forma en que interactuamos con las máquinas.
«Es otro ejemplo de lo que creo que es una nueva tendencia de interfaz de computadora: dices lo que quieres en lenguaje natural o con señales contextuales, y la computadora lo hace», dijo en una publicación de blog.
DALL-E también puede mejorar nuestra comprensión de cómo la IA ve el mundo. OpenAI espera que esto les ayude a crear sistemas que beneficien a la humanidad y que no sean manipulados para fomentar el odio y el engaño.