El nuevo generador de imágenes IA está integrado con ChatGPT y promete "un salto adelante en la capacidad de generar imágenes que adhieran exactamente al prompt proporcionado".
OpenAI ha anunciado DALL-E 3, la última versión de su modelo de síntesis de imágenes con inteligencia artificial que ahora está completamente integrado con ChatGPT. DALL-E 3 crea imágenes siguiendo de cerca descripciones complejas y maneja la generación de texto dentro de la imagen (como etiquetas y letreros), lo cual representa un desafío para modelos anteriores. Actualmente en fase de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.
Al igual que su predecesor, DALL-E 3 es un generador de texto a imagen que crea imágenes novedosas basadas en descripciones escritas, también llamadas indicaciones. Aunque OpenAI no ha revelado detalles técnicos sobre DALL-E 3, es probable que el modelo de inteligencia artificial en el corazón de las versiones anteriores de DALL-E haya sido entrenado con millones de imágenes creadas por artistas y fotógrafos humanos, algunas de ellas con licencia de sitios web como Shutterstock. Es probable que DALL-E 3 siga esta misma fórmula, pero con nuevas técnicas de entrenamiento y más tiempo de cómputo para el entrenamiento.
A juzgar por las muestras proporcionadas por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de síntesis de imágenes más capaz que cualquier otro disponible en términos de seguir indicaciones. Aunque los ejemplos de OpenAI han sido cuidadosamente seleccionados por su eficacia, parecen seguir las instrucciones de las indicaciones fielmente y representar objetos de manera convincente con deformaciones mínimas. En comparación con DALL-E 2, OpenAI afirma que DALL-E 3 perfecciona pequeños detalles, como las manos, de manera más efectiva, creando imágenes atractivas por defecto sin necesidad de "trucos" o manipulación adicional de la indicación.
En comparación, Midjourney, otro modelo de síntesis de imágenes con IA de otro proveedor, representa bien los detalles fotorrealistas, pero aún requiere mucha manipulación contraintuitiva de las indicaciones para tener algún control sobre la salida de la imagen.
Además, DALL-E 3 parece manejar el texto dentro de las imágenes de una manera que su predecesor no podía (algunos modelos competidores como Stable Diffusion XL y DeepFloyd también están mejorando en este aspecto). Por ejemplo, una indicación que incluía las palabras "Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo 'Me siento vacío por dentro' con un agujero del tamaño de su hueso en el centro", creó un aguacate animado con la cita del personaje perfectamente encapsulada en un globo de diálogo.
OpenAI menciona que DALL-E 3 ha sido "construido de forma nativa" en ChatGPT y llegará como una característica integrada de ChatGPT Plus, lo que permitirá realizar refinamientos conversacionales a las imágenes, utilizando el asistente de IA como compañero para la generación de ideas. Esto significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo que podría dar lugar a nuevas capacidades novedosas.
Comments