Imagen generada por ChatGPT

Imagen generada por ChatGPT OpenAI El Androide Libre

Noticias y novedades

ChatGPT contraataca a Gemini: ahora puede crear imágenes realistas, incluyendo texto

OpenAI ha anunciado que ChatGPT ahora es capaz de generar imágenes con el nuevo modelo 4o, el más avanzado hasta ahora.

Más información: Lo nuevo de ChatGPT permite hablar de forma más natural con el asistente, y es totalmente gratis para todos los usuarios

Publicada

En apenas dos años, el sector de la inteligencia artificial es irreconocible; ha pasado de ser una tecnología futurista cuya utilidad estaba en duda, a un producto de masas por el que apuestan todas las grandes compañías. Y buena parte de culpa de este giro la tiene OpenAI, con ChatGPT, que fue el 'chatbot' que demostró el potencial de la IA generativa.

Desde entonces, las cosas han cambiado mucho. La cantidad de competidores en el sector es muy elevada, y cada día es mayor; y este aumento de la competencia supone que lo que antes era increíble, ya no es suficiente. ChatGPT ha sufrido especialmente por esto, con rivales como Gemini y Deepseek ofreciendo más funciones y un rendimiento similar a bajo precio.

La reacción de OpenAI no se ha hecho esperar, con importantes cambios internos que se irán notando a lo largo de los próximos meses, y que supone tomar decisiones chocantes como abandonar modelos nuevos para centrarse en los futuros. Hoy, OpenAI ha anunciado otro de estos cambios, que simplifica su línea de productos y potencia ChatGPT: la creación de imágenes por IA.

Por supuesto, OpenAI ya contaba con un modelo de generación de imágenes, y uno de los más populares: hablamos de Dall-E, que fue uno de los primeros generadores de imágenes basados en IA que realmente demostraron el potencial de esta tecnología (para bien y para mal). Sin embargo, ahora OpenAI ha decidido centrarse en ChatGPT, que ahora gana las funciones de generación de imágenes con el nuevo modelo 4o por defecto, abandonando Dall-E 3.

Con el modelo 4o, ChatGPT es capaz de generar imágenes de manera nativa y sin necesidad de un modelo externo, además de permitir la edición de imágenes avanzada. El nuevo modelo también trae importantes mejoras respecto a Dall-E, y en concreto, soluciona algunos de sus mayores problemas como la generación de texto en las imágenes.

Imagen generada por ChatGPT

Imagen generada por ChatGPT OpenAI El Androide Libre

Un fallo muy común en las primeras imágenes generadas por IA estaba en los textos; los modelos simplemente no eran capaces de comprender la manera en la que tenían que insertar los caracteres en la imagen. Por eso, el gran avance de 4o se encuentra precisamente en los textos que aparecen en la imagen, que ahora se renderizan de manera precisa y siguiendo las instrucciones del usuario al pie de la letra, según OpenAI.

De esta manera, es más fácil crear la imagen que realmente queremos, sin necesidad de crear una imagen básica y luego ponerle el texto usando un editor de imágenes. El resultado deberían ser imágenes más realistas, en las que el texto está mejor integrado con el resto del escenario, y para demostrarlo, OpenAI ha publicado algunos ejemplos sorprendentes.

El nuevo modelo 4o también trae importantes mejoras en la consistencia de los personajes, lo cual es importante si vamos a crear varias imágenes consecutivas. Por ejemplo, si pedimos una imagen de una mujer escribiendo, a continuación podemos pedirle que haga una imagen de esa misma persona y su aspecto será el mismo, en vez de crear otra persona. De la misma manera, también se ha mejorado la generación de imágenes por turnos, en los que el usuario refina la imagen añadiendo o quitando elementos en cada paso.

El nuevo modelo 4o de ChatGPT ya está disponible para todos los usuarios, incluyendo los que tienen cuentas gratuitas, además de las cuentas de pago Plus, Pro y Team. El acceso a Dall-E se mantiene, con un nuevo Dall-E GPT. Además, el nuevo modelo 4o también se puede usar en Sora, la IA para generar vídeos.