Inteligencia artificial

Novedades en la generación de imágenes mediante IA y uso de diversas herramientas

La semana pasada hubo novedades importantes en la generación de imágenes mediante IA, con el lanzamiento de nuevos modelos y herramientas. En este boletín, repasamos esas novedades, a la vez que te descubro algunos usos que le estoy dando -de manera experimental- a dichas herramientas.

Antonio Cambronero

31 mar. 2025 • 6 min read

WP al día - nº 398 - “¿Heredarán los robots la Tierra? Sí, pero serán nuestros hijos” - Marvin Minsky, científico estadounidense y uno de los padres de la IA

En la imagen destacada de este boletín, puedes ver a la izquierda un dibujo hecho por mi hermana a finales de la década de los 60. El paso del tiempo ha sido implacable, deteriorando un poco el color y el papel. Pero, a raíz del anuncio del modelo Gemini 2.0 Flash (con generación de imágenes) de Google AI Studio, se me ocurrió restaurar automáticamente aquellos dibujos e, incluso, revivirlos con otras posturas y motivos. El resultado es increíble, sin más que describir en el prompt lo que deseas. Fíjate cómo se reinterpretó a Silvia (ver a continuación) o cómo aparece hablando por teléfono (a la derecha en la imagen destacada). Y aún se pueden mejorar los resultados afinando las indicaciones.

Una buena idea de regalo sería confeccionar una revista con Canva, a partir de estas reinterpretaciones (ver captura siguiente).

Antes de continuar... unas palabras interesantes de Dave Winer sobre qué es el arte y si el software es arte.

Google se está posicionando rápido en el mercado de la IA: Gemini 2.5: Nuestro modelo de IA más inteligente.

Otra de las herramientas que ofrece novedades recientes es Ideogram, lanzando el modelo 3.0 e introduciendo mejoras importantes en el fotorrealismo, la representación de texto y la consistencia del estilo, al tiempo que pretende superar a sus competidores en las evaluaciones humanas. La nueva función "Style References" de Ideogram 3.0 permite controlar aún más la estética mediante referencias visuales.

El momento del lanzamiento del nuevo modelo de Ideogram es quizá un poco desafortunado, debido al sorprendente lanzamiento de la generación de imágenes dentro del modelo 40 de OpenAI. Los lanzamientos de Ideogram, OpenAI y Reve, la semana pasada, ponen de manifiesto el estado súper evolucionado del diseño gráfico y la generación precisa de texto.

Hasta ahora, ChatGPT se basaba en el modelo independiente DALL·E 3 para generar imágenes a partir de indicaciones. Pero con GPT-4o, la generación de imágenes ahora está integrada directamente en el núcleo de ChatGPT, lo que le permite ofrecer resultados mucho más coherentes tanto en imágenes como en texto. Este lanzamiento posiciona a ChatGPT como líder en creación visual con IA, superando a herramientas como Midjourney y Freepik. Establece un nuevo estándar y se reafirma como la herramienta clave en el mercado global de inteligencia artificial.

He aquí (a continuación) una prueba de la generación de imágenes con GPT-4o, dibujando tres versiones de Silvia: de izquierda a derecha, al estilo Leonardo Davinci, como si fuese hecho por Studio Ghibli (el uso de este filtro ha causado impacto) y como si fuese Gillian Anderson, la Dana Scully de Expediente X. Y, efectivamente, el filtro Robert Crumb está bloqueado.

[Última hora]: OpenAI ha retirado su nuevo generador de imágenes GPT-4o del nivel gratuito de ChatGPT solo un día después de su lanzamiento.

Para más información sobre OpenAI 4o, lee Actualización importante de OpenAI: generación de imágenes nativas con GPT-4o

Hablando de usos experimentales que estoy llevando a cabo, combinando Ideogram con Canva, he creado los collages digitales en los que recupero mis dibujos de principios de los años 80 (ver a continuación).

También se consiguen muy buenos resultados con el generador de imágenes de Microsoft Bing. Con este recurso he creado la imagen base (ver a continuación) de mi última obra del proyecto Del pixel al pincel. Dicho proyecto consiste en pintar físicamente (con materiales servidos por pintalotu.es) cuadros a partir de imágenes generadas mediante IA.

He aquí, seguidamente, una de las piezas de este proyecto, a partir de una imagen generada con Ideogram. (Te recuerdo que el cuadro es real, está pintado con pinceles y pinturas físicas, reales; y lo he hecho yo dedicando con paciencia unas cuantas horas; por eso el proyecto se llama "Del pixel al pincel".

El que sujeta el cuadro soy yo. Y lo que se me ha ocurrido, al hilo del revuelo causado por los nuevos filtros de GPT-4o es crear un bucle; es decir, darle primero a esa foto -en la que estoy sujetando el cuadro- un estilo de tebeo de los 70; y, luego, pedirle a ChatGPT que ponga esa imagen en un museo con una persona real observándolo. El resultado, no me digan que no es fantástico:

Tal vez cierre el bucle, pintando yo esta última imagen 😉.

Un ejercicio muy interesante que también he realizado es pedirle a ChatGPT que reinterprete dibujos míos hechos a vuelapluma. Por ejemplo, mira como se rediseñó mi señor del paraguas en un Mulder de Expediente X -estilo Ghibli, por supuesto- (ver a continuación).

Otra herramienta más en el mundo de la generación de imágenes es Reve que acaba de irrumpir con Reve Image 1.0, un nuevo modelo de IA de texto a imagen que encabezó las clasificaciones mundiales con el nombre en código "Halfmoon" durante la última semana, mostrando una precisión de indicaciones excepcional, representación de texto y calidad de imagen. Actualmente se puede probar de forma gratuita una vista previa de Reve Image 1.0 (aunque todavía no hay acceso a la API), y la compañía afirma que "pronto habrá mucho más". Esta herramienta dicen que tiene una precisión excepcional y una capacidad destacada para integrar textos largos en imágenes.

Y para terminar, una más. Un generador de retratos con IA y precisión facial de alta calidad: Hugging Face.

Si me permites una reflexión final, mi postura ante la IA sigue siendo de experimentación profunda porque solo así seré capaz de entender su alcance y ver sus beneficios e inconvenientes. Por ejemplo, soy consciente de todas las preguntas sin respuesta por el momento: ¿dónde queda la creatividad humana? ¿qué pasa con los derechos de autor? ¿y la privacidad? ¿y el medio ambiente? ¿qué ocurre cuando se emplea la IA para crear deepfakes e imágenes sintéticas? Por ahora, solo puedo promover un uso ético y responsable de la IA (lee el manifiesto Usamos la IA de manera responsable y la Declaración conjunta sobre la limitación del impacto medioambiental de la IA).