GPT Image 2 vs Nano Banana 2 vs Nano Banana Pro: ¿humo o hype?

Inteligencia Artificial OpenAI Google Generación de Imágenes Nano Banana GPT Image

23 de abril de 2026 · 10 min de lectura

Imagínate que estamos en un bar. Pides una caña, y yo te suelto: “¿Has visto los tres modelos de imagen que han salido en dos meses?”. Tú pones cara de “otra vez lo mismo”. Y tienes razón a medias. Nano Banana 2, Nano Banana Pro y GPT Image 2 prometen lo de siempre: texto legible, control del sujeto, “entender el mundo”. La pregunta de verdad es la de toda la vida: ¿humo o hype?

El hype es cuando algo está exagerado pero tiene fondo. El humo es cuando directamente no hay nada debajo. Spoiler: aquí hay de las dos cosas, y conviene saber cuál es cuál antes de meter una tarjeta de crédito en ninguna API. Así que he cogido los tres, les he pasado siete pruebas idénticas y apunto lo que sale. Si algo es humo, lo digo. Si funciona, también.

Los tres contendientes de un vistazo

Dimensión	GPT Image 2	Nano Banana 2	Nano Banana Pro
Máxima resolución	2K	4K	4K
Velocidad	Lento (Thinking)	~13s (Flash)	Intermedia
Texto en imagen	Casi perfecto, multilingüe	Muy bueno	Muy bueno, mejor en pequeño
Precio por imagen 1K	~$0.15 a $0.21	~$0.019 a $0.05	~$0.12 a $0.24
Mejor para (según marketing)	Infografías, UI, texto	Iteración rápida	Assets finales

Con esto ya sabes quién es quién. El detalle fino (bullets por modelo, ELO en LM Arena, APIs disponibles) lo dejo al final en la ficha técnica, para no cortarte el rollo.

Cómo he hecho las pruebas

Regla única: mismo prompt, mismos parámetros, una sola tirada por modelo. Nada de generar diez veces y elegir la mejor. Si falla a la primera, entra en el resultado.

Test 1. Persona a partir de una foto de referencia

Lo que quiero saber: si le doy una foto mía, ¿me devuelve a mí o a un primo lejano?

Prompt:

“Portrait of the person in the reference photo, studio lighting, soft key light from the left, 85mm lens, shallow depth of field, neutral grey background, photorealistic, preserving facial features, hair color and skin tone exactly as in the reference.”

Imagen de referencia:

Foto de referencia usada en el test 1 — Referencia original

Resultado GPT Image 2 — retrato — GPT Image 2

Resultado Nano Banana 2 — retrato — Nano Banana 2

Resultado Nano Banana Pro — retrato — Nano Banana Pro

Aquí pasa algo curioso. GPT Image 2 es el que mejor me reconoce: proporciones, rasgos, expresión. Soy yo. Pero la piel y la luz tienen un punto 3D, como si alguien me hubiese pasado un filtro de videojuego. Los dos Nano van por el lado contrario: la fotografía es preciosa, cualquiera diría que es una sesión de estudio real. El problema es que el tío de la foto ya no soy yo. Le cambian la forma de la cara, los ojos, la barba. Un amigo mío lo vería y diría “¿y este quién es?”. GPT clava al personaje, Nano clava la foto.

Test 2. Imitar un estilo (Cartier-Bresson)

Lo que quiero saber: si le pido el “instante decisivo” de Cartier-Bresson, ¿entiende el estilo o solo copia la lista de palabras?

Prompt:

“Black and white street photograph in the style of Henri Cartier-Bresson: a man jumping over a puddle behind a Paris train station, 1932, decisive moment, Leica 35mm, high contrast, geometric composition, documentary realism, film grain, no color.”

Resultado GPT Image 2 — Cartier-Bresson — GPT Image 2

Resultado Nano Banana 2 — Cartier-Bresson — Nano Banana 2

Resultado Nano Banana Pro — Cartier-Bresson — Nano Banana Pro

Este me ha sorprendido. Nano Banana Pro es el único que se acuerda de que la foto original se llama Derrière la Gare Saint-Lazare. Silueta recortada, reflejo en el charco, cartel “Railowsky” al fondo. Es una cita, no una imitación. Nano Banana 2 clava la geometría y el movimiento, pero maquilla la escena: le quita suciedad y por el camino le quita el alma. GPT Image 2 entrega un blanco y negro muy digno, técnicamente correcto, y sin embargo el salto del señor está congelado y plano. Parece sesión de estudio, no fotoperiodismo. Ha leído la lista de ingredientes del prompt, pero el plato no le ha salido.

Test 3. Recreación de interfaz (macOS con web abierta)

Lo que quiero saber: ¿sigue pasando lo de “Lorsm Ipsurn” o ya tenemos texto de verdad?

Prompt:

“Photorealistic screenshot of a macOS Sonoma desktop at 2560x1600 resolution. Safari is open in the foreground showing a minimal SaaS landing page with a dark navigation bar, a centered hero headline that reads ‘Ship faster with less bullshit’, a subheadline below, and two buttons: a primary ‘Start free trial’ and a secondary ‘See pricing’. Dock visible at the bottom with standard macOS icons. Menu bar at top shows ‘Safari’ active and the time 14:32.”

Resultado GPT Image 2 — macOS — GPT Image 2

Resultado Nano Banana 2 — macOS — Nano Banana 2

Resultado Nano Banana Pro — macOS — Nano Banana Pro

Los tres escriben el titular sin fallos. Hace un año esto era ciencia ficción, hoy es lo mínimo. GPT Image 2 gana aquí por puesta en escena: tipografía consistente, dock con iconos reconocibles, menú de Safari en su sitio. Parece una captura, no una imagen generada. Nano Banana Pro se queda a un paso y encima afina el wallpaper y las sombras. Nano Banana 2 es el hermano pequeño de la foto: artefactos en el dock, un logo inventado en el nav. Vale para un concepto, no para enseñárselo a un cliente.

Test 4. Mockup de producto

Lo que quiero saber: ¿puedo sacar un mockup directo para una landing o voy a tener que abrir Photoshop igualmente?

Prompt:

“Product mockup: a matte black ceramic coffee mug on a light oak wooden desk, morning light from a window on the left, subtle steam rising, a minimalist logo ‘NORTH’ printed on the front in white sans-serif, an open notebook and a pen next to it, shallow depth of field, commercial photography, 4:3 ratio, clean composition.”

Resultado GPT Image 2 — mockup — GPT Image 2

Resultado Nano Banana 2 — mockup — Nano Banana 2

Resultado Nano Banana Pro — mockup — Nano Banana Pro

“NORTH” sale bien escrito en las tres. GPT Image 2 es el más limpio para ecommerce: mug centrado, logo legible, tipografía fina y moderna. Nano Banana Pro gana en credibilidad fotográfica, que es lo que de verdad pides a un mockup. El vapor, la veta de la madera y la luz rasante se sienten de foto, no de render. Nano Banana 2 queda en tierra de nadie: la escena funciona, pero el logo es más pesado y menos editorial.

Test 5. Infografía compleja

Lo que quiero saber: el boss final. Texto, estructura, datos, jerarquía. Si GPT Image 2 es tan bueno con el texto, aquí tiene que brillar.

Prompt:

“A clean, modern infographic titled ‘How a Large Language Model Works’ with 4 numbered steps laid out vertically: 1) Tokenization, 2) Embedding, 3) Attention, 4) Output. Each step has a small icon, a 3-word label and a one-sentence description. Use a dark navy background, white text, and a single accent color in orange. Minimalist flat design, vector style, A4 portrait ratio, all text legible and correctly spelled in English.”

Resultado GPT Image 2 — infografía — GPT Image 2

Resultado Nano Banana 2 — infografía — Nano Banana 2

Resultado Nano Banana Pro — infografía — Nano Banana Pro

Los tres aciertan la numeración y los palabros (Tokenization, Embedding, Attention, Output). A partir de ahí cada uno se va por su lado. GPT Image 2 te entrega algo que publicarías sin tocar: jerarquía clara, iconografía coherente, color de acento bien aplicado. Nano Banana 2 se va a un estilo editorial más plano, y además ignora el A4 portrait del prompt (lo saca apaisado). Nano Banana Pro se viene arriba con gradientes, brillos y un aire “glow” que no tiene nada de minimalista. Bonita, pero no era lo que pedía.

Test 6. Restauración de una foto antigua

Lo que quiero saber: si le paso una foto vieja, rayada y descolorida, ¿me la devuelve decente sin inventarse medio rostro?

Prompt:

“Restore and colorize this old photograph: remove scratches, dust and noise, improve contrast and sharpness, and add natural, realistic color to the entire image (skin tones, clothing, background). Keep the original composition, faces, pose and clothing shapes exactly as in the source. Colors should feel period-accurate and subtle, not oversaturated. Do not add or alter details that aren’t present in the original.”

Imagen original (con arañazos y pliegues):

Foto original dañada con pliegues y arañazos — Foto original

Resultado GPT Image 2 — restauración — GPT Image 2

Resultado Nano Banana 2 — restauración — Nano Banana 2

Resultado Nano Banana Pro — restauración — Nano Banana Pro

Este test termina en empate técnico. Los tres quitan arañazos y pliegues, respetan la composición y colorizan con tonos plausibles de época. Las diferencias son sutiles y cuestión de gusto: GPT Image 2 mantiene la camisa gris neutra de la original, Nano Banana 2 se va a un azul claro, Nano Banana Pro tira a verde. La cara queda reconocible en los tres, aunque ninguno es clavado al rostro de la foto (todos reconstruyen algo). Con una sola tirada no alcanza para coronar un ganador: haría falta probar con fotos más dañadas, B/N puro y distintos tamaños para ver dónde empieza a notarse la diferencia. De momento, los tres valen.

Test 7. Diseño de landing completa (agencia de marketing digital)

Lo que quiero saber: ¿vale un modelo de imagen para diseñar una landing entera de verdad (no solo el hero), con paleta actual y secciones reales, o se queda en moodboard?

Prompt:

“Full one-page website design for a digital marketing agency called ‘Volta’. Captured as a single long vertical image of the entire landing page, desktop 1440px wide. Modern 2026 art direction with an original, editorial, tech-forward feel — not a generic SaaS template. Bold headlines, confident copy, plenty of whitespace, contemporary color palette with a warm accent, subtle grain or noise texture. Include everything you’d expect on an agency landing: navigation, hero with clear value proposition, social proof, services offered, selected work, process, a testimonial, pricing or CTA section, and footer. All typography legible and correctly spelled in English.”

Resultado GPT Image 2 — landing — GPT Image 2

Resultado Nano Banana 2 — landing — Nano Banana 2

Resultado Nano Banana Pro — landing — Nano Banana Pro

Aquí GPT Image 2 pasa por encima de los otros dos. Todo el texto es coherente, de arriba abajo: headline (“We turn attention into growth”), bullets de servicios, nombres de clientes inventados que suenan creíbles (klean, nexora, arcana, verve, lumen, thread), case studies con números que cuadran (+214%, +168%), proceso de 5 pasos explicados sin erratas y un CTA final bien cerrado. Pinta como algo que pasarías a un diseñador para refinarlo, no como un collage. Bonus: los mockups de producto dentro de los case studies también están bien.

Nano Banana 2 tiene factura visual decente y un wordmark “V” grande como pieza gráfica, pero el diseño tiene “tufo a IA” de lejos: layout demasiado simétrico, tarjetas con números gigantes 1–2–3–4, iconografía genérica, retrato de testimonial con la clásica sonrisa de stock. Un diseñador humano lo detecta en dos segundos. Encima, al bajar al detalle la sección de proceso empieza a inventar palabras (“Execls cseivortate pestioms to content…”, “Deksisesecte vises”) y los “logos” de clientes parecen dibujados a mano. Sirve como pitch visual rápido, no como entregable.

Con Nano Banana Pro pasa lo mismo, y más fuerte. El hero es el más cinematográfico de los tres (dark mode, rayos naranjas, partículas) y entra por los ojos, pero precisamente por eso se nota a kilómetros que es IA: la paleta saturada, las luces tipo “generative glow”, los iconos estilo “bonito-pero-genérico” y esa ilustración abstracta naranja del hero son tics que aparecen en el 90% de imágenes generadas últimamente. A eso se le suma lo mismo que en el test 5: en cuanto el tamaño de tipografía baja, el texto se rompe en gibberish. Las descripciones de las tarjetas de servicios y los pasos del proceso son inventados. Pro pone la estética, pero el texto pequeño sigue sin cuajar.

Lo que tarda cada uno (el dato que nadie cuenta)

Los specs dicen “13 segundos Flash” y “modo Thinking más lento”. Bonito, pero en la vida real lo que cuenta es el cronómetro. Estos son los tiempos medidos con el mismo cliente, mismo prompt:

Test	GPT Image 2	Nano Banana 2	Nano Banana Pro
1. Retrato	62,9 s	17,8 s	18,4 s
2. Cartier-Bresson	132,3 s	15,3 s	20,0 s
3. macOS UI	52,5 s	16,3 s	21,8 s
4. Mockup NORTH	49,4 s	16,3 s	16,8 s
5. Infografía LLM	52,8 s	14,4 s	22,4 s
6. Restauración	30,2 s	19,0 s	20,2 s
7. Landing agencia	61,9 s	22,8 s	28,8 s
Media	~63,1 s	~17,4 s	~21,2 s

Dos cosas que me saltan a la cara:

GPT Image 2 no es “un poco más lento”. Es unas 3,6× más lento que Nano Banana 2 de media, y llega a 8,6× más lento en el test de Cartier-Bresson (132 s frente a 15,3 s). Eso, cuando estás iterando, es mucho tiempo mirando una barra de carga.
Nano Banana Pro apenas cobra peaje por la calidad extra. Va unos 5 segundos por encima de Flash. En la práctica también vale para iterar, no solo para el asset final.

Traducido a cañas: en una hora, con Nano Banana 2 generas más de 200 imágenes. Con GPT Image 2, unas 60. Esa diferencia no es un detalle, es el flujo entero.

Veredicto: dónde es hype y dónde es humo

Hype que sí entrega (no es humo):

GPT Image 2 con el texto. Infografía, mockup y UI salen legibles a la primera. No conozco ningún modelo anterior que pasase el test del “logo bien escrito” sin tres o cuatro intentos.
Nano Banana 2 y la velocidad. 13 segundos frente a 40+ no es un detalle técnico, es la diferencia entre iterar cinco veces o conformarte con la primera por pereza.
Nano Banana Pro con el retrato y el estilo fotográfico. Cartier-Bresson lo deja clarísimo: hay una capa de comprensión visual en Pro que Flash no tiene.

Humo puro y duro:

El “razonamiento” de GPT Image 2. Llamarlo “Thinking” vende, pero es una pasada extra de planificación. Ayuda, sí. Pero no está razonando sobre el mundo. Es marketing con mayúsculas.
El 4K de Nano Banana 2. Lo genera, técnicamente. Otra cosa es que el detalle percibido escale igual que la resolución. Tener un archivo 4K no es tener detalle 4K.
Los precios comparados en crudo. 3× a 10× entre Flash y los otros dos suena a barrida, pero OpenAI y Google Pro venden “bueno a la primera” y Flash vende “itera barato”. Cuando cuentas el coste por imagen que te quedas, la brecha se cierra bastante.

Cuándo usar cada uno

Basándome en los 7 tests que hemos hecho aquí:

Caso de uso (probado)	Modelo recomendado
Retrato a partir de una persona real (Test 1)	GPT Image 2 para parecido / Nano Banana Pro para foto
Imitar un estilo fotográfico autoral (Test 2)	Nano Banana Pro
Recreación de interfaz con texto (Test 3)	GPT Image 2
Mockup de producto con logo (Test 4)	GPT Image 2 limpio / Nano Banana Pro fotográfico
Infografía con estructura y texto (Test 5)	GPT Image 2
Restauración de foto antigua (Test 6)	Empate — los tres cumplen, haría falta probar con casos más duros
Diseño de landing completa con texto (Test 7)	GPT Image 2 (el único con copy coherente de arriba abajo)

Ficha técnica (para los que se han quedado con hambre)

GPT Image 2.0 (`gpt-image-2`)

Resolución hasta 2K
Modo “Thinking” que planifica la composición antes de renderizar
Hasta 8 imágenes distintas en un solo prompt (storyboards, campañas)
Texto multilingüe de alta fidelidad: inglés, japonés, coreano, chino, hindi, bengalí
~100% de acierto en renderizado de texto según pruebas ciegas en LM Arena
Disponible en ChatGPT, Codex y vía API (gpt-image-2)
Precio estimado: $0.15 a $0.21 por imagen a 1024×1024 en calidad alta

Nano Banana 2 (Gemini 3.1 Flash Image)

Resolución de 512px hasta 4K con control de aspect ratios
Búsqueda web en tiempo real para sujetos específicos
Consistencia de hasta 5 personajes y fidelidad sobre 14 objetos en la misma escena
Velocidad “Flash”: ~13 segundos por imagen
ELO de 1.360 en LM Arena
Disponible en la app de Gemini, AI Studio, Vertex AI, Google Ads y Search
Precio: $0.045 a $0.151 por imagen

Nano Banana Pro (Gemini 3 Pro Image)

Mismo núcleo que Flash, pero priorizando calidad sobre velocidad
Mejor razonamiento visual y coherencia física
Gran fidelidad en retratos, iluminación y materiales (piel, tela, cerámica, vidrio)
Texto en imagen mejor que Flash, sobre todo en tamaños pequeños
Precio: ~$0.12 a $0.24 por imagen, en el rango de GPT Image 2
Pensado para assets finales, no tanto para iterar

Qué decían los benchmarks antes de las pruebas

LM Arena y las pruebas preliminares pintaban este reparto:

GPT Image 2 manda en control estructural, texto, densidad de composición y diagramas.
Nano Banana 2 manda en velocidad, iteración y fotorrealismo cotidiano.
Nano Banana Pro manda en calidad final, coherencia física y retrato.

Los tests de arriba confirman el reparto, con matices: GPT Image 2 paga el texto con un tiempo de generación grande, y Pro no cobra el peaje que anuncia (sigue siendo rápido frente a GPT).

Para terminar la cerveza

¿Humo o hype? Hype del bueno. Los tres modelos hacen lo que dicen, aunque no siempre lo que parece. GPT Image 2 ha resuelto el texto y la estructura. Nano Banana 2 ha resuelto la velocidad. Nano Banana Pro ha resuelto el fotorrealismo serio.

Así que la pregunta ya no es “cuál es mejor”. Es qué problema tienes hoy. Y por primera vez en mucho tiempo, para casi todos los casos, la respuesta es bastante obvia. Si quieres que monte una prueba con un caso concreto del tuyo, escríbeme y lo comentamos con otra cerveza.

Los tres contendientes de un vistazo

Cómo he hecho las pruebas

Test 1. Persona a partir de una foto de referencia

Test 2. Imitar un estilo (Cartier-Bresson)

Test 3. Recreación de interfaz (macOS con web abierta)

Test 4. Mockup de producto

Test 5. Infografía compleja

Test 6. Restauración de una foto antigua

Test 7. Diseño de landing completa (agencia de marketing digital)

Lo que tarda cada uno (el dato que nadie cuenta)

Veredicto: dónde es hype y dónde es humo

Cuándo usar cada uno

Ficha técnica (para los que se han quedado con hambre)

GPT Image 2.0 (gpt-image-2)

Nano Banana 2 (Gemini 3.1 Flash Image)

Nano Banana Pro (Gemini 3 Pro Image)

Qué decían los benchmarks antes de las pruebas

Para terminar la cerveza

GPT Image 2.0 (`gpt-image-2`)