KI-Tools · 22. April 2026

GPT Image 2: OpenAIs neues Bildmodell mit Thinking Mode

ChatGPT Images 2.0 ist da: Thinking Mode, 99% Text-Rendering, konsistente Bildserien. Was GPT Image 2 für Schweizer KMU bedeutet.

Autor

Reto Lutz

Geschäftsführer ai-edu

Was ist GPT Image 2 / ChatGPT Images 2.0?

Am 21. April 2026 hat OpenAI GPT Image 2 veröffentlicht, offiziell als ChatGPT Images 2.0 vermarktet. Es ist der direkte Nachfolger von GPT Image 1.5 und das erste OpenAI-Bildmodell mit nativem Reasoning, intern “Thinking Mode” genannt. Innerhalb von 12 Stunden nach Launch erreichte ChatGPT Images 2.0 auf dem Image-Arena-Leaderboard Platz 1 mit 242 Punkten Vorsprung - laut OpenAI der grösste je gemessene Abstand.

Für die Praxis sind drei Verschiebungen relevant: Text in Bildern wird endlich zuverlässig lesbar, mehrere Bilder aus einem Prompt behalten Figuren und Objekte konsistent, und das Modell kann vor dem Generieren im Web recherchieren.

Was neu ist

Thinking Mode: Reasoning vor der Generierung

Bisher haben Bildmodelle den Prompt direkt in Pixel umgesetzt. GPT Image 2 legt eine Reasoning-Schicht davor - ähnlich der Verschiebung, die GPT-5 bei Textmodellen gebracht hat. Das Modell plant Layout, Typografie und Komposition, kann optional im Web nach Referenzen suchen und prüft das Ergebnis gegen den Prompt.

Praktische Folge: Anfragen wie “erstelle ein Poster mit dem aktuellen SBB-Fahrplan-Layout” oder “Infografik zu den vier häufigsten Phishing-Mustern 2026” produzieren Bilder, die strukturell stimmen statt nur dekorativ zu wirken.

OpenAI-Demo: Thinking Mode generiert ein Merch-Produktraster nach vorheriger Websuche - Hoodies, T-Shirts, Kappen und Notizbuch im einheitlichen Research-and-Deployment-Co-Stil. — Thinking Mode in Aktion: Das Modell recherchiert aktuelle Produkte auf openai.com und rendert daraus ein konsistentes Katalog-Raster. Für KMU spannend bei Produktübersichten und Kategorie-Headern. Bild: OpenAI / ChatGPT Images 2.0 Announcement

Text-Rendering bei 99 Prozent

Das war jahrelang die Schwachstelle von DALL-E und Midjourney. GPT Image 2 erreicht laut OpenAI 99 Prozent Accuracy auf Standard-Typografie-Benchmarks - auch bei dichtem Text, kleinen Schriften, UI-Elementen und nicht-lateinischen Schriften (Japanisch, Koreanisch, Chinesisch, Hindi, Bengali).

Für KMU heisst das: Social-Posts mit korrektem Claim, Produktlabels, einfache Plakate und Mockups sind zum ersten Mal direkt aus dem Prompt brauchbar, ohne manuelles Nachsetzen in Figma oder Photoshop.

OpenAI-Demo-Poster Stronger across languages - mehrsprachiges Text-Rendering in Japanisch, Koreanisch, Chinesisch, Hindi und Bengali auf einem Bauhaus-inspirierten Layout. — OpenAI demonstriert Text-Rendering in nicht-lateinischen Schriften. Relevant für Schweizer KMU mit mehrsprachigen Kampagnen - die vier Landessprachen und Englisch funktionieren ähnlich zuverlässig. Bild: OpenAI / ChatGPT Images 2.0 Announcement

Der härtere Test: ein Schweizer Geschäftsalltag in einem einzigen Bild - Visitenkarte, handschriftliche Projekt-Notiz, gedruckte Workshop-Agenda, SBB-Ticket, Flyer und iPhone-Kalender. Sieben Textträger, alle in Deutsch, alle lesbar. Zwei kleine Umlaut-Ausrutscher (“Fuer”, “fuer”) sind die 1 Prozent, die der Artikel ehrlicherweise nicht verschweigt.

Eigenes Render mit ChatGPT Images 2.0: Schreibtisch-Flat-lay mit Visitenkarte Reto Lutz, Notizbuch KI-Projekt Kickoff, ai-edu Vertiefungs-Agenda, SBB-Ticket Zürich-Bern, Claude-Code-Flyer und iPhone-Kalender - alle Textelemente auf Deutsch. — Eigener Render mit ChatGPT Images 2.0. Sieben deutsche Textträger in einem Bild - der Artikel-Claim "99 Prozent" ist hier empirisch mit zwei Fehlern belegt. Eigenes Render, ChatGPT Images 2.0

Prompt ansehen

Photorealistic overhead flat-lay photograph, square 1:1 format, shot with a Hasselblad on a warm oak desk, late-afternoon soft window light from the upper left, shallow depth of field, editorial magazine quality.
ALL TEXT IN THIS IMAGE MUST BE IN GERMAN. Use correct Swiss German orthography (ss instead of sharp s, real umlauts ü ö ä).

Arrange these seven objects in a loose composition, each with fully readable text:

A Swiss business card for “Reto Lutz, Geschäftsführer ai-edu”, phone, address, website “ai-edu.ch”, clean black-and-white typography.

An open notebook page with handwritten German notes titled “KI-Projekt Kickoff” with three bullet points in blue ballpoint pen.

A printed workshop agenda “ai-edu KI-Schulung - Vertiefung (4 Std)” with a German timetable (13:00 Einstieg, 13:45 Tool-Radar: Claude, Copilot, Gemini, Perplexity, 14:45 Prompt-Arbeit, 16:00 DSG-Leitplanken, 17:00 Abschluss).

A small coffee cup with saucer and coffee stains.

A minimal German flyer “Claude Code - 1:1 Schulung”, “90 Minuten remote am eigenen Projekt”, bullets and price “CHF 990 zzgl. MwSt.”, footer “Buchen auf ai-edu.ch/pakete/claude-code”.

A Swiss SBB-style train ticket “Zürich HB - Bern”, date, time, price, class, note “Kundenauftrag: ai-edu Vertiefung”.

An iPhone calendar for 23. April 2026 with event 14:00-16:00 “ai-edu Impuls - KI im Vertrieb”.

All text sharp, high-contrast, legible at thumbnail size. Correct Swiss German orthography throughout. No external brand logos.

Konsistente Bildserien

GPT Image 2 kann bis zu acht Bilder aus einem Prompt erzeugen und hält dabei Charaktere, Objekte und Stilmerkmale konsistent. Das ist der Punkt, an dem bisherige Modelle regelmässig gescheitert sind: Bild 2 zeigt eine andere Person als Bild 1, die Firmenfarbe verschiebt sich von Blau zu Türkis.

Anwendungsfälle: Storyboards, Schritt-für-Schritt-Anleitungen, Produktserien für Webshops, Mitarbeiter-Maskottchen in verschiedenen Szenen.

Das Modell komponiert auch Szenen mit mehreren räumlichen Ebenen. Hier ein Render, der drei Ebenen in einem Frame verbindet: Laptop im Vordergrund (mit lesbarer ChatGPT-Session auf Deutsch), SBB-Zugfenster in der Mitte, Walensee mit Kirche und Alpen scharf im Hintergrund. So ein Bild ist die direkte Alternative zu generischen “unterwegs arbeiten”-Stockfotos.

Eigenes Render mit ChatGPT Images 2.0: Blick aus einem SBB-Intercity-Zug auf den Walensee, goldenes Morgenlicht auf den Alpen, im Vordergrund ein MacBook mit einer ChatGPT-Session auf Deutsch und ein Ausdruck einer ai-edu-Workshop-Agenda. — Eigener Render mit ChatGPT Images 2.0. Drei Bildebenen, Schweiz-Kontext, lesbarer deutscher Text im Laptop-Screen - in einem einzigen Prompt komponiert. Eigenes Render, ChatGPT Images 2.0

Prompt ansehen

Cinematic photograph, landscape 16:9 format, shot from inside an SBB intercity train travelling along the Zurich-Chur route, early autumn morning, golden-hour backlight, shallow depth of field on the foreground, sharp focus on the landscape through the window.
Foreground, out of focus: the edge of a train table, a silver MacBook Pro open at a shallow angle to camera, showing a clean ChatGPT interface in German with one visible conversation - the prompt reads “Entwirf mir einen Claim fuer die Herbstkampagne einer Schweizer Schreinerei” and below a partial response starting “Handwerk trifft Zukunft - Schreinerei Huber aus dem Toggenburg”.

On the edge of the table: a white ceramic SBB coffee cup (no logo, plausible railway crockery), a printed paper with header “ai-edu Impuls - 2 Stunden” barely visible, a Moleskine notebook with a fountain pen.

Middle ground: the clean geometric window frame of a modern SBB Dosto train, reflections faintly visible on the glass.

Background through the window, sharp focus: the Walensee in late September, turquoise water, the near Alps rising steeply on the far shore, first snow on the ridges, a small lakeside village with white-washed houses and a church spire. Morning mist lifting off the water, warm sun raking across the mountain faces.

Subtle lens flare from the left, natural window reflections. Photorealistic, editorial travel photography, no external brand logos.

Weitere technische Details

Aspect Ratios von 3:1 bis 1:3
Rund doppelt so schnell wie GPT Image 1.5
Native Websuche vor der Generierung (nur im Thinking Mode)
Ausgabegrösse: Basis 2K, je nach Quelle bis 4K - 9to5Mac nennt 4096x4096, t3n spricht von 2K. Plausible Erklärung: 2K Standard, 4K als Upscale. Nicht abschliessend bestätigt.

Verfügbarkeit und Preise

Zugang	Bildmodell	Thinking Mode
Free	Ja	Nein
Plus (20 USD/Monat)	Ja	Ja
Pro (200 USD/Monat)	Ja	Ja, mit höheren Limits
Business / Enterprise	Ja	Ja

Die API-Freigabe ist laut OpenAI für Anfang Mai 2026 angekündigt. Preise pro generiertem Bild sind noch nicht publiziert.

Was bedeutet das für Schweizer KMU?

Eigenes Render mit ChatGPT Images 2.0: Workshop-Szene in einem Schweizer Co-Working-Space mit vier Teilnehmenden um einen Eichentisch, ein Whiteboard im Hintergrund zeigt auf Deutsch ai-edu Vertiefung - Use-Case-Mapping mit zwei Spalten Hoher Impact und Schnell umsetzbar. — Eigener Render mit ChatGPT Images 2.0 als direkte Alternative zum Stockfoto. Das Whiteboard trägt einen echten Use-Case-Mapping-Raster aus meinen Vertiefungs-Workshops - kein Platzhaltertext. Eigenes Render, ChatGPT Images 2.0

Prompt ansehen

Editorial documentary photograph, landscape 3:2 format, shot with a Leica Q3 at f/2.8, natural available light from large north-facing windows, warm late-morning Zurich light, shallow depth of field, fine film grain. Candid workshop scene, NOT a posed stock photo.
A workshop room in a contemporary Swiss co-working space, exposed concrete ceiling, oak parquet floor, one wall of frosted glass. Four participants around a light-oak table, mid-discussion, nobody looking at the camera:

A woman in her forties, short silver-grey hair, charcoal blazer over a cream turtleneck, leaning forward, gesturing with a pen at a printed sheet

A man in his thirties, light stubble, navy Henley shirt, hands on a MacBook, half-smile, eyes on the presenter

A younger woman with warm brown skin and dark curly hair, burgundy cardigan, writing in a notebook

A man in his fifties, balding, wire-rim glasses, open button-down shirt, arms crossed, listening intently

In the background on a large whiteboard, cleanly written with black marker in realistic human handwriting, all in German: Title at top: “ai-edu Vertiefung - Use-Case-Mapping” Two columns labelled “Hoher Impact” and “Schnell umsetzbar” Left column bullet points: “Offerten-Entwurf”, “Kundenanfragen triagieren”, “Protokoll-Zusammenfassung” Right column bullet points: “Meeting-Notizen”, “Social-Post-Entwurf”, “FAQ-Pflege” Footer small: “ai-edu.ch”

On the table: two open MacBooks (screens angled away from camera), a ceramic water carafe, four glasses, a stack of printed agendas with visible header “ai-edu KI-Schulung”, a small plate of Swiss Bircher muesli in a bowl.

Photorealistic skin texture, natural imperfections, no plastic smoothing. All German text on whiteboard and papers rendered crisply with correct umlauts. No external brand logos visible.

Konkrete Einsatzszenarien

Marketing und Kommunikation:

Social-Media-Posts mit korrektem Firmenclaim und Logo-Position
Einfache Plakate und Flyer für Events, Messen, Stelleninserate
Infografiken aus Geschäftszahlen oder Prozessen

HR und interne Kommunikation:

Illustrationen für Schulungsunterlagen
Konsistente Personas für Onboarding-Materialien
Visuelle Zusammenfassungen von Richtlinien

Produktentwicklung:

UI-Mockups für erste Konzepte
Produktvisualisierungen vor dem Prototyping
Serien-Renderings für Webshop-Kategorien

Was weiterhin nicht funktioniert

Markenrechtlich heikle Motive: Logos bekannter Firmen, Prominente, geschützte Figuren bleiben gesperrt oder erzeugen unsaubere Ergebnisse.
Fotorealismus für Produkte: Für echten Webshop-Einsatz braucht es weiterhin Studio-Fotos. GPT Image 2 ist für Konzepte und Entwürfe gut, nicht für verkaufsfähige Produkt-Hero-Shots.
Präzise CI-Treue: Die exakte Hex-Farbe der Unternehmens-CI zu treffen gelingt nicht zuverlässig. Nachsetzen im Design-Tool bleibt nötig.
Schweizer Spezifika: SBB-Signalisation, Swiss-Style-Typografie oder kantonale Wappen sind im Training unterrepräsentiert. Ergebnisse wirken oft deutsch oder amerikanisch.

Datenschutz und revDSG

Für Bilder, die Personen, Gebäude oder Geschäftsdokumente zeigen, gelten dieselben Regeln wie bei Textmodellen. OpenAI bietet mit dem Enterprise-Plan Datenverarbeitung in Europa, keine Verwendung für Training und SOC-2-Typ-II-Zertifizierung.

Für sensible Fälle (Personalbilder, Kundendokumente, interne Prozesse) empfehle ich Azure OpenAI Service in den Regionen Switzerland North (Zürich) oder Switzerland West (Genf). Tiefere Orientierung im revDSG-Leitfaden für KMU.

GPT Image 2 vs. Konkurrenz

Merkmal	GPT Image 2	Midjourney v7	Google Imagen 4
Text-Rendering	~99 Prozent	verbessert, aber fehleranfällig	gut
Reasoning	Ja (nativ)	Nein	partiell
Konsistenz-Serien	bis 8 Bilder	Character Reference	Ja
Nicht-lateinische Schriften	Ja	eingeschränkt	Ja
Integration	ChatGPT, API ab Mai	Discord, Web-App	Google Workspace
Schweiz-Datenresidenz	via Azure OpenAI	Nein	Nein

So starten Sie

ChatGPT Plus testen: 20 USD pro Monat reichen für erste Experimente mit Thinking Mode.
Einen konkreten Use Case wählen: Social-Post-Serie, Onboarding-Illustrationen oder Event-Plakate - nicht alles auf einmal.
Team-Prompts dokumentieren: Ein Notion-Doc oder ein internes Prompt-Repository spart nach drei Wochen mehr Zeit als die Schulung gekostet hat. Einstiegspunkte im Beitrag zu Prompt Engineering Grundlagen.
Grenzen markieren: Welche Assets dürfen mit KI erstellt werden, welche brauchen weiterhin Designer-Hand? Einmal definieren, schriftlich festhalten.

Häufige Fragen

Ist GPT Image 2 kostenlos nutzbar?

Ja, Basis-Zugang gibt es über den kostenlosen ChatGPT-Account. Der Thinking Mode mit Websuche, Mehrfach-Bildern und Layout-Reasoning ist aber auf zahlende Tarife (Plus ab 20 USD/Monat, Pro, Business, Enterprise) beschränkt.

Wann kommt die API?

OpenAI hat die API-Freigabe für Anfang Mai 2026 angekündigt. Preise pro Bild liegen noch nicht vor.

Was kann GPT Image 2 besser als DALL-E 3?

Drei Dinge: zuverlässiges Text-Rendering (99 Prozent statt kaputte Buchstaben), bis zu 8 konsistente Bilder aus einem Prompt statt Zufallsergebnissen, und Reasoning über Layout vor der Generierung.

Ist GPT Image 2 revDSG-konform einsetzbar?

Für unkritische Marketing-Assets ja. Für Bilder mit Personen- oder Kundenbezug gelten dieselben Regeln wie bei Textmodellen: Enterprise-Plan oder Azure OpenAI (Regionen Switzerland North / West) nutzen, interne Richtlinien definieren. Details im revDSG-Leitfaden für Schweizer KMU.

Ersetzt GPT Image 2 den Grafiker?

Nein. Für Konzepte, Entwürfe, Serienbilder und einfache Assets ist es eine echte Beschleunigung. Für Markenidentität, präzise CI-Anwendung und verkaufsfähige Produktbilder bleibt Designer-Arbeit nötig. Die Linie verschiebt sich, sie verschwindet nicht.

Fazit

GPT Image 2 ist der erste Release, bei dem Bildgenerierung aus dem Experimental-Status in den produktiven Alltag von KMU rückt. Text funktioniert, Serien bleiben konsistent, Reasoning sorgt für brauchbare Kompositionen. Die Grenzen bleiben: Fotorealismus für Verkauf, exakte CI-Treue und Schweizer Spezifika.

Weiterer Kontext zur Auswahl passender KI-Werkzeuge im Überblick KI-Tools für Schweizer KMU. In meinen Schulungen zeige ich, wie GPT Image 2 und andere Bildmodelle in den Arbeitsalltag passen - von Prompt-Mustern über Qualitätssicherung bis zur Abgrenzung gegenüber klassischem Design.

Quellen:

OpenAI: Introducing ChatGPT Images 2.0 (21. April 2026)
TechCrunch: ChatGPT’s new Images 2.0 model (21. April 2026)
9to5Mac: OpenAI unveils ChatGPT Images 2 (21. April 2026)
MacRumors: OpenAI Launches ChatGPT Images 2.0 (22. April 2026)
the-decoder.de: ChatGPT Images 2.0 mit Denkmodus
futurezone.at: Images 2.0 Bildgenerator

Schlagworte

#gpt-image-2 #chatgpt-images-2 #chatgpt #bildgenerierung #openai #ki-tools