KI-Tools · 22. April 2026
GPT Image 2: OpenAIs neues Bildmodell mit Thinking Mode
ChatGPT Images 2.0 ist da: Thinking Mode, 99% Text-Rendering, konsistente Bildserien. Was GPT Image 2 für Schweizer KMU bedeutet.
Autor
Reto Lutz
Geschäftsführer ai-edu
Was ist GPT Image 2 / ChatGPT Images 2.0?
Am 21. April 2026 hat OpenAI GPT Image 2 veröffentlicht, offiziell als ChatGPT Images 2.0 vermarktet. Es ist der direkte Nachfolger von GPT Image 1.5 und das erste OpenAI-Bildmodell mit nativem Reasoning, intern “Thinking Mode” genannt. Innerhalb von 12 Stunden nach Launch erreichte ChatGPT Images 2.0 auf dem Image-Arena-Leaderboard Platz 1 mit 242 Punkten Vorsprung - laut OpenAI der grösste je gemessene Abstand.
Für die Praxis sind drei Verschiebungen relevant: Text in Bildern wird endlich zuverlässig lesbar, mehrere Bilder aus einem Prompt behalten Figuren und Objekte konsistent, und das Modell kann vor dem Generieren im Web recherchieren.
Was neu ist
Thinking Mode: Reasoning vor der Generierung
Bisher haben Bildmodelle den Prompt direkt in Pixel umgesetzt. GPT Image 2 legt eine Reasoning-Schicht davor - ähnlich der Verschiebung, die GPT-5 bei Textmodellen gebracht hat. Das Modell plant Layout, Typografie und Komposition, kann optional im Web nach Referenzen suchen und prüft das Ergebnis gegen den Prompt.
Praktische Folge: Anfragen wie “erstelle ein Poster mit dem aktuellen SBB-Fahrplan-Layout” oder “Infografik zu den vier häufigsten Phishing-Mustern 2026” produzieren Bilder, die strukturell stimmen statt nur dekorativ zu wirken.
Text-Rendering bei 99 Prozent
Das war jahrelang die Schwachstelle von DALL-E und Midjourney. GPT Image 2 erreicht laut OpenAI 99 Prozent Accuracy auf Standard-Typografie-Benchmarks - auch bei dichtem Text, kleinen Schriften, UI-Elementen und nicht-lateinischen Schriften (Japanisch, Koreanisch, Chinesisch, Hindi, Bengali).
Für KMU heisst das: Social-Posts mit korrektem Claim, Produktlabels, einfache Plakate und Mockups sind zum ersten Mal direkt aus dem Prompt brauchbar, ohne manuelles Nachsetzen in Figma oder Photoshop.
Der härtere Test: ein Schweizer Geschäftsalltag in einem einzigen Bild - Visitenkarte, handschriftliche Projekt-Notiz, gedruckte Workshop-Agenda, SBB-Ticket, Flyer und iPhone-Kalender. Sieben Textträger, alle in Deutsch, alle lesbar. Zwei kleine Umlaut-Ausrutscher (“Fuer”, “fuer”) sind die 1 Prozent, die der Artikel ehrlicherweise nicht verschweigt.
Prompt ansehen
Photorealistic overhead flat-lay photograph, square 1:1 format, shot with a Hasselblad on a warm oak desk, late-afternoon soft window light from the upper left, shallow depth of field, editorial magazine quality.ALL TEXT IN THIS IMAGE MUST BE IN GERMAN. Use correct Swiss German orthography (ss instead of sharp s, real umlauts ü ö ä).
Arrange these seven objects in a loose composition, each with fully readable text:
- A Swiss business card for “Reto Lutz, Geschäftsführer ai-edu”, phone, address, website “ai-edu.ch”, clean black-and-white typography.
- An open notebook page with handwritten German notes titled “KI-Projekt Kickoff” with three bullet points in blue ballpoint pen.
- A printed workshop agenda “ai-edu KI-Schulung - Vertiefung (4 Std)” with a German timetable (13:00 Einstieg, 13:45 Tool-Radar: Claude, Copilot, Gemini, Perplexity, 14:45 Prompt-Arbeit, 16:00 DSG-Leitplanken, 17:00 Abschluss).
- A small coffee cup with saucer and coffee stains.
- A minimal German flyer “Claude Code - 1:1 Schulung”, “90 Minuten remote am eigenen Projekt”, bullets and price “CHF 990 zzgl. MwSt.”, footer “Buchen auf ai-edu.ch/pakete/claude-code”.
- A Swiss SBB-style train ticket “Zürich HB - Bern”, date, time, price, class, note “Kundenauftrag: ai-edu Vertiefung”.
- An iPhone calendar for 23. April 2026 with event 14:00-16:00 “ai-edu Impuls - KI im Vertrieb”.
All text sharp, high-contrast, legible at thumbnail size. Correct Swiss German orthography throughout. No external brand logos.
Konsistente Bildserien
GPT Image 2 kann bis zu acht Bilder aus einem Prompt erzeugen und hält dabei Charaktere, Objekte und Stilmerkmale konsistent. Das ist der Punkt, an dem bisherige Modelle regelmässig gescheitert sind: Bild 2 zeigt eine andere Person als Bild 1, die Firmenfarbe verschiebt sich von Blau zu Türkis.
Anwendungsfälle: Storyboards, Schritt-für-Schritt-Anleitungen, Produktserien für Webshops, Mitarbeiter-Maskottchen in verschiedenen Szenen.
Das Modell komponiert auch Szenen mit mehreren räumlichen Ebenen. Hier ein Render, der drei Ebenen in einem Frame verbindet: Laptop im Vordergrund (mit lesbarer ChatGPT-Session auf Deutsch), SBB-Zugfenster in der Mitte, Walensee mit Kirche und Alpen scharf im Hintergrund. So ein Bild ist die direkte Alternative zu generischen “unterwegs arbeiten”-Stockfotos.
Prompt ansehen
Cinematic photograph, landscape 16:9 format, shot from inside an SBB intercity train travelling along the Zurich-Chur route, early autumn morning, golden-hour backlight, shallow depth of field on the foreground, sharp focus on the landscape through the window.Foreground, out of focus: the edge of a train table, a silver MacBook Pro open at a shallow angle to camera, showing a clean ChatGPT interface in German with one visible conversation - the prompt reads “Entwirf mir einen Claim fuer die Herbstkampagne einer Schweizer Schreinerei” and below a partial response starting “Handwerk trifft Zukunft - Schreinerei Huber aus dem Toggenburg”.
On the edge of the table: a white ceramic SBB coffee cup (no logo, plausible railway crockery), a printed paper with header “ai-edu Impuls - 2 Stunden” barely visible, a Moleskine notebook with a fountain pen.
Middle ground: the clean geometric window frame of a modern SBB Dosto train, reflections faintly visible on the glass.
Background through the window, sharp focus: the Walensee in late September, turquoise water, the near Alps rising steeply on the far shore, first snow on the ridges, a small lakeside village with white-washed houses and a church spire. Morning mist lifting off the water, warm sun raking across the mountain faces.
Subtle lens flare from the left, natural window reflections. Photorealistic, editorial travel photography, no external brand logos.
Weitere technische Details
- Aspect Ratios von 3:1 bis 1:3
- Rund doppelt so schnell wie GPT Image 1.5
- Native Websuche vor der Generierung (nur im Thinking Mode)
- Ausgabegrösse: Basis 2K, je nach Quelle bis 4K - 9to5Mac nennt 4096x4096, t3n spricht von 2K. Plausible Erklärung: 2K Standard, 4K als Upscale. Nicht abschliessend bestätigt.
Verfügbarkeit und Preise
| Zugang | Bildmodell | Thinking Mode |
|---|---|---|
| Free | Ja | Nein |
| Plus (20 USD/Monat) | Ja | Ja |
| Pro (200 USD/Monat) | Ja | Ja, mit höheren Limits |
| Business / Enterprise | Ja | Ja |
Die API-Freigabe ist laut OpenAI für Anfang Mai 2026 angekündigt. Preise pro generiertem Bild sind noch nicht publiziert.
Was bedeutet das für Schweizer KMU?
Prompt ansehen
Editorial documentary photograph, landscape 3:2 format, shot with a Leica Q3 at f/2.8, natural available light from large north-facing windows, warm late-morning Zurich light, shallow depth of field, fine film grain. Candid workshop scene, NOT a posed stock photo.A workshop room in a contemporary Swiss co-working space, exposed concrete ceiling, oak parquet floor, one wall of frosted glass. Four participants around a light-oak table, mid-discussion, nobody looking at the camera:
- A woman in her forties, short silver-grey hair, charcoal blazer over a cream turtleneck, leaning forward, gesturing with a pen at a printed sheet
- A man in his thirties, light stubble, navy Henley shirt, hands on a MacBook, half-smile, eyes on the presenter
- A younger woman with warm brown skin and dark curly hair, burgundy cardigan, writing in a notebook
- A man in his fifties, balding, wire-rim glasses, open button-down shirt, arms crossed, listening intently
In the background on a large whiteboard, cleanly written with black marker in realistic human handwriting, all in German: Title at top: “ai-edu Vertiefung - Use-Case-Mapping” Two columns labelled “Hoher Impact” and “Schnell umsetzbar” Left column bullet points: “Offerten-Entwurf”, “Kundenanfragen triagieren”, “Protokoll-Zusammenfassung” Right column bullet points: “Meeting-Notizen”, “Social-Post-Entwurf”, “FAQ-Pflege” Footer small: “ai-edu.ch”
On the table: two open MacBooks (screens angled away from camera), a ceramic water carafe, four glasses, a stack of printed agendas with visible header “ai-edu KI-Schulung”, a small plate of Swiss Bircher muesli in a bowl.
Photorealistic skin texture, natural imperfections, no plastic smoothing. All German text on whiteboard and papers rendered crisply with correct umlauts. No external brand logos visible.
Konkrete Einsatzszenarien
Marketing und Kommunikation:
- Social-Media-Posts mit korrektem Firmenclaim und Logo-Position
- Einfache Plakate und Flyer für Events, Messen, Stelleninserate
- Infografiken aus Geschäftszahlen oder Prozessen
HR und interne Kommunikation:
- Illustrationen für Schulungsunterlagen
- Konsistente Personas für Onboarding-Materialien
- Visuelle Zusammenfassungen von Richtlinien
Produktentwicklung:
- UI-Mockups für erste Konzepte
- Produktvisualisierungen vor dem Prototyping
- Serien-Renderings für Webshop-Kategorien
Was weiterhin nicht funktioniert
- Markenrechtlich heikle Motive: Logos bekannter Firmen, Prominente, geschützte Figuren bleiben gesperrt oder erzeugen unsaubere Ergebnisse.
- Fotorealismus für Produkte: Für echten Webshop-Einsatz braucht es weiterhin Studio-Fotos. GPT Image 2 ist für Konzepte und Entwürfe gut, nicht für verkaufsfähige Produkt-Hero-Shots.
- Präzise CI-Treue: Die exakte Hex-Farbe der Unternehmens-CI zu treffen gelingt nicht zuverlässig. Nachsetzen im Design-Tool bleibt nötig.
- Schweizer Spezifika: SBB-Signalisation, Swiss-Style-Typografie oder kantonale Wappen sind im Training unterrepräsentiert. Ergebnisse wirken oft deutsch oder amerikanisch.
Datenschutz und revDSG
Für Bilder, die Personen, Gebäude oder Geschäftsdokumente zeigen, gelten dieselben Regeln wie bei Textmodellen. OpenAI bietet mit dem Enterprise-Plan Datenverarbeitung in Europa, keine Verwendung für Training und SOC-2-Typ-II-Zertifizierung.
Für sensible Fälle (Personalbilder, Kundendokumente, interne Prozesse) empfehlen wir Azure OpenAI Service in den Regionen Switzerland North (Zürich) oder Switzerland West (Genf). Tiefere Orientierung im revDSG-Leitfaden für KMU.
GPT Image 2 vs. Konkurrenz
| Merkmal | GPT Image 2 | Midjourney v7 | Google Imagen 4 |
|---|---|---|---|
| Text-Rendering | ~99 Prozent | verbessert, aber fehleranfällig | gut |
| Reasoning | Ja (nativ) | Nein | partiell |
| Konsistenz-Serien | bis 8 Bilder | Character Reference | Ja |
| Nicht-lateinische Schriften | Ja | eingeschränkt | Ja |
| Integration | ChatGPT, API ab Mai | Discord, Web-App | Google Workspace |
| Schweiz-Datenresidenz | via Azure OpenAI | Nein | Nein |
So starten Sie
- ChatGPT Plus testen: 20 USD pro Monat reichen für erste Experimente mit Thinking Mode.
- Einen konkreten Use Case wählen: Social-Post-Serie, Onboarding-Illustrationen oder Event-Plakate - nicht alles auf einmal.
- Team-Prompts dokumentieren: Ein Notion-Doc oder ein internes Prompt-Repository spart nach drei Wochen mehr Zeit als die Schulung gekostet hat. Einstiegspunkte im Beitrag zu Prompt Engineering Grundlagen.
- Grenzen markieren: Welche Assets dürfen mit KI erstellt werden, welche brauchen weiterhin Designer-Hand? Einmal definieren, schriftlich festhalten.
Häufige Fragen
Ist GPT Image 2 kostenlos nutzbar?
Ja, Basis-Zugang gibt es über den kostenlosen ChatGPT-Account. Der Thinking Mode mit Websuche, Mehrfach-Bildern und Layout-Reasoning ist aber auf zahlende Tarife (Plus ab 20 USD/Monat, Pro, Business, Enterprise) beschränkt.
Wann kommt die API?
OpenAI hat die API-Freigabe für Anfang Mai 2026 angekündigt. Preise pro Bild liegen noch nicht vor.
Was kann GPT Image 2 besser als DALL-E 3?
Drei Dinge: zuverlässiges Text-Rendering (99 Prozent statt kaputte Buchstaben), bis zu 8 konsistente Bilder aus einem Prompt statt Zufallsergebnissen, und Reasoning über Layout vor der Generierung.
Ist GPT Image 2 revDSG-konform einsetzbar?
Für unkritische Marketing-Assets ja. Für Bilder mit Personen- oder Kundenbezug gelten dieselben Regeln wie bei Textmodellen: Enterprise-Plan oder Azure OpenAI (Regionen Switzerland North / West) nutzen, interne Richtlinien definieren. Details im revDSG-Leitfaden für Schweizer KMU.
Ersetzt GPT Image 2 den Grafiker?
Nein. Für Konzepte, Entwürfe, Serienbilder und einfache Assets ist es eine echte Beschleunigung. Für Markenidentität, präzise CI-Anwendung und verkaufsfähige Produktbilder bleibt Designer-Arbeit nötig. Die Linie verschiebt sich, sie verschwindet nicht.
Fazit
GPT Image 2 ist der erste Release, bei dem Bildgenerierung aus dem Experimental-Status in den produktiven Alltag von KMU rückt. Text funktioniert, Serien bleiben konsistent, Reasoning sorgt für brauchbare Kompositionen. Die Grenzen bleiben: Fotorealismus für Verkauf, exakte CI-Treue und Schweizer Spezifika.
Weiterer Kontext zur Auswahl passender KI-Werkzeuge im Überblick KI-Tools für Schweizer KMU. In unseren Schulungen zeigen wir, wie GPT Image 2 und andere Bildmodelle in den Arbeitsalltag passen - von Prompt-Mustern über Qualitätssicherung bis zur Abgrenzung gegenüber klassischem Design.
Quellen:
- OpenAI: Introducing ChatGPT Images 2.0 (21. April 2026)
- TechCrunch: ChatGPT’s new Images 2.0 model (21. April 2026)
- 9to5Mac: OpenAI unveils ChatGPT Images 2 (21. April 2026)
- MacRumors: OpenAI Launches ChatGPT Images 2.0 (22. April 2026)
- the-decoder.de: ChatGPT Images 2.0 mit Denkmodus
- futurezone.at: Images 2.0 Bildgenerator