Bild-Generatoren und KI-Bildbearbeitung

GPT-4o Image Generation

Wie DALL-E 3 ist auch GPT-4o Image Generation direkt in ChatGPT integriert. Der neueste Bild-Generator von OpenAI ist jedoch deutlich mächtiger und flexibler. Er ermöglicht nicht nur die Generierung von Bildern, sondern auch deren gezielte Manipulation im Dialog mit ChatGPT. Bilder können von einem Stil in einen anderen konvertiert werden. Bildelemente können ergänzt oder entfernt werden. Ebenso lassen sich vorhandene Bilder eingeben, um sie zu modifizieren oder zu kombinieren. Allem voran verfügt GPT-4o Image Generation über die bislang nahezu einzigartige Fähigkeit, lange Texte ohne Fehler in Bilder zu integrierenDer Prompt zum Bild:

<aside> 📌

Der Prompt zum Bild: A candid paparazzi-style photo of the Maus from "The Sendung mit der Maus" a college party. They are drunk and partying in a dirty frat house basement. It is a candid shot with a lot of active motion, interaction, etc. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

</aside>

DALL-E 3

DALL-E 3 ist ein leistungsfähiger Text-zu-Bild-Generatoren. Er wurde von OpenAI entwickelt und ist wie auch 4o Image Generation direkt in die Abonnement-Version von ChatGPT integriert. Mit DALL-E 3 können sehr komplexe Szenarien und Konzepte in verschiedenen Stilen innerhalb von Sekunden erzeugt werden. Auch in Zusammenarbeit mit dem ChatGPT-Bot, der etwa Verbesserungsvorschläge machen kann. Der Vorgänger DALL-E 2, mit dem auch bestehende hochgeladen, manipuliert und über ihre Bildgrenzen hinaus erweitert werden konnten, wurde von OpenAI eingestellt.

<aside> 📌 Der Prompt zum Bild: High-quality digital illustration that paints a picture of agrarian futurism: Individuals with long hair move gracefully between rows of crops, tending to their growth with the help of state-of-the-art tools. The entire farm radiates with advanced technology, yet retains a connection to the earth. A beautiful sunrise bathes the scene in soft light, with colors drawing inspiration from Morandi's subtle palette. The artwork is intricately detailed, stylized, and would be a hit on renowned art platforms.

</aside>

Midjourney

Midjourney ist eine der Pionieranwendungen im Bereich der Bild-Generatoren. Die Plattform kann über einen Kanal der Chat-Plattform Discord genutzt werden. Mit Midjourney können hochwertige, sehr glaubwürdige und fotorealistische Grafiken erstellt werden. Diese können zudem durch Funktionen wie Outpainting und Zoom Out erweitert und vergrößert werden. Midjourney ist vor allem bei Künstlern, aber auch bei professionellen Anwendern wie Konzeptzeichnern beliebt. Wobei die verwendete Modellarchitektur nicht mehr auf dem aktuellen Stand ist. Dadurch tut sich Midjourney etwa schwer, konsistent Text zu erzeugen.

u7776446158_scene_from_resident_evil_film_--ar_43_--v_7_30029a9b-c8af-428b-8894-b48525de9a4c_2.png

<aside> ☝ Der Prompt zum Bild: a scene from a resident evil movie

</aside>

Stable Diffusion

Bei Stable Diffusion handelt es sich nicht um eine einzelne Anwendung, sondern um eine Reihe von freien KI-Modellen, die zur Erzeugung von Bildern verwendet werden können. Die Basismodelle von Stable Diffusion - insbesondere 1.5, 2.1 und XL - wurden von der Community aufgegriffen und weiterentwickelt, um beeindruckende Bilder zu erzeugen. Stable Diffusion kann auf eigenen Rechnern und Servern betrieben oder über dedizierte Dienste wie DreamStudio, Dreamlike, Replicate, LimeWire AI Studio oder ThinkDiffusion genutzt werden. Die aktuell letzte Fassung ist Stable Diffusion 3, die von der Community jedoch nicht gut aufgenommen wurde.

<aside> ☝ Der Prompt zum Bild: a photo portrait of Andy Warhol, as a cyberpunk journalist, wild hair, futuristic cyberpunk city in background

</aside>

Bild-Generatoren und KI-Bildbearbeitung

GPT-4o Image Generation

DALL-E 3

Midjourney

Stable Diffusion

Flux