DALL-E 3 ist einer der leistungsfähigsten Text-zu-Bild-Generatoren. Er wurde von OpenAI entwickelt und ist direkt in die Abonnement-Version von ChatGPT integriert. Mit DALL-E 3 können sehr komplexe Szenarien und Konzepte in verschiedenen Stilen innerhalb von Sekunden erzeugt werden. Auch in Zusammenarbeit mit dem ChatGPT-Bot, der etwa Verbesserungsvorschläge machen kann. Der Vorgänger DALL-E 2, mit dem auch bestehende hochgeladen, manipuliert und über ihre Bildgrenzen hinaus erweitert werden konnten, wurde von OpenAI eingestellt.
<aside> 📌 Der Prompt zum Bild: High-quality digital illustration that paints a picture of agrarian futurism: Individuals with long hair move gracefully between rows of crops, tending to their growth with the help of state-of-the-art tools. The entire farm radiates with advanced technology, yet retains a connection to the earth. A beautiful sunrise bathes the scene in soft light, with colors drawing inspiration from Morandi's subtle palette. The artwork is intricately detailed, stylized, and would be a hit on renowned art platforms.
</aside>
Midjourney ist eine der Pionieranwendungen im Bereich der Bild-Generatoren. Die Plattform kann über einen Kanal der Chat-Plattform Discord genutzt werden. Mit Midjourney können hochwertige, sehr glaubwürdige und fotorealistische Grafiken erstellt werden. Diese können zudem durch Funktionen wie Outpainting und Zoom Out erweitert und vergrößert werden. Midjourney ist vor allem bei Künstlern, aber auch bei professionellen Anwendern wie Konzeptzeichnern beliebt.
Bei Stable Diffusion handelt es sich nicht um eine einzelne Anwendung, sondern um eine Reihe von freien KI-Modellen, die zur Erzeugung von Bildern verwendet werden können. Die Basismodelle von Stable Diffusion - insbesondere 1.5, 2.1 und XL - wurden von der Community aufgegriffen und weiterentwickelt, um beeindruckende Bilder zu erzeugen. Stable Diffusion kann auf eigenen Rechnern und Servern betrieben oder über dedizierte Dienste wie DreamStudio, Dreamlike, Replicate, LimeWire AI Studio oder ThinkDiffusion genutzt werden. Die aktuell letzte Fassung ist Stable Diffusion 3, die von der Community jedoch nicht gut aufgenommen wurde.
<aside> ☝ Der Prompt zum Bild: a photo portrait of Andy Warhol, as a cyberpunk journalist, wild hair, futuristic cyberpunk city in background
</aside>
Flux ist ein KI-Bildmodell einiger ehemaliger Stable-Diffusion-Entwickler, die sich als Black Forest Labs in Freiburg im Breisgau zusammengeschlossen haben. Das in drei Varianten verfügbare Open-Source-Modell ist in der Lage, hochkomplexe Bildinhalte zusammenzusetzen und vermeidet in vielen Fällen typische KI-Bildfehler wie verzerrte Hände oder zusätzliche Gliedmaßen. Das Modell begeisterte vor allem viele Stable-Diffusion-Nutzer und fand schnell Unterstützung in der AI-Art-Community.
Das erst im März 2024 vorgestellte Text-zu-Bild-Modell Pixart-Sigma wurde von Forschern des Noah's Ark Lab von Huawei entwickelt. Es ist technisch eng mit Stable Diffusion verwandt, verspricht aber eine höhere Zuverlässigkeit bei der Umsetzung von Prompts, eine bessere Bildqualität und eine Auflösung von 3.840 mal 2.560 Pixeln. Dazu wurde das frei verfügbare Basismodell nicht mit Milliarden, sondern nur mit 35,3 Millionen Bildern trainiert. Vor allem die Open Source Community sieht in Pixart-Sigma ein vielversprechendes Projekt und eine mögliche Alternative zu Stable Diffusion.