DALL-E 2: Die revolutionäre KI, die fotorealistische Bilder aus Textbeschreibungen erzeugt – Interview mit OpenAI-Ingenieur Aditya Ramesh

Künstliche Intelligenz tritt seit Langem in kreativen Disziplinen mit Menschen in Wettstreit. Sie besiegt Schachgroßmeister, komponiert Symphonien, dichtet tiefgründige Gedichte und erzeugt nun detaillierte Kunstwerke allein aus einer kurzen Textbeschreibung.

Das OpenAI-Team hat mit DALL-E 2 eine leistungsstarke Software entwickelt, die in Sekunden eine Vielzahl von Bildern aus reinen Textprompts generiert. Als Experten für KI-Technologien haben wir mit Aditya Ramesh, leitendem Ingenieur bei OpenAI, über die Funktionen, Grenzen und Zukunft von DALL-E 2 gesprochen.

Was kann DALL-E 2?

Bereits 2021 lancierte OpenAI DALL-E – benannt nach Salvador Dalí und Wall-E –, das einzigartige KI-Bilder aus Textprompts schuf. „Ein Fuchs im Baum“ ergab ein Foto eines sitzenden Fuchses, „Astronaut mit Bagel“ ein passendes, skurriles Motiv.

DALL-E 2: Die revolutionäre KI, die fotorealistische Bilder aus Textbeschreibungen erzeugt – Interview mit OpenAI-Ingenieur Aditya Ramesh

Diese Bilder waren beeindruckend, doch oft unscharf und zeitaufwendig. DALL-E 2 revolutioniert das: Höchste Auflösung, minimale Latenz und smarterer Algorithmus für fotorealistische Ergebnisse. Definieren Sie Stile wie Ölmalerei, Plastilin, Wollarbeit oder 1960er-Filmplakat – DALL-E 2 passt sich an.

„DALL-E 2 ist ein Assistent, der Kreativität verstärkt. Künstler holen das Maximum heraus“, erklärt Ramesh aus seiner langjährigen Erfahrung.

Mehr als Text-zu-Bild: Inpainting und Variations

DALL-E 2 bietet zusätzlich Inpainting und Variations. Beim Inpainting editieren Sie bestehende Bilder: Fügen Sie einem Wohnzimmerteppich, Sofa-Hund oder Wandgemälde hinzu – sogar einen Elefanten.

Variations erzeugt aus einem Input-Hunderte Varianten: Aus einem Teletubby, Samurai-Gemälde oder Graffiti. Kombinieren Sie Motive wie Drache und Corgi für kreative Hybride.

Grenzen von DALL-E 2

Trotz beeindruckender Leistung hat DALL-E 2 Schwächen. Ambiguitäten wie „schwarzes Loch in einer Kiste“ werden wörtlich genommen – kein kosmisches Phänomen, sondern ein dunkles Loch in einer Box.

Mehrdeutige Wörter, Idiome oder unerwartete Stile erfordern Feinabstimmung. „Prompts und Stile brauchen Übung. Erste Ergebnisse passen technisch, aber nicht immer der Vision“, betont Ramesh. Auch „variabler Blending“ kann vertauschen, doch zukünftige Updates lösen das.

Gegen Stereotypen und Missbrauch: Ethik bei OpenAI

KI-Bilder bergen Risiken: Fake News, Propaganda. OpenAI filtert in drei Stufen: Schwere Verstöße (Gewalt, Sex), subtile Inhalte (Politik) und manuelle Überprüfung. Nutzerregeln schützen weiter.

Stereotypen persistieren: „Hochzeit“ zeigt westliche Bräute, „Anwalt“ weiße Männer. Filterumgehungen wie „Ketchup-Pfütze“ statt Blut sind möglich. OpenAI adressiert das transparent.

Die Zukunft von DALL-E 2

DALL-E 2 rollt schrittweise via Warteliste aus. OpenAI überwacht Feedback, verbessert Sicherheit für Massennutzung. „Wir teilen die Tech, sammeln Insights – Kommerzialisierung steht nicht im Vordergrund“, sagt Ramesh.

Weiterlesen:

Technologie der Zukunft: 22 Ideen, die unsere Welt verändern werden
Das Metaversum könnte zu einem wilden Westen werden, wenn wir nicht aufpassen
Was sind NFTs? Alles, was Sie wissen müssen