Künstliche Intelligenz ist in kreativen Kämpfen häufig Kopf an Kopf mit Menschen angetreten. Es kann Großmeister im Schach schlagen, Symphonien erschaffen, tief empfundene Gedichte hervorbringen und jetzt detaillierte Kunstwerke aus nur einer kurzen, formulierten Eingabeaufforderung erstellen.
Das Team von OpenAI hat kürzlich eine leistungsstarke Software entwickelt, die in der Lage ist, eine breite Palette von Bildern in Sekundenschnelle zu erstellen, nur aus einer Reihe von Wörtern, die ihr gegeben werden.
Dieses Programm ist als Dall-E 2 bekannt und wurde entwickelt, um die Art und Weise zu revolutionieren, wie wir KI mit Bildern verwenden. Wir haben mit Aditya Ramesh, einem der leitenden Ingenieure von Dall-E 2, gesprochen, um besser zu verstehen, was es tut, seine Grenzen und die Zukunft, die es bereithalten könnte.
Was macht Dall-E 2?
Bereits im Jahr 2021 erstellte das KI-Forschungsentwicklungsunternehmen OpenAI ein Programm namens „Dall-E“ – eine Mischung aus den Namen Salvador Dali und Wall-E . Diese Software war in der Lage, aus einer formulierten Eingabeaufforderung ein völlig einzigartiges KI-generiertes Bild zu erstellen.
Zum Beispiel würde „ein Fuchs in einem Baum“ ein Foto eines Fuchses ergeben, der in einem Baum sitzt, oder die Suche „Astronaut mit einem Bagel in der Hand“ würde zeigen … nun, Sie sehen, wohin das führt.
Dies war sicherlich beeindruckend, aber die Bilder waren oft verschwommen, nicht ganz genau und es dauerte eine Weile, bis sie erstellt wurden. Jetzt hat OpenAI enorme Verbesserungen an der Software vorgenommen und Dall-E 2 geschaffen – eine leistungsstarke neue Iteration, die auf einem viel höheren Niveau arbeitet.
Neben einigen anderen neuen Funktionen besteht der Hauptunterschied zu diesem zweiten Modell in einer enormen Verbesserung der Bildauflösung, geringeren Latenzen (wie lange das Erstellen des Bildes dauert) und einem intelligenteren Algorithmus zum Erstellen der Bilder.
Die Software erstellt nicht nur ein Bild in einem einzigen Stil, Sie können Ihrer Anfrage verschiedene Kunsttechniken hinzufügen, indem Sie Zeichenstile, Ölmalerei, ein Plastilinmodell eingeben, aus Wolle gestrickt, auf eine Höhlenwand gezeichnet oder sogar so ein Filmplakat aus den 1960er Jahren.
„Dall-E ist ein sehr nützlicher Assistent, der das verstärkt, was eine Person normalerweise tun kann, aber es hängt wirklich von der Kreativität der Person ab, die ihn verwendet. Ein Künstler oder jemand, der kreativer ist, kann einige wirklich interessante Dinge schaffen“, sagt Ramesh. P>
Ein Alleskönner
Zusätzlich zu der Fähigkeit der Technologie, Bilder nur anhand von Texteingaben zu erzeugen, verfügt Dall-E 2 über zwei weitere clevere Techniken – Inpainting und Variations. Diese beiden Anwendungen funktionieren ähnlich wie der Rest von Dall-E, nur mit einem kleinen Unterschied.
Beim Inpainting können Sie ein vorhandenes Bild nehmen und neue Funktionen darin bearbeiten oder Teile davon ändern. Wenn Sie ein Bild von einem Wohnzimmer haben, können Sie einen neuen Teppich hinzufügen, einen Hund auf dem Sofa, das Gemälde an der Wand ändern oder sogar einen Elefanten in den Raum schmeißen … denn das geht immer gut.
Variations ist ein weiterer Dienst, für den ein vorhandenes Image erforderlich ist. Geben Sie ein Foto, eine Illustration oder eine andere Art von Bild ein, und das Variationstool von Dall-E erstellt Hunderte seiner eigenen Versionen.
Sie könnten ihm ein Bild von einem Teletubby geben , und es wird es replizieren und ähnliche Versionen erstellen. Ein altes Gemälde eines Samurai wird ähnliche Bilder erstellen, Sie könnten sogar ein Foto von einigen Graffiti machen, die Sie sehen, und ähnliche Ergebnisse zurückerhalten.
Sie können dieses Tool auch verwenden, um zwei Bilder zu einer verrückten Zusammenarbeit zu kombinieren. Mischen Sie einen Drachen und einen Corgi oder einen Regenbogen und einen Topf, um Töpfe mit etwas Farbe zu erzeugen.
Einschränkungen von Dall-E 2
Obwohl es keinen Zweifel daran gibt, wie beeindruckend diese Technologie ist, ist sie nicht ohne Einschränkungen.
Ein Problem, mit dem Sie konfrontiert sind, ist die Verwirrung bestimmter Wörter oder Sätze. Wenn wir beispielsweise „ein schwarzes Loch in einer Kiste“ eingeben, gab Dall-E 2 ein Loch zurück, das in einer Kiste schwarz war, anstelle des kosmischen Körpers, nach dem wir gesucht hatten.
Dies kann häufig passieren, wenn ein Wort mehrere Bedeutungen hat, Sätze missverstanden werden können oder umgangssprachliche Ausdrücke verwendet werden. Dies ist von einer künstlichen Intelligenz zu erwarten, die Ihre Worte wörtlich nimmt.
„Etwas anderes, an das man sich mit dem System gewöhnen muss, ist, wie die Eingabeaufforderungen und künstlerischen Stile funktionieren. Wenn Sie etwas eingeben, ist das ursprüngliche Bild möglicherweise nicht korrekt, und obwohl es technisch Ihrer Anfrage entsprach, erfüllt es nicht vollständig das Gefühl oder die Idee, die Sie in Ihrem Kopf hatten. Dies kann etwas gewöhnungsbedürftig und einige kleinere Anpassungen erfordern“, sagt Ramesh.
Ein weiterer Bereich, in dem Dall-E verwirrt werden kann, ist das „variable Blending“. „Wenn Sie das Modell bitten, einen roten Würfel auf einen blauen Würfel zu zeichnen, wird es manchmal verwirrt und macht das Gegenteil. Ich denke, wir können dies in zukünftigen Iterationen des Systems ziemlich einfach beheben“, sagt Ramesh.
Der Kampf gegen Stereotypen und menschlichen Einfluss
Wie bei allen guten Dingen im Internet dauert es nicht lange, bis ein zentrales Problem auftaucht – wie kann diese Technologie unethisch verwendet werden? Und ganz zu schweigen von dem zusätzlichen Problem der Geschichte der KI, einige unhöfliche Verhaltensweisen von den Leuten des Internets zu lernen.
Wenn es um eine Technologie rund um die KI-Erzeugung von Bildern geht, scheint es offensichtlich, dass diese auf viele Arten manipuliert werden könnte:Propaganda, gefälschte Nachrichten und manipulierte Bilder kommen mir als naheliegende Wege in den Sinn.
Um dies zu umgehen, hat das OpenAI-Team hinter Dall-E eine Sicherheitsrichtlinie für alle Bilder auf der Plattform implementiert, die in drei Stufen funktioniert. In der ersten Phase werden Daten herausgefiltert, die einen schwerwiegenden Verstoß enthalten. Dazu gehören Gewalt, sexuelle Inhalte und Bilder, die das Team für unangemessen halten würde.
Die zweite Stufe ist ein Filter, der nach subtileren Punkten Ausschau hält, die schwer zu erkennen sind. Dies können politische Inhalte oder Propaganda in irgendeiner Form sein. Schließlich wird in seiner jetzigen Form jedes von Dall-E produzierte Bild von einem Menschen überprüft, aber dies ist auf lange Sicht keine praktikable Phase, wenn das Produkt wächst.
Trotz der Verwendung dieser Richtlinie ist sich das Team der bevorstehenden Entwicklung dieses Produkts bewusst. Sie haben die Risiken und Einschränkungen von Dall-E aufgelistet und die Anzahl der möglichen Probleme angegeben.
Dies deckt eine Vielzahl von Problemen ab. Zum Beispiel können Bilder oft Vorurteile oder Stereotypen zeigen, wie die Verwendung des Begriffs Hochzeit, der hauptsächlich westliche Hochzeiten wiedergibt. Oder die Suche nach Anwälten zeigt eine Mehrheit von weißen älteren Männern, wobei Krankenschwestern dasselbe mit Frauen tun.
Das sind keine neuen Probleme und Google beschäftigt sich schon seit Jahren damit. Oft kann die Bildgenerierung den Vorurteilen in der Gesellschaft folgen.
Es gibt auch Möglichkeiten, Dall-E dazu zu bringen, Inhalte zu produzieren, die der Begriff filtern soll. Während Blut den Gewaltfilter auslösen würde, könnte ein Benutzer „eine Pfütze Ketchup“ oder etwas Ähnliches eingeben, um es zu umgehen.
Neben der Sicherheitsrichtlinie des Teams gibt es eine klare Inhaltsrichtlinie, an die sich die Benutzer halten müssen.
Zukunft von Dall-E
Die Technologie ist also da draußen und funktioniert eindeutig gut, aber was kommt als nächstes für das Dall-E 2-Team? Im Moment wird die Software langsam über eine Warteliste eingeführt, ohne dass es noch klare Pläne gibt, sie der breiten Öffentlichkeit zugänglich zu machen.
Durch die langsame Veröffentlichung ihres Produkts kann die OpenAI-Gruppe ihr Wachstum überwachen, ihre Sicherheitsverfahren entwickeln und ihr Produkt für die wahrscheinlichen Millionen von Menschen vorbereiten, die bald ihre Befehle unterstellen werden.
„Wir möchten diese Forschung in die Hände der Menschen legen, aber im Moment sind wir nur daran interessiert, Feedback darüber zu erhalten, wie Menschen die Plattform nutzen. Wir sind definitiv daran interessiert, diese Technologie in größerem Umfang einzusetzen, aber wir haben derzeit keine Pläne für eine Kommerzialisierung“, sagt Ramesh.
Weiterlesen:
- Technologie der Zukunft:22 Ideen, die unsere Welt verändern werden
- Das Metaversum könnte zu einem wilden Westen werden, wenn wir nicht aufpassen
- Was sind NFTs? Alles, was Sie wissen müssen