Wenn es um generative KI geht, bekommt das Thema Texte oftmals die meiste Aufmerksamkeit. Siehe meine Anleitung zur Texterstellung mit KI. Die Fortschritte im Bereich Bild und Grafik sind aber ebenso spannend. Und bei Videos bekommst du heute eine Vorschau auf das, was in vielleicht gar nicht so ferner Zukunft damit möglich ist. In diesem Beitrag gebe ich dir einen Überblick zu den Möglichkeiten und Grenzen visueller KI-Angebote.
Bilder, Grafiken und Videos werten Inhalte im Netz enorm auf. Sie sorgen für mehr Aufmerksamkeit und können ein Thema nicht nur erklären, sondern auch emotionalisieren. Du hast hier also die Chance, deine Marke und deine Corporate Identity zu zeigen und dich von anderen abzuheben.
Wer visuelle Inhalte benötigt, hatte dabei bislang vor allem die folgenden Möglichkeiten:
1. Selbst erstellen. Dafür brauchst du neben Talent und Wissen die passenden Werkzeuge sowie Zeit für die Umsetzung. Das dürfte in vielen Fällen unrealistisch sein.
2. Jemanden beauftragen. Das ist sicher die hochwertigste Variante: Du findest eine passende Fachperson. Hier sind die Ergebnisse in der Regel am besten, weil du die Visuals passend zu deinen Bedürfnissen erstellen lässt. Wenig überraschend sind hier allerdings auch die Kosten am höchsten.
3. Stockfotos. Du kannst Plattformen wie Shutterstock, Adobe Stock oder Depositphotos nutzen. Sie bieten eine große Auswahl, haben eine gute Qualität und sind erschwinglich. Es gibt sogar kostenlose Angebote wie Pexels oder Pixelio. Nachteil: Du bekommst Fotos und Grafiken von der Stange, die andere ebenfalls benutzen. Individuelle Anpassungen sind meist nicht möglich. Die müsstest du dann wiederum selbst vornehmen oder in Auftrag geben.
KI-Bildgeneratoren scheinen hier auf den ersten Blick eine spannende neue Alternative zu sein. Sie liefern schließlich visuelle Inhalte schnell und einfach per Textbefehl. Du kannst hier also theoretisch eine exakt passende Visualisierung generieren und das mit geringen Kosten oder sogar kostenlos.
Bekannte KI-Bildgeneratoren sind etwa Dall-E von OpenAI, die auch hinter ChatGPT stecken, MidJourney sowie Stable Diffusion. Sie alle haben kostenlose und kostenpflichtige Angebote. Stable Diffusion ist dabei open source, weshalb sich um dieses Tool bereits eine aktive Community entwickelt hat. So kannst du Stable Diffusion direkt auf deinem eigenen Rechner benutzen – oder sogar auf einem Smartphone oder Tablet.
Wozu KI Angebote für Bilder gut sind
Diese Bildgeneratoren erstellen Werke in Stilen aller Art: Illustrationen, Zeichnungen, Fotos, Computergrafiken oder sogar im Look eines Ölgemäldes. Die Grenzen setzen hier das Trainingsmaterial, deine Phantasie sowie dein Geschick und deine Ausdauer bei der Suche nach dem perfekten Ergebnis.
Und das bringt uns zu einem Schwachpunkt dieser Angebote, sobald du sie tatsächlich selbst ausprobierst: Es ist nicht immer so einfach wie erhofft, das gewünschte Ergebnis zu erzielen. Zumindest gelingt es nicht „einfach auf Knopfdruck“, wie es gern beschrieben und versprochen wird. Manchmal hast du Glück und du landest schnell einen Treffer. Manchmal raufst du dir die Haare aus, weil es einfach nicht klappen will.
Mit der Zeit lernst du, wie du die besten Ergebnisse erzielst. Das zentrale Element ist hier der Prompt, also die schriftliche Anweisung an das KI-Tool. Was dort gut funktioniert, hängt allerdings stark vom Werkzeug ab.
Dall-E 3 ist beispielsweise sehr leistungsfähig, aber ChatGPT steht zwischen dir und der Anwendung. Wie auch bei Text erklärst du deshalb in natürlicher Sprache, was du dir vorstellst. ChatGPT nimmt das entgegen und übersetzt es in eine Anweisung an Dall-E. Gefällt dir das Ergebnis nicht, erklärst du, was geändert werden soll. Und so geht es immer weiter.
Am anderen Ende des Spektrums ist Stable Diffusion. Selbst wenn du es über die kommerzielle Anwendung DreamStudio nutzt, hast du diverse manuelle Optionen. Noch mehr Freiheiten bekommst du, wenn du Stable Diffusion über eine Oberfläche auf deinem eigenen Rechner nutzt wie etwa Automatic1111 oder Draw Things.
Um es einmal so zu erklären: Dall-E ist macOS, Stable Diffusion ist Linux. Denn Dall-E produziert zwar recht schnell gute Ergebnisse. Dafür musst du im Gegenzug akzeptieren, dass das System beschränkt, was du wie tun kannst. Stable Diffusion wiederum ist zwar zunächst verwirrend und komplex. Aber dafür ist enorm viel möglich und du kannst etliche Stellschrauben nutzen.
Vielleicht könnte MidJourney als Dritter im Bunde dann für Windows stehen. Ich muss allerdings zugeben, dass ich MidJourneys Oberfläche innerhalb des Chat-Angebots Discourse überhaupt nicht mag. Insofern habe ich damit nur sehr spärliche Erfahrungen. MidJourney ist zugleich recht beliebt, da du hier auch mit wenig Mühe schöne Ergebnisse erzielen kannst. In dem Moment nutze ich nun aber lieber Dall-E 3 via ChatGPT.
Typische Herausforderungen und Fehler
Ein Fehler, den ich immer wieder sehe: Es wird zu oft versucht, fotorealistische Bilder zu erzeugen. Das ist aus meiner Sicht aus zwei Gründen nicht so ideal:
- Die Ergebnisse sehen oft noch künstlicher aus als die Stockfotos, auf denen sie basieren. Hinzu kommt oft ein fehlender Feinschliff für den Look der Bilder. Denn Stockfotos sind meist so neutral wie möglich gestaltet, was sie sowohl flexibel einsetzbar als auch langweilig macht. Interessant werden Fotos durch die Bildgestaltung, die Beleuchtung, das Spiel mit Schärfe und Unschärfe. Machst du dazu keine Vorgaben, tendieren KI-Tools dazu, etwas Mittelmäßiges zu erzeugen.
- Probleme und Fehler im Bild fallen eher ins Auge, während sie bei anderen Stilen als Ausdruck „kreativer Freiheit“ durchgehen. Ein Fachausdruck ist hier „uncanny valley“: Der Punkt, an dem etwa ein fast korrektes menschliches Gesicht durch einen kleinen Fehler verstörend aussieht.
Deshalb verlege ich mich häufig auf Illustrationen und Grafiken. Das bedeutet zugleich nicht, dass fotorealistische Bilder überhaupt nicht sinnvoll sind. Aber es ist gut, andere Möglichkeiten im Hinterkopf zu haben.
Unabhängig vom Stil ist es dabei wichtig, die Grenzen der Werkzeuge zu verstehen. Die können bisweilen überraschend sein. Bei dem einen Motiv funktioniert es dann auf Anhieb, während eine andere Idee selbst nach dutzenden Versuchen nicht klappt. Das hat oft damit zu tun, was die KI aus ihrem Trainingsmaterial kennt. Zwar kann sie Bilder erzeugen, die es so noch nirgends gibt.
Aber du musst dir zugleich bewusst sein, dass diese Werkzeuge nicht im Geringsten verstehen, was sie im Bild darstellen. Sie haben keine Vorstellung von der Welt im Allgemeinen oder beispielsweise von menschlicher Anatomie im Speziellen.
Ein bekanntes Beispiel für dieses Problem sind Hände. Dall-E oder Stable Diffusion wissen nicht, wie eine menschliche Hand aussieht oder funktioniert. Sie haben zwar Hände während des Trainings gesehen. Aber sie sind manchmal nur von der Seite sichtbar, teilweise verdeckt oder zwei Hände liegen übereinander. Die KI versteht nicht, dass eine durchschnittliche menschliche Hand fünf Finger hat und dass man manchmal, aufgrund der Perspektive oder anderer Umstände, nicht alle sieht.
Schwierig sind zudem komplexe Szenen. Beispiel: Du möchtest ein Bild, das ein Team von fünf Personen zeigt und du hast konkrete Vorstellungen davon, wie jede Person aussehen soll. Viel Glück damit! Ich hoffe, du hast Zeit und Geduld mitgebracht …
Ähnlich sieht es aus, wenn eine Person eine klar definierte Pose einnehmen soll oder du einen exakten Bildaufbau vor Augen hast. Hier hilft es, ein Bild nicht allein anhand eines Prompts erstellen zu lassen, sondern auch anhand einer Vorlage (bekannt als „Image to Image“ im Gegensatz zu „Text to Image“). Bei Stable Diffusion gibt es außerdem den Helfer ControlNet, mit dem du spezifische Elemente einer Vorlage bestimmst, die im neuen Bild vorkommen sollen.
Du merkst an dieser Stelle sicher: Je höher deine Ansprüche und je detaillierter deine Vorstellung, desto schwieriger wird es. Gut funktioniert es hingegen, wenn du dich von der KI inspirieren lässt: Du beschreibst etwa ChatGPT für welchen Zweck du das Bild benötigst und was es darstellen soll und dann schaust du, inwiefern dir das Ergebnis gefällt und näherst dich Schritt für Schritt an. Bei Stable Diffusion wiederum wirst du mit dem Prompt experimentieren, aber auch mit zahlreichen weiteren Optionen und Einstellmöglichkeiten.
Die problematischen Seiten der Bildgeneratoren
Diese Herausforderung ist allerdings nicht die einzige. Eine weitere ist: Diese KIs zeigen, was sich im Trainingsmaterial findet. Und dazu gehören Vorurteile und Klischees. Das kann etwa stereotypische Rollenbilder für Geschlechter oder gar rassistische Weltanschauungen umfassen. Es ist am Ende deine Verantwortung, solche problematischen Darstellungen zu erkennen und auszusortieren. ChatGPT und Dall-E versuchen das aktiv zu vermeiden.
Ein weiterer Punkt betrifft das nun schon mehrmals genannte „Trainingsmaterial“. Ähnlich wie bei Textgeneratoren, haben auch diese Werkzeuge ihre Fähigkeiten von menschlichen Vorbildern gelernt. Sie wurden mit einer enormen Menge an Daten gefüttert. Ob diese Fotos, Grafiken, Illustrationen, Gemälde und anderen Werke dafür genutzt werden durften, ist eine heiß diskutierte Frage.
„*“ zeigt erforderliche Felder an
Manche sehen es als Urheberrechtsverletzung an. Andere vergleichen es damit, wie Künstler aus Fleisch und Blut von Vorbildern lernen und Trends folgen. Es würde zu weit führen, die Diskussion hier abbilden zu wollen. Manche Anbieter wie etwa Adobe nutzen für ihr Werkzeug das hauseigene Stockfoto-Angebot und sehen zugleich eine Vergütung für diese Nutzung vor. Dadurch sollte es für den kommerziellen Bereich und vor allem für Unternehmen in Frage kommen.
Ausblick: Von Bild zu Bewegtbild
Das nächste spannende Feld für KI Tools zeichnet sich dabei bereits ab: Video. Hier gibt es eine Reihe neuer Angebote, die entweder eine Texteingabe als Ausgangspunkt nutzen oder ein Bild.
Die Qualität der Ergebnisse ist durchaus verblüffend. Allerdings sind die Clips noch sehr kurz. Typische Artefakte und Eigenheiten der KI-Bildgeneratoren finden sich hier ebenfalls. Am besten scheinen sie derzeit bei relativ statischen Szenen zu funktionieren. Je komplexer es wird, desto eher schleichen sich absurde Details ein.
Zugleich gilt: Text- und Bildgeneratoren waren vor noch nicht allzu langer Zeit an einem ähnlichen Punkt. Vor ein paar Jahren fanden wir es beispielsweise noch faszinierend, dass sich beliebige Portraitfotos erstellen lassen. Heute beschweren wir uns, wenn ein Detail in unserem fotorealistischen Output nicht hundertprozentig stimmt.
Insofern gibt es eine berechtigte Hoffnung, dass sich diese Werkzeuge in den nächsten Monaten und Jahren spürbar weiterentwickeln werden. Beispiele sind:
Während Video-Generatoren also noch eher Zukunftsmusik sind, finde ich Bildgeneratoren bereits heute nützlich und sinnvoll. Sie haben ihre Grenzen und sie haben Probleme. Sie ersetzen also nicht manuell erstellte Fotos oder Grafiken. Vielmehr bieten sie eine weitere Option und in kreativen Händen können sie ein hilfreiches Werkzeug sein.
Damit sehe ich sie auf einer ähnlichen Stufe wie heutige Textgeneratoren: Sie unterstützen und manchmal beflügeln sie. Am besten funktionieren sie dabei im Tandem mit einem Menschen.
Deine Fragen zur Erstellung von KI Bildern
Welche Fragen zur Erstellung Bildern und Grafiken mit KI hast du? Nutze gerne die Kommentarfunktion. Du willst über neue Beiträge zum Thema Webdesign und KI informiert werden? Dann folge uns auf Twitter, Facebook, LinkedIn oder über unseren Newsletter.
Hi Jan, super Artikel, ich stand dem Thema auch sehr skeptisch gegenüber, habe aber meinen Standpunkt dahingehend geändert das ich KI Bildertools einfach dazu nutze um kreative Ideen zu bekommen, das eigentliche Projekt setzte ich dann eher händisch um, aber als Ideengeber macht Ki für mich durchaus Sinn.
Gruß Tim
Vielen Dank für dein Feedback! So ähnlich nutze ich es auch für Texte. Es ist ein Assistent, ein Helfer.