KI-Bildgenerierung: Einblick in den Midjourney-Vortrag am FHM Campus

KI-Bildgenerierung: Einblick in den Midjourney-Vortrag am FHM Campus
Bild mit Midjourney erstellt!

Im Februar 2024 hatte ich das Vergnügen, am FHM Campus Köln einen Vortrag über die KI-Bildgenerierung mit Midjourney zu halten. Als Geschäftsführer von 5PACE integriere ich Midjourney regelmäßig in meine tägliche Arbeit, um für meine Kunden Konzepte visuell greifbar zu machen. Diese Anwendung stellt einen signifikanten Mehrwert dar, der über meine Branche hinaus auch für andere Berufsfelder von Interesse sein könnte.

Was ist Midjourney?

Die Nutzung von Midjourney, um Analogfotos in digitale Kunstwerke zu transformieren, ist ebenso ein Bestandteil meiner kreativen Projekte. Ich bin nach wie vor selbst beeindruckt, wie viel Spaß die Arbeit mit Midjourney doch macht und in welcher rasanten Geschwindigkeit sich Midjourney weiterentwickelt.

Des weiteren pflege ich einen regelmäßigen Austausch mit anderen KI-Enthusiast:innen und bin im Verein GMKI engagiert. So verpasse ich selbst keine technische Neuerungen. Außerdem bieten mir KI-Events die Möglichkeit über ethische und rechtliche Aspekte zu diskutieren. Gleiches gilt für Vorträge, in denen gerne mal ein spannender Austausch stattfindet. Dieser Dialog bereichert nicht nur mein Fachwissen, sondern auch meine Perspektive auf die Verantwortung, die mit der Anwendung solcher Technologien einhergeht.

Ein besonderes Highlight des Workshops war das interaktive Quiz, bei dem die Teilnehmer herausgefordert wurden, KI-generierte Bilder von echten zu unterscheiden. Dies gab nicht nur eine Wasserstandsmeldung darüber, wie gut die Teilnehmer die Fähigkeiten der KI einschätzen konnten, sondern zeigte auch spielerisch die mögliche Qualität und Realitätsnähe der von Midjourney generierten Bilder.

Ich freue mich im weiteren Verlauf dieses Beitrages den Vortrag etwas zusammenzufassen. Dieser soll als Nachschlagewerk dienen können.

Detaillierte Kursinhalte

Grundlagen, Zugänge, Commands, Parameter

Grundlagen der KI-Bildgenerierung

Midjourney nutzt fortschrittliche KI-Modelle, um aus Textbeschreibungen Bilder zu generieren. Diese Technologie basiert auf dem Prinzip der Diffusionsmodelle, die eine Alternative zu den Generative Adversarial Networks (GANs) darstellen. Ein Beispiel für ein GAN Modell findet ihr auf: https://thispersondoesnotexist.com/

Quelle des Schaubilds: https://www.clickworker.de/ki-glossar/generative-adversarial-networks/

Die Diffusionsmodelle arbeiten, indem sie schrittweise ein verrauschtes Startpunkt-Bild (welches man auch selbst in Form eines SEEDS bestimmen kann) über mehrere Schritte zu einem detaillierten Bild "umwandeln". Gesteuert durch die Eingabe eines Textprompts und optionalen "Referenzbildern" und Parametern.

Quelle des Schaubilds: https://wandb.ai/wandb_gen/audio/reports/A-Gentle-Introduction-to-Dance-Diffusion--VmlldzoyNjg1Mzky
Dieses GIF zeigt den Generierungs-Prozess eines Bilders auf Midjourney. Quelle des Bildes: https://docs.midjourney.com/docs/quick-start

Zugang und Grundlagen

Der Zugang zu Midjourney erfolgt über Discord, wo Nutzer:innen nach der Registrierung und Authentifizierung auf den Midjourney Server & Bot zugreifen können. Die Präsentation erläuterte den Prozess der Account-Erstellung und die Navigation innerhalb von Discord und der Midjourney-Community.

💡
Links für den Zugang zu Midjourney

Registrierung Discord: https://discord.com/register

Bei Midjourney mit Discord Authentifizieren / Account anlegen: https://midjourney.com/account

Midjourney Server auf Discord beitreten: http://discord.gg/midjourney
Preisstruktur von Midjourney. Quelle des Bildes: midjourney.com

Commands und Parameter

Die Präsentation deckte eine Vielzahl von Commands und Parametern ab, die Midjourney bietet, um die Bildgenerierung zu steuern.

Gängige Commands / Funktionen von Midjourney

Commands dienen als direkte Anweisungen an Midjourney, um bestimmte Aktionen auszuführen oder Funktionen zu aktivieren. Jeder Command erwartet vordefinierte Eingaben, die befolgt werden müssen, um die gewünschten Ergebnisse zu erzielen.

  • /imagine: Der Hauptbefehl für die Generierung von Bildern basierend auf englischen Textbeschreibungen und Links zu Bildern. Zusätzlich bestückt mit eventuellen Parametern (im folgenden Blogbeitrag beschrieben). Für das Einbinden von eigenen Bildern kann man klassische "Image Upload Portale" nutzen. Früher war es auch möglich die Bilder bei Discord hochzuladen und den Link direkt aus Discord zu extrahieren. Dies scheint nun aber nicht mehr oder nur eingeschränkt zu funktionieren.
Ergebnis der Generierung.
  • /blend: Diese Funktion ermöglicht es, zwei bis sechs Bilder ineinander zu blenden. Diese Technik ist besonders nützlich, um einzigartige Kompositionen zu erstellen oder verschiedene Aspekte mehrerer Bilder zu einem neuen Werk zu vereinen.
Verwendung des /blend Command. Quelle des Bildes: https://docs.midjourney.com/docs/blend
  • /describe: Bietet detaillierte Beschreibungen für hochgeladene Bilder, die als Inspirationsquelle für Textprompts dienen können. Aus den Beschreibungen kann man die Bilder mit einem Klick auf einen Button direkt generieren.
Verwendung des /describe Commands.
  • /info: Liefert nützliche Informationen über den verwendeten Midjourney Account. Unter anderem wie viele Bilder man bereits generiert hat & wie viele Generierungen der aktuelle (bezahlte) Plan noch zulässt.
  • /settings: Ermöglicht das Einstellen bevorzugter Settings für die Wiederverwendung in zukünftigen Prompts.
Verwendung des /settings Commands.
  • /shorten: Wandelt lange und komplexe Textprompts in effektivere, kürzere Formulierungen um, um die Präzision der Bildgenerierung zu verbessern.
Einkürzen von Prompt Texten mit Hilfe des /shorten Commands.
  • /tuner: Bietet die Möglichkeit zur detaillierten Anpassung des visuellen Stils von Bildern, um sie an kreative Visionen anzupassen. Dazu lässt man mehrere Bilder mit Hilfe eines Text Prompts erstellen. Anschließend wählt man die Bilder aus die einem am besten gefallen. Daraus formt sich ein individueller Code.
Erstellung eines eigenen Styles mit Hilfe des /tune Commands.
💡
Eine vollständige Liste aller Commands findet man in der Midjourney Dokumentation: https://docs.midjourney.com/docs/command-list

Gängige Parameter für die Bildgenerierung

Gängige Suffix Parameter für Midjourney.

Ein zentraler Aspekt meines Vortrages war die detaillierte Erörterung der vielfältigen Parameter, die Midjourney bietet, um die Bildgenerierung zu verfeinern. Diese sind essenziell, um präzise, kreative und beeindruckende Ergebnisse zu erzielen. Hier ein Überblick über die besprochenen Funktionen und Parameter:

  • --ar: Steht für Aspect Ratio (Seitenverhältnis) und ermöglicht die Anpassung des Bildformats (z.B. 4:3, 16:9).
  • --chaos: Bestimmt die Varianz der Ergebnisse innerhalb eines Bild-Grids. Ein höherer Wert führt zu größeren Unterschieden zwischen den Bildern.
  • --iw: Image Weight (Bildgewicht) regelt das Verhältnis zwischen dem Textprompt und dem hochgeladenen Bildmaterial.
  • --no: Ermöglicht das Ausschließen bestimmter Begriffe oder Elemente aus der Bildgenerierung.
  • --sref: Steht für Style Reference und wird verwendet, um konstante Ergebnisse durch die Angabe von Referenzbildern zu erzielen.
  • --weird: Ein Parameter, der die Außergewöhnlichkeit der generierten Bilder steuert. Höhere Werte führen zu ungewöhnlicheren Bildern.
  • --stylize: Bestimmt den Grad der ästhetischen Anpassung durch Midjourney, wobei ein Wertebereich von 0 bis 1000 zur Verfügung steht.
  • --seed: Ein Parameter zur Steuerung des visuellen Rauschens, was hilft, bei wiederholten Versuchen ähnliche Bilder zu erzeugen.
💡
Eine genaue Liste aller Parameter findet man in der Midjourney Dokumentation unter: https://docs.midjourney.com/docs/parameter-list

Text Prompts

Textprompts sind spezifische Anweisungen in Textform, die Nutzer:innen ermöglichen, die Erstellung von Bildern durch Künstliche Intelligenz (KI) zu steuern. Sie sind das Bindeglied zwischen der menschlichen Vorstellungskraft und der Fähigkeit der KI, diese Vorstellungen in visuelle Darstellungen umzusetzen. Bei Tools wie Midjourney geben Nutzer:innen Textprompts ein, die Beschreibungen, Stimmungen und Szenarien enthalten können. Die KI analysiert diese Eingaben, interpretiert die darin enthaltenen Informationen und generiert daraufhin Bilder, die den beschriebenen Vorgaben entsprechen.

Die Wirksamkeit eines Textprompts hängt stark von seiner Klarheit, Präzision und den enthaltenen Details ab. Ein gut konstruierter Prompt kann die KI leiten, um Ergebnisse zu produzieren, die eng mit den Vorstellungen der Nutzer:innen übereinstimmen. Um dies zu erreichen, sollten Nutzer:innen klare und präzise Beschreibungen verwenden, sich auf das Wesentliche konzentrieren und wo möglich, spezifische Details zu Stil, Farbe, Komposition und Stimmung einfügen. Die Kunst liegt darin, die richtige Balance zwischen Kreativität und Genauigkeit zu finden, um der KI genügend Raum für die Interpretation zu lassen, ohne sie in die Irre zu führen.

Länge und Klarheit

Ein effektiver Textprompt sollte zwischen 30 und 60 Wörtern lang sein. Die Verwendung kurzer und eindeutiger Sätze in englischer Sprache, die klar beschreiben, was visualisiert werden soll, ist essentiell. Eine präzise Sprache hilft der KI, die Anforderungen besser zu verstehen und entsprechende Bilder zu generieren.

Vermeidung von Negativ-Prompts

Es ist wichtig, sich auf das zu konzentrieren, was im Bild dargestellt werden soll, anstatt was nicht zu sehen sein soll. Negative Formulierungen können die KI verwirren und zu weniger zufriedenstellenden Ergebnissen führen. Durch den Parameter --no kann man Midjourney am Ende eines Prompts jedoch klar definieren, was nicht zu sehen sein soll.

Anweisungen vermeiden

Phrasen wie „Generiere ein Bild, welches...“ sind zu vermeiden. Stattdessen sollte der Fokus auf der direkten Beschreibung des gewünschten Bildinhalts liegen.

Strukturierung des Prompts

Es empfiehlt sich, das Wichtigste an den Anfang zu setzen und vom Vordergrund zum Hintergrund zu arbeiten. Vom wichtigsten zum unwichtigsten. Dies hilft, die Prioritäten klarzustellen und sicherzustellen, dass die KI die zentralen Elemente des Bildes angemessen hervorhebt.

Berücksichtigung von Details

Berücksichtigung möglicher Details für die Gestaltung guter Prompts.

Die Einbeziehung spezifischer Details wie Subjekt, Medium, Umgebung, Beleuchtung, Tageszeit, Farbe, Stimmung, Komposition, Kameraeinstellungen und Stil kann die Qualität der generierten Bilder erheblich verbessern. Je detaillierter der Prompt, desto genauer kann die KI die Anforderungen umsetzen. Beachtet jedoch keine Wiederholungen einzubauen.

Konzepte für Text-Prompts: Synonyme & Satzstruktur

Die Verwendung von Synonymen und unterschiedlichen Satzstrukturen kann helfen, die Vielfalt und Kreativität der Ergebnisse zu steigern.

Ressourcen für Inspiration, Styles & Keywords

Im digitalen Zeitalter ist die Suche nach Inspiration für Kreativprojekte, insbesondere für die KI-gestützte Bildgenerierung, einfacher und zugänglicher denn je. Das Internet bietet eine Fülle von Ressourcen, die vollständige Textprompts, spezifische Keywords und visuelle Beispiele teilen, um Nutzer:innen zu helfen, ihre eigenen Prompts zu verfeinern und zu perfektionieren.

Midjourney Community- / Showcase-Tab

https://www.midjourney.com/showcase

Midjourney verfolgt einen starken Community-Ansatz, der den Austausch und die Transparenz in den Mittelpunkt stellt. Besonders interessant ist, dass in den kostenlosen sowie den ersten beiden bezahlten Plänen (Stand 25. Februar 2024), alle generierten Bilder und die dazugehörigen Textprompts für die Community einsehbar sind. Diese Offenheit ermöglicht es Nutzer:innen, auf der Webseite von Midjourney genau nachzuvollziehen, wie bestimmte Bilder generiert wurden. Sie können sich nicht nur von den Prompts inspirieren lassen, sondern diese auch für eigene Projekte übernehmen oder darauf aufbauen.

Es ist ein Austausch, der die gemeinsame Nutzung und das Lernen aus den Erfahrungen anderer fördert, aber auch ein Bewusstsein für die öffentliche Sichtbarkeit der eigenen Kreationen erfordert.

In den Newbie Kanälen im Discord Server von Midjourney kann man auch live beobachten wie Nutzer:innen Bilder generieren und hat die Möglichkeit Anfragen fremder Nutzer:innen an den Midjourney Bot weiter zu verfeinern. Das erlaub z.B. weitere Versionen, Upscales etc. erstellen zu können.

Beispiel aus einem Newbie Kanal.

Style-Guides und Keyword-Kataloge

https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference
https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference

Zudem existieren diverse Style-Guides und Keyword-Kataloge, die spezifische Stilrichtungen, Techniken und Elemente auflisten, die in Textprompts verwendet werden können. Diese Ressourcen sind besonders nützlich, um die sprachliche Präzision zu verbessern und der KI genauere Hinweise auf die gewünschte Ästhetik oder Stimmung zu geben.

💡
Eine dieser "Style und Keyword-Kataloge" findet man z.B. bei willwulfken auf Github unter: https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference

Praktische Anwendungen

Mögliche Einsatzgebiete für Midjourney

Praktische Anwendungen

Ich selbst nutze Midjourney in meiner Kunst aber auch in meiner Film- & Medienproduktion um meinen Kunden z.B. Storyboards erstellen zu können. Das bietet mir eine zielgerichtete Kommunikation und einen Startpunkt für ein Angebot / Projektplan, in dem der Kunde besser nachvollziehen kann, ob wir die gleiche visuelle Sprache sprechen. Der Einsatz von Midjourney in meinem Beruf beschleunigt außerdem die Prozesse und hält die Kosten für den Kunden gering.

Ebenfalls einsetzen lässt sich Midjourney z.B. in Präsentationen, für die echtes Bildmaterial fehlt. Hier lassen sich KI-generierte Bilder als Platzhalter nutzen oder sogar "echte Bilder" komplett ersetzen.

Weitere Einsatzgebiete könnte es z.B. in der Architektur und dem Interieur Design geben; Anwendungen Autoren und Content-Ersteller; Im Bildungsbereich; Marketing und Werbung; Modedesign; etc.

Im Folgenden ein paar von mir generierte Beispiele:

Rechtliche Aspekte

Was gibt es zu beachten?

Rechtliche Aspekte

Vorweg: Hier handelt es sich um keine Rechtsberatung, sondern lediglich über zusammengetragene Informationen.

Beim Einsatz von Midjourney und ähnlichen KI-basierten Bildgenerierungstools sind verschiedene rechtliche Aspekte zu beachten, um sowohl kreative Freiheiten zu nutzen als auch Urheberrechte und Datenschutzbestimmungen einzuhalten. Hier einige wichtige Punkte:

Urheberrecht und Bildrechte

  • Urheberrechtliche Fragen: Beim Erstellen von Bildern mit Midjourney ist es wichtig, urheberrechtliche Fragen zu berücksichtigen. Nutzer:innen sollten darauf achten, keine geschützten Werke oder Markenzeichen ohne Erlaubnis in ihren Prompts zu verwenden. Das betrifft auch den Upload und die Verwendung von Bildinhalten.
  • Verwendung von generierten Bildern: Die Nutzungsrechte an den mit Midjourney generierten Bildern können je nach Verwendungszweck (kommerziell vs. nicht-kommerziell) und den spezifischen Lizenzbedingungen von Midjourney variieren. Ebenfalls sollte man darauf achten, dass in den generierten Bildern keine geschützten Werke / Logos / Marken etc. vorkommen. Auch wenn man diese nicht explizit in einem Textprompt formuliert hat.

Datenschutz und Persönlichkeitsrechte

  • Datenschutzbestimmungen: Die Erstellung von Bildern, die reale Personen darstellen, kann Datenschutz- und Persönlichkeitsrechte betreffen. Es ist ratsam, das Einverständnis der abgebildeten Personen einzuholen.

Geschäftsbedingungen von Midjourney

  • Einhalten der Nutzungsbedingungen: Die Geschäftsbedingungen von Midjourney legen fest, wie die Plattform und die generierten Inhalte verwendet werden dürfen. Eine genaue Kenntnis dieser Bedingungen hilft, Verstöße und mögliche rechtliche Konsequenzen zu vermeiden. Hier z.B. ein Auszug aus den Terms of Service von Midjourney (Quelle https://docs.midjourney.com/docs/terms-of-service)
https://docs.midjourney.com/docs/terms-of-service

Rechtliche Präzedenzfälle und Diskussionen

  • Rechtliche Herausforderungen: Die innovative Natur von KI-basierter Kunstgenerierung führt zu neuen rechtlichen Fragen und Herausforderungen. Beispielsweise können Fälle wie der Getty Images / DeviantArt "Skandal" wichtige Diskussionen über Urheberrechte und die Nutzung von KI-generierten Bildern anregen.

Verantwortung und Ethik bei der Nutzung von Midjourney

Bei der Nutzung von Midjourney und ähnlichen KI-gestützten Bildgenerierungstools spielt die ethische Verantwortung eine zentrale Rolle. Nutzer:innen sollten sich intensiv mit der Frage auseinandersetzen, für welche Zwecke die generierten Inhalte verwendet werden und inwiefern eine Kennzeichnung dieser Inhalte als KI-generiert erforderlich oder angemessen ist.

  • Bewusste Nutzung: Vor der Erstellung und Veröffentlichung von Bildern sollte man sorgfältig überlegen, in welchem Kontext und zu welchem Zweck diese eingesetzt werden. Es gilt, das Potenzial für Missverständnisse oder Fehlinterpretationen zu minimieren und transparent zu machen, dass die Inhalte mit Hilfe von KI generiert wurden.
  • Kennzeichnungspflicht: In bestimmten Fällen kann es notwendig sein, generierte Inhalte als solche zu kennzeichnen, um Transparenz gegenüber dem Betrachter zu gewährleisten. Dies kann besonders relevant sein, wenn Bilder in sensiblen Bereichen wie der Nachrichtenberichterstattung, in Bildungsmaterialien oder in der Werbung verwendet werden.
  • Reflexion über den Einsatz: Nutzer:innen sollten reflektieren, inwieweit die Verwendung von KI-generierten Bildern die Wahrnehmung von Realität und Authentizität beeinflusst. Es ist wichtig, eine Balance zu finden, die die kreativen und innovativen Möglichkeiten von KI würdigt, ohne irreführend zu sein oder unbeabsichtigt Falschinformationen zu verbreiten.

Fazit

Abschließende Worte zum Vortrag & Kontaktinformationen.

Fazit und Ausblick

Die Durchführung des Vortrags war eine bereichernde Erfahrung für mich! Es ist mir immer ein Vergnügen, die Faszination und die vielseitigen Anwendungsmöglichkeiten von Midjourney mit einem interessierten Publikum zu teilen. Die Vorbereitung und Durchführung solcher Vorträge erfordern jedoch eine kontinuierliche Auseinandersetzung mit den neuesten Entwicklungen, nicht zuletzt wegen der schnelllebigen Natur der Technologie und den sich ständig wandelnden Rechtslagen. Diese Dynamik macht es notwendig, stets auf dem Laufenden zu bleiben, um aktuelle und relevante Informationen bereitstellen zu können.

Trotz der Herausforderungen bleibt Midjourney für mich eine Quelle ständiger Inspiration und Kreativität! Die Möglichkeit mit nur wenigen Worten ganz neue Welten zu erschaffen, verliert nie ihren Reiz. Jedenfalls bis jetzt nicht.

Die ethischen Überlegungen, die mit der Nutzung von Midjourney und ähnlichen Technologien einhergehen, sind jedoch nicht zu unterschätzen. Es ist wichtig, sich Gedanken darüber zu machen, welche Branchen durch diese Tools bereichert oder möglicherweise gefährdet werden könnten. Die Auseinandersetzung mit den ethischen Dimensionen und potenziellen Auswirkungen dieser Technologien ist entscheidend, um verantwortungsvoll mit den generierten Inhalten umzugehen und die Grenzen des Machbaren auszuloten.

In einer Welt, die sich durch die rasanten Fortschritte in der KI-Technologie ständig verändert, ist es unabdingbar, sich mit diesen neuen Technologien zu beschäftigen. Nur so können wir sicherstellen, dass wir nicht unvorbereitet sind, wenn sich die Landschaft unserer Branchen verändert. Die Bereitschaft, zu lernen und sich anzupassen, ist der Schlüssel, um in dieser neuen Ära mithalten zu können!

Kontakt und Teilen

Wenn ihr Fragen habt oder zur Diskussion beitragen wollt, meldet euch gerne. Ich freue mich auf den Austausch. Und wenn euch der Artikel gefallen hat, teilt ihn gerne in euren sozialen Netzwerken.

Erreichen könnt ihr mich z.B. über LinkedIn unter: https://www.linkedin.com/in/julianguttzeit/