KI-Bildgenerierung: Einblick in den Midjourney-Vortrag am FHM Campus
Im Februar 2024 hatte ich das Vergnügen, am FHM Campus Köln einen Vortrag über die KI-Bildgenerierung mit Midjourney zu halten. Als Geschäftsführer von 5PACE integriere ich Midjourney regelmäßig in meine tägliche Arbeit, um für meine Kunden Konzepte visuell greifbar zu machen. Diese Anwendung stellt einen signifikanten Mehrwert dar, der über meine Branche hinaus auch für andere Berufsfelder von Interesse sein könnte.
Die Nutzung von Midjourney, um Analogfotos in digitale Kunstwerke zu transformieren, ist ebenso ein Bestandteil meiner kreativen Projekte. Ich bin nach wie vor selbst beeindruckt, wie viel Spaß die Arbeit mit Midjourney doch macht und in welcher rasanten Geschwindigkeit sich Midjourney weiterentwickelt.
Des weiteren pflege ich einen regelmäßigen Austausch mit anderen KI-Enthusiast:innen und bin im Verein GMKI engagiert. So verpasse ich selbst keine technische Neuerungen. Außerdem bieten mir KI-Events die Möglichkeit über ethische und rechtliche Aspekte zu diskutieren. Gleiches gilt für Vorträge, in denen gerne mal ein spannender Austausch stattfindet. Dieser Dialog bereichert nicht nur mein Fachwissen, sondern auch meine Perspektive auf die Verantwortung, die mit der Anwendung solcher Technologien einhergeht.
Ein besonderes Highlight des Workshops war das interaktive Quiz, bei dem die Teilnehmer herausgefordert wurden, KI-generierte Bilder von echten zu unterscheiden. Dies gab nicht nur eine Wasserstandsmeldung darüber, wie gut die Teilnehmer die Fähigkeiten der KI einschätzen konnten, sondern zeigte auch spielerisch die mögliche Qualität und Realitätsnähe der von Midjourney generierten Bilder.
Ich freue mich im weiteren Verlauf dieses Beitrages den Vortrag etwas zusammenzufassen. Dieser soll als Nachschlagewerk dienen können.
Detaillierte Kursinhalte
Grundlagen, Zugänge, Commands, Parameter
Grundlagen der KI-Bildgenerierung
Midjourney nutzt fortschrittliche KI-Modelle, um aus Textbeschreibungen Bilder zu generieren. Diese Technologie basiert auf dem Prinzip der Diffusionsmodelle, die eine Alternative zu den Generative Adversarial Networks (GANs) darstellen. Ein Beispiel für ein GAN Modell findet ihr auf: https://thispersondoesnotexist.com/
Die Diffusionsmodelle arbeiten, indem sie schrittweise ein verrauschtes Startpunkt-Bild (welches man auch selbst in Form eines SEEDS bestimmen kann) über mehrere Schritte zu einem detaillierten Bild "umwandeln". Gesteuert durch die Eingabe eines Textprompts und optionalen "Referenzbildern" und Parametern.
Zugang und Grundlagen
Der Zugang zu Midjourney erfolgt über Discord, wo Nutzer:innen nach der Registrierung und Authentifizierung auf den Midjourney Server & Bot zugreifen können. Die Präsentation erläuterte den Prozess der Account-Erstellung und die Navigation innerhalb von Discord und der Midjourney-Community.
Registrierung Discord: https://discord.com/register
Bei Midjourney mit Discord Authentifizieren / Account anlegen: https://midjourney.com/account
Midjourney Server auf Discord beitreten: http://discord.gg/midjourney
Commands und Parameter
Die Präsentation deckte eine Vielzahl von Commands und Parametern ab, die Midjourney bietet, um die Bildgenerierung zu steuern.
Gängige Commands / Funktionen von Midjourney
Commands dienen als direkte Anweisungen an Midjourney, um bestimmte Aktionen auszuführen oder Funktionen zu aktivieren. Jeder Command erwartet vordefinierte Eingaben, die befolgt werden müssen, um die gewünschten Ergebnisse zu erzielen.
/imagine
: Der Hauptbefehl für die Generierung von Bildern basierend auf englischen Textbeschreibungen und Links zu Bildern. Zusätzlich bestückt mit eventuellen Parametern (im folgenden Blogbeitrag beschrieben). Für das Einbinden von eigenen Bildern kann man klassische "Image Upload Portale" nutzen. Früher war es auch möglich die Bilder bei Discord hochzuladen und den Link direkt aus Discord zu extrahieren. Dies scheint nun aber nicht mehr oder nur eingeschränkt zu funktionieren.
/blend
: Diese Funktion ermöglicht es, zwei bis sechs Bilder ineinander zu blenden. Diese Technik ist besonders nützlich, um einzigartige Kompositionen zu erstellen oder verschiedene Aspekte mehrerer Bilder zu einem neuen Werk zu vereinen.
/describe
: Bietet detaillierte Beschreibungen für hochgeladene Bilder, die als Inspirationsquelle für Textprompts dienen können. Aus den Beschreibungen kann man die Bilder mit einem Klick auf einen Button direkt generieren.
/info
: Liefert nützliche Informationen über den verwendeten Midjourney Account. Unter anderem wie viele Bilder man bereits generiert hat & wie viele Generierungen der aktuelle (bezahlte) Plan noch zulässt./settings
: Ermöglicht das Einstellen bevorzugter Settings für die Wiederverwendung in zukünftigen Prompts.
/shorten
: Wandelt lange und komplexe Textprompts in effektivere, kürzere Formulierungen um, um die Präzision der Bildgenerierung zu verbessern.
/tuner
: Bietet die Möglichkeit zur detaillierten Anpassung des visuellen Stils von Bildern, um sie an kreative Visionen anzupassen. Dazu lässt man mehrere Bilder mit Hilfe eines Text Prompts erstellen. Anschließend wählt man die Bilder aus die einem am besten gefallen. Daraus formt sich ein individueller Code.
Gängige Parameter für die Bildgenerierung
Ein zentraler Aspekt meines Vortrages war die detaillierte Erörterung der vielfältigen Parameter, die Midjourney bietet, um die Bildgenerierung zu verfeinern. Diese sind essenziell, um präzise, kreative und beeindruckende Ergebnisse zu erzielen. Hier ein Überblick über die besprochenen Funktionen und Parameter:
- --ar: Steht für Aspect Ratio (Seitenverhältnis) und ermöglicht die Anpassung des Bildformats (z.B. 4:3, 16:9).
- --chaos: Bestimmt die Varianz der Ergebnisse innerhalb eines Bild-Grids. Ein höherer Wert führt zu größeren Unterschieden zwischen den Bildern.
- --iw: Image Weight (Bildgewicht) regelt das Verhältnis zwischen dem Textprompt und dem hochgeladenen Bildmaterial.
- --no: Ermöglicht das Ausschließen bestimmter Begriffe oder Elemente aus der Bildgenerierung.
- --sref: Steht für Style Reference und wird verwendet, um konstante Ergebnisse durch die Angabe von Referenzbildern zu erzielen.
- --weird: Ein Parameter, der die Außergewöhnlichkeit der generierten Bilder steuert. Höhere Werte führen zu ungewöhnlicheren Bildern.
- --stylize: Bestimmt den Grad der ästhetischen Anpassung durch Midjourney, wobei ein Wertebereich von 0 bis 1000 zur Verfügung steht.
- --seed: Ein Parameter zur Steuerung des visuellen Rauschens, was hilft, bei wiederholten Versuchen ähnliche Bilder zu erzeugen.
Text Prompts
Textprompts sind spezifische Anweisungen in Textform, die Nutzer:innen ermöglichen, die Erstellung von Bildern durch Künstliche Intelligenz (KI) zu steuern. Sie sind das Bindeglied zwischen der menschlichen Vorstellungskraft und der Fähigkeit der KI, diese Vorstellungen in visuelle Darstellungen umzusetzen. Bei Tools wie Midjourney geben Nutzer:innen Textprompts ein, die Beschreibungen, Stimmungen und Szenarien enthalten können. Die KI analysiert diese Eingaben, interpretiert die darin enthaltenen Informationen und generiert daraufhin Bilder, die den beschriebenen Vorgaben entsprechen.
Die Wirksamkeit eines Textprompts hängt stark von seiner Klarheit, Präzision und den enthaltenen Details ab. Ein gut konstruierter Prompt kann die KI leiten, um Ergebnisse zu produzieren, die eng mit den Vorstellungen der Nutzer:innen übereinstimmen. Um dies zu erreichen, sollten Nutzer:innen klare und präzise Beschreibungen verwenden, sich auf das Wesentliche konzentrieren und wo möglich, spezifische Details zu Stil, Farbe, Komposition und Stimmung einfügen. Die Kunst liegt darin, die richtige Balance zwischen Kreativität und Genauigkeit zu finden, um der KI genügend Raum für die Interpretation zu lassen, ohne sie in die Irre zu führen.
Länge und Klarheit
Ein effektiver Textprompt sollte zwischen 30 und 60 Wörtern lang sein. Die Verwendung kurzer und eindeutiger Sätze in englischer Sprache, die klar beschreiben, was visualisiert werden soll, ist essentiell. Eine präzise Sprache hilft der KI, die Anforderungen besser zu verstehen und entsprechende Bilder zu generieren.
Vermeidung von Negativ-Prompts
Es ist wichtig, sich auf das zu konzentrieren, was im Bild dargestellt werden soll, anstatt was nicht zu sehen sein soll. Negative Formulierungen können die KI verwirren und zu weniger zufriedenstellenden Ergebnissen führen. Durch den Parameter --no kann man Midjourney am Ende eines Prompts jedoch klar definieren, was nicht zu sehen sein soll.
Anweisungen vermeiden
Phrasen wie „Generiere ein Bild, welches...“ sind zu vermeiden. Stattdessen sollte der Fokus auf der direkten Beschreibung des gewünschten Bildinhalts liegen.
Strukturierung des Prompts
Es empfiehlt sich, das Wichtigste an den Anfang zu setzen und vom Vordergrund zum Hintergrund zu arbeiten. Vom wichtigsten zum unwichtigsten. Dies hilft, die Prioritäten klarzustellen und sicherzustellen, dass die KI die zentralen Elemente des Bildes angemessen hervorhebt.
Berücksichtigung von Details
Die Einbeziehung spezifischer Details wie Subjekt, Medium, Umgebung, Beleuchtung, Tageszeit, Farbe, Stimmung, Komposition, Kameraeinstellungen und Stil kann die Qualität der generierten Bilder erheblich verbessern. Je detaillierter der Prompt, desto genauer kann die KI die Anforderungen umsetzen. Beachtet jedoch keine Wiederholungen einzubauen.
Konzepte für Text-Prompts: Synonyme & Satzstruktur
Die Verwendung von Synonymen und unterschiedlichen Satzstrukturen kann helfen, die Vielfalt und Kreativität der Ergebnisse zu steigern.
Ressourcen für Inspiration, Styles & Keywords
Im digitalen Zeitalter ist die Suche nach Inspiration für Kreativprojekte, insbesondere für die KI-gestützte Bildgenerierung, einfacher und zugänglicher denn je. Das Internet bietet eine Fülle von Ressourcen, die vollständige Textprompts, spezifische Keywords und visuelle Beispiele teilen, um Nutzer:innen zu helfen, ihre eigenen Prompts zu verfeinern und zu perfektionieren.
Midjourney Community- / Showcase-Tab
Midjourney verfolgt einen starken Community-Ansatz, der den Austausch und die Transparenz in den Mittelpunkt stellt. Besonders interessant ist, dass in den kostenlosen sowie den ersten beiden bezahlten Plänen (Stand 25. Februar 2024), alle generierten Bilder und die dazugehörigen Textprompts für die Community einsehbar sind. Diese Offenheit ermöglicht es Nutzer:innen, auf der Webseite von Midjourney genau nachzuvollziehen, wie bestimmte Bilder generiert wurden. Sie können sich nicht nur von den Prompts inspirieren lassen, sondern diese auch für eigene Projekte übernehmen oder darauf aufbauen.
Es ist ein Austausch, der die gemeinsame Nutzung und das Lernen aus den Erfahrungen anderer fördert, aber auch ein Bewusstsein für die öffentliche Sichtbarkeit der eigenen Kreationen erfordert.
In den Newbie Kanälen im Discord Server von Midjourney kann man auch live beobachten wie Nutzer:innen Bilder generieren und hat die Möglichkeit Anfragen fremder Nutzer:innen an den Midjourney Bot weiter zu verfeinern. Das erlaub z.B. weitere Versionen, Upscales etc. erstellen zu können.
Style-Guides und Keyword-Kataloge
Zudem existieren diverse Style-Guides und Keyword-Kataloge, die spezifische Stilrichtungen, Techniken und Elemente auflisten, die in Textprompts verwendet werden können. Diese Ressourcen sind besonders nützlich, um die sprachliche Präzision zu verbessern und der KI genauere Hinweise auf die gewünschte Ästhetik oder Stimmung zu geben.
Praktische Anwendungen
Mögliche Einsatzgebiete für Midjourney
Praktische Anwendungen
Ich selbst nutze Midjourney in meiner Kunst aber auch in meiner Film- & Medienproduktion um meinen Kunden z.B. Storyboards erstellen zu können. Das bietet mir eine zielgerichtete Kommunikation und einen Startpunkt für ein Angebot / Projektplan, in dem der Kunde besser nachvollziehen kann, ob wir die gleiche visuelle Sprache sprechen. Der Einsatz von Midjourney in meinem Beruf beschleunigt außerdem die Prozesse und hält die Kosten für den Kunden gering.
Ebenfalls einsetzen lässt sich Midjourney z.B. in Präsentationen, für die echtes Bildmaterial fehlt. Hier lassen sich KI-generierte Bilder als Platzhalter nutzen oder sogar "echte Bilder" komplett ersetzen.
Weitere Einsatzgebiete könnte es z.B. in der Architektur und dem Interieur Design geben; Anwendungen Autoren und Content-Ersteller; Im Bildungsbereich; Marketing und Werbung; Modedesign; etc.
Im Folgenden ein paar von mir generierte Beispiele:
Rechtliche Aspekte
Was gibt es zu beachten?
Rechtliche Aspekte
Beim Einsatz von Midjourney und ähnlichen KI-basierten Bildgenerierungstools sind verschiedene rechtliche Aspekte zu beachten, um sowohl kreative Freiheiten zu nutzen als auch Urheberrechte und Datenschutzbestimmungen einzuhalten. Hier einige wichtige Punkte:
Urheberrecht und Bildrechte
- Urheberrechtliche Fragen: Beim Erstellen von Bildern mit Midjourney ist es wichtig, urheberrechtliche Fragen zu berücksichtigen. Nutzer:innen sollten darauf achten, keine geschützten Werke oder Markenzeichen ohne Erlaubnis in ihren Prompts zu verwenden. Das betrifft auch den Upload und die Verwendung von Bildinhalten.
- Verwendung von generierten Bildern: Die Nutzungsrechte an den mit Midjourney generierten Bildern können je nach Verwendungszweck (kommerziell vs. nicht-kommerziell) und den spezifischen Lizenzbedingungen von Midjourney variieren. Ebenfalls sollte man darauf achten, dass in den generierten Bildern keine geschützten Werke / Logos / Marken etc. vorkommen. Auch wenn man diese nicht explizit in einem Textprompt formuliert hat.
Datenschutz und Persönlichkeitsrechte
- Datenschutzbestimmungen: Die Erstellung von Bildern, die reale Personen darstellen, kann Datenschutz- und Persönlichkeitsrechte betreffen. Es ist ratsam, das Einverständnis der abgebildeten Personen einzuholen.
Geschäftsbedingungen von Midjourney
- Einhalten der Nutzungsbedingungen: Die Geschäftsbedingungen von Midjourney legen fest, wie die Plattform und die generierten Inhalte verwendet werden dürfen. Eine genaue Kenntnis dieser Bedingungen hilft, Verstöße und mögliche rechtliche Konsequenzen zu vermeiden. Hier z.B. ein Auszug aus den Terms of Service von Midjourney (Quelle https://docs.midjourney.com/docs/terms-of-service)
Rechtliche Präzedenzfälle und Diskussionen
- Rechtliche Herausforderungen: Die innovative Natur von KI-basierter Kunstgenerierung führt zu neuen rechtlichen Fragen und Herausforderungen. Beispielsweise können Fälle wie der Getty Images / DeviantArt "Skandal" wichtige Diskussionen über Urheberrechte und die Nutzung von KI-generierten Bildern anregen.
Midjourney & Getty Images
https://www.heise.de/news/Midjourney-Co-Auch-Getty-Images-untersagt-Werke-von-KI-Bildgeneratoren-7273710.html
Midjourney & DeviantArt Künstler:innen
https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart
Verantwortung und Ethik bei der Nutzung von Midjourney
Bei der Nutzung von Midjourney und ähnlichen KI-gestützten Bildgenerierungstools spielt die ethische Verantwortung eine zentrale Rolle. Nutzer:innen sollten sich intensiv mit der Frage auseinandersetzen, für welche Zwecke die generierten Inhalte verwendet werden und inwiefern eine Kennzeichnung dieser Inhalte als KI-generiert erforderlich oder angemessen ist.
- Bewusste Nutzung: Vor der Erstellung und Veröffentlichung von Bildern sollte man sorgfältig überlegen, in welchem Kontext und zu welchem Zweck diese eingesetzt werden. Es gilt, das Potenzial für Missverständnisse oder Fehlinterpretationen zu minimieren und transparent zu machen, dass die Inhalte mit Hilfe von KI generiert wurden.
- Kennzeichnungspflicht: In bestimmten Fällen kann es notwendig sein, generierte Inhalte als solche zu kennzeichnen, um Transparenz gegenüber dem Betrachter zu gewährleisten. Dies kann besonders relevant sein, wenn Bilder in sensiblen Bereichen wie der Nachrichtenberichterstattung, in Bildungsmaterialien oder in der Werbung verwendet werden.
- Reflexion über den Einsatz: Nutzer:innen sollten reflektieren, inwieweit die Verwendung von KI-generierten Bildern die Wahrnehmung von Realität und Authentizität beeinflusst. Es ist wichtig, eine Balance zu finden, die die kreativen und innovativen Möglichkeiten von KI würdigt, ohne irreführend zu sein oder unbeabsichtigt Falschinformationen zu verbreiten.
Fazit
Abschließende Worte zum Vortrag & Kontaktinformationen.
Fazit und Ausblick
Die Durchführung des Vortrags war eine bereichernde Erfahrung für mich! Es ist mir immer ein Vergnügen, die Faszination und die vielseitigen Anwendungsmöglichkeiten von Midjourney mit einem interessierten Publikum zu teilen. Die Vorbereitung und Durchführung solcher Vorträge erfordern jedoch eine kontinuierliche Auseinandersetzung mit den neuesten Entwicklungen, nicht zuletzt wegen der schnelllebigen Natur der Technologie und den sich ständig wandelnden Rechtslagen. Diese Dynamik macht es notwendig, stets auf dem Laufenden zu bleiben, um aktuelle und relevante Informationen bereitstellen zu können.
Trotz der Herausforderungen bleibt Midjourney für mich eine Quelle ständiger Inspiration und Kreativität! Die Möglichkeit mit nur wenigen Worten ganz neue Welten zu erschaffen, verliert nie ihren Reiz. Jedenfalls bis jetzt nicht.
Die ethischen Überlegungen, die mit der Nutzung von Midjourney und ähnlichen Technologien einhergehen, sind jedoch nicht zu unterschätzen. Es ist wichtig, sich Gedanken darüber zu machen, welche Branchen durch diese Tools bereichert oder möglicherweise gefährdet werden könnten. Die Auseinandersetzung mit den ethischen Dimensionen und potenziellen Auswirkungen dieser Technologien ist entscheidend, um verantwortungsvoll mit den generierten Inhalten umzugehen und die Grenzen des Machbaren auszuloten.
In einer Welt, die sich durch die rasanten Fortschritte in der KI-Technologie ständig verändert, ist es unabdingbar, sich mit diesen neuen Technologien zu beschäftigen. Nur so können wir sicherstellen, dass wir nicht unvorbereitet sind, wenn sich die Landschaft unserer Branchen verändert. Die Bereitschaft, zu lernen und sich anzupassen, ist der Schlüssel, um in dieser neuen Ära mithalten zu können!
Kontakt und Teilen
Wenn ihr Fragen habt oder zur Diskussion beitragen wollt, meldet euch gerne. Ich freue mich auf den Austausch. Und wenn euch der Artikel gefallen hat, teilt ihn gerne in euren sozialen Netzwerken.
Erreichen könnt ihr mich z.B. über LinkedIn unter: https://www.linkedin.com/in/julianguttzeit/