GUIDE FÜR AGENTUREN: TEXT-TO-IMAGE KI FÜR EFFIZIENTERE WORKFLOWS
Chat-Bots, Text-Generatoren, Text-to-Image-KIs und Aussichten auf Text-to-Video-Generatoren. In den vergangenen Monaten hat sich durch die Veröffentlichungen in der AI-Szene und der einfachen Zugänglichkeit viel getan. Neben den großen Namen Midjourney, Stablediffusion und OpenAI werden die Schnittstellen bereits rege genutzt, um weitere effiziente Tools auf den Markt zu bringen, die uns den Arbeitsalltag erleichtern, wie z.B. Konzept-KIs, die ganze Kreativkonzepte für Agenturen in Sekunden erstellen.
Unser Ziel ist klar: Nicht von der KI ersetzen lassen, sie dafür intelligent nutzen und die eigenen Arbeiten verbessern. Denn diese Tools sind da, um zu bleiben. Als Agentur für 3D-Visualisierungen und Software-Lösungen zum Digital Präsentieren muss man sich erstmal in der Flut an neuen Anwendungen zurechtfinden. Nach vielen Test und vor allem viel Spaß beim Ausprobieren haben wir bei VISIONSBOX uns für Midjourney als neuen KI-Coworker entschieden. Wie wir den Text-to-Image-Generator nutzen und wie Midjourney für Digitalagenturen am besten genutzt wird, erklären wir hier.
Text-To-Image Generatoren
Text-to-Image-Generatoren sind eine neue Art von Tools, mit denen Benutzer Bilder auf der Grundlage von Texteingaben, auch Prompt genannt, erzeugen können. Diese Tools nutzen künstliche Intelligenz und Machine-Learning-Algorithmen, um den eingegebenen Text zu analysieren und ein Bild zu erstellen, das der eingegebenen Beschreibung entspricht.
Zu den bekanntesten Tools zählen aktuell Dall-E 2 von Open AI, Stablediffusion und Midjourney. Hier haben wir vor einigen Wochen einen ersten Vergleich aufgestellt. Seitdem hat sich allerdings wieder viel getan.
Vorteile von Midjourney für Digitalagenturen
Die eigentliche kreative Arbeit in unserer Agentur besteht aus Konzepten und Visualisierungen von Kundenideen. Ist der passende Look gefunden, werden die Moods von den 3D-Artists und Grafiken finalisiert. Welche Vorteile erhalten wir dort durch die KI?
- Effizienz: Durch kurze Texteingaben hochwertige Bilder generieren? Das spart Zeit bei der eigentlichen Gestaltungsarbeit, Stockfootage-Recherche und Bildnachbereitung.
- Kosteneinsparung: Midjourney ersetzt unsere Grafiker nicht! Aber sie unterstützt sie beim Designfindungsprozess. Was davor Tage, bis Wochen dauerte, kann jetzt in wenigen Stunden dem Kunden präsentiert werden.
- Kreativität: Da Text-Bild-Generatoren Zeit und Ressourcen freisetzen, können wir uns als Digitalagentur auf kreativere Aspekte konzentrieren, was zu innovativeren und wirkungsvolleren Designs führt.
- Skalierbarkeit: Schnelle Erstellung einer großen Anzahl von Bildern ist kein Problem mehr. Ideal für umfangreiche Projekte und Kampagnen – auch unsere eigenen.
- Zugänglichkeit: Midjourney kann auch von Personen mit begrenzter Designerfahrung verwendet werden, wodurch es für Digitalagenturen einfacher wird, ein breiteres Spektrum von Teammitgliedern in den Designprozess einzubeziehen.
Midjourney ist, Stand jetzt, unsere 18. Arbeitskraft. Durch unsere Textprompts und Visualisierungen erreichen die Moods und Previews, die wir unseren Kunden anbieten können, eine neue Ebene. Im Vergleich zu uns Menschen greift die KI auf viel mehr Wissen und Bildmaterial zurück und gibt uns damit eine große Menge neuer Inspiration.
So funktioniert Midjourney
Midjourney einrichten
Um Midjourney nutzen zu können, ist aktuell noch ein Discord-Account notwendig. Das klingt zunächst nach einer größeren Hürde, als es eigentlich ist. Kurzgesagt: Downloaden, kostenlos Registrieren – das war’s. Jetzt fehlen nur noch wenige Klicks, zum ersten eigenen KI-Bild:
1. Auf Midjourney.com meldet man sich danach mit dem Discord-Zugang an und gibt Midjourney begrenzte Rechte ab, um auf den Account zugreifen zu können.
2. Sich zum Test-Server einladen lassen: Folgt dem Midjourney-Einladungslink, der euch mit dem Midjourney-Server in Discord verbindet. Theoretisch könnt ihr nun in den „#newbie“-Textkanälen (1) auf der linken Bildseite gleich mit dem ersten Prompt loslegen. Das kann allerdings etwas unübersichtlich werden, da viele Nutzer gleichzeitig ihre Ideen teilen und alle Ergebnisse in einem Chatfenster generiert werden. Wir empfehlen deswegen einen kleinen Umweg in Schritt 3.
3. Den Midjourney-Bot auf den eigenen Discord-Server einladen!
Dazu erstellt ihr auf dem Plus-Button in der linken Leiste einen eigenen Server. Auf dem Midjourney-Server sehr ihr in der rechten Mitglieder-Leiste den Midjourney Bot (2). Per Rechtsklick erscheint das Feld „Add to Server“, sodass ihr ihn eurem neuen Server hinzufügen könnt. Ab jetzt könnt ihr auf diesem Server selbst Bilder mit Midjourney erzeugen und in verschiedenen Kanälen verwalten.
Wenn ihr dem Midjourney-Server beitretet, erhaltet ihr automatisch 25 min Fast GPU Time. Damit könnt zwischen 25 und 30 Bilder umsonst erzeugen und Midjourney testen.
Das erste Prompt, das erste Bild
Auf eurem eigenen Server könnt ihr ab jetzt über die Texteingabe Befehle und Prompts an den Midjourney-Bot senden. Die einfachste Eingabeform lautet
/imagine [mit eurem Beispielprompt, z.B.: white horse with a red hat]
Nach dem Versenden seht ihr den Bearbeitungsstatus in eurem Chatfenster. Das Ergebnis sind am Ende vier Bildvorschläge der KI, bei denen ihr wählen könnt, ob ihr neue Variationen (über die Buttons V1, V2, V3, V4) erstellen oder einzelne Bilder upscalen (U-Buttons), sprich detailreichen darstellen, möchtet.
Zusätzlich zu den Bildmotiven können eure Prompts mit Adjektiven und Beschreibungen der Stilmittel aufgewertet werden. Hier im Beispiel haben wir für den passenden Bildlook die Schlagwörter „hyper realistic, photography, photorealistic und cinematic lighting“ hinzugefügt. Sogenannte Tags, –ar 3:2 oder –s 750, bestimmen das Bildformat und die Midjourney-Version, die verwendet wird.
Cheat-Sheet: Prompting
Ein optimales Prompt gibt es nicht, allerdings hat sich dieses Schema als solider Aufbau bewährt:
[subject, other details & surroundings, style & artist, parameter]
Befehle
Ein Prompt eingeben. Neben der textuellen Bildbeschreibung könnt ihr ebenfalls den Link zu einem Referenzbild im Beschreibungstext eingeben.
/imagine [prompt]
Vermischt zwei Bilder miteinander. Fügt hier die Links der zwei Bilder nacheinander, ohne Trennung durch ein Komma ein. Bei einem Bild von einem Obstkorb und einem Bild von einer Eule bekommt ihr hier mit großer Wahrscheinlichkeit einen Obstkorb voller Eulen als Ergebnis.
/blend [Bildlink1 Bildlink2]
Erhalte Informationen über die verbrauchten Credits bzw. die bisher genutzte Rechenleistung.
/info
Wähle zwischen verschiedenen Midjourney-Versionen und Bearbeitungseinstellungen.
/settings
Popular Tags
Tags helfen euch mit dem Prompt leichter einen vorgegebenen Bildstil zu erhalten. Die nachfolgenden Tags können einfach der eigentlichen Eingabe mit Komma getrennt eingefügt werden.
Render-Tags: Hyper detailed, Octane render, Crepuscular rays
Photography-Tags: 35mm photography, DSLR, wide shot, portrait, zoomed in, 14mm, amiya RZ67, Fomapan 400, 50mm portrait photography, hard rim lighting photography, 50mm, cinematic lighting, award winning photo, nikon, cannon
Popular Arguments
Argumente verändern Einstellungen zusätzlich zu denen, die ihr unter dem Befehl /settings aufrufen könnt. Beispielsweise könnt ihr so die Aspekt Ration, das Bildformat, ändern oder die Qualität, bzw. die Zeit mit der ein Bild entwickelt wird. Die Arguments werden durch Kommata getrennt.
Aspekt Ratio
-- ar [3:2 oder andere Bildformate]-- ar 3:2-- ar 2:3
Entfernt etwas Bestimmtes aus dem Bild
--no [Bezeichnung des Gegenstandes, der nicht im Bild auftauchen soll]--no window--no flowers
Erzeugt ein High Definition Bild
--hd
Gibt an wie viel Renderqualität für das Erzeugen des Prompt genutzt wird. Der Default-Wert ist 1.
--q [Wert zwischen 0 und 5]
Was ist besser „on a horse“ vs. „a rider“
Verwendet am besten Begriffe, die den Kontext eurer Prompt widerspiegeln. Kurze Wörter erleichtern Midjourney die Arbeit, lange Wortaneinanderreihungen müssen aufwendiger interpretiert werden und führen schneller zu einer fehlerhaften interpretation der KI.
Demnach gilt: „Reiter“ ist besser als „auf einem Pferd“, da es mit weniger Wörtern, den gleichen Kontext liefert. Benutzt also lieber Archetypen und standardisierte Begriffe, statt ausschweifenden Erklärungen.
Midjourney x VISIONSBOX
Probleme, Potenziale & Lösungen
Trotz der vielen Vorteile gibt es auch Herausforderungen und Grenzen bei der Nutzen von KI-Bildgenerierungstools als Digitalagentur – sowohl aus technischer Sicht, als auch im Hinblick auf die Nutzung der so entstandenen Visualisierungen.
Für uns in der VISIONSBOX steht fest. Midjourney ist aktuell unsere 18. Arbeitskraft. Durch die neuen Sichtweisen, schnelleren Workflows und können wir schneller auf die Wünsche unserer Kunden reagieren. Während das der größte Vorteil ist, bringt dieses Argument auch eine Herausforderung mit sich: Die Geschwindigkeit und Gestaltung der so entstandenen Visualisierungen können falsche Erwartungen wecken! Denn Midjourneys-Output ist für uns aktuell nur als Konzeptarbeit gedacht. Anders lassen sich die Inhalte zurzeit nicht in unsere Showrooms und Digitalprojekte integrieren. Die Visualisierungen für 3D-Welten nachzubilden bedeutet einen erhöhten zeitlichen Aufwand, der durch die schnelle Produktion der Moods, auf wenig Verständnis trifft. Deswegen ist es uns wichtig, unsere Kunden von Anfang an über unsere Nutzung von Text-zu-Bild-Generatoren aufzuklären.
Eingeschränkte Anpassungsmöglichkeiten. Midjourney schafft neue Standards, da es Dinge verknüpft, die für uns wenig naheliegend sind. Dafür scheint die detailgetreue Nachbildung problematisch. Obwohl man viele Einstellungen ändern, seine Prompts und Eingabemedien überarbeiten kann, hält die KI manchmal einfach störrisch an ungewollten Bilddetails fest. Wie sich allerdings über die verschiedenen Versionen von Midjourney hinweg gezeigt hat, ist das auch nur eine Frage der Zeit, bis die Algorithmen unseren Kontext und Wünsche besser umsetzen und verstehen.
Unsere Lösung aktuell ist, unserem KI-Bot besser zuzuarbeiten. Gemeinsam Bildbereiche generieren, sie händisch in Photoshop zu verbinden und erneut mit dem Bot bearbeiten lassen.
Damit Midjourney unsere Ideen besser erzeugen kann, erstellen wir mit Photoshop grobe Skizzen, mit der passenden Komposition und Farbgebung als Input.
Fazit
Zusammenfassend kann die Verwendung von AI-Tools wie Text-to-Image-Generatoren erhebliche Vorteile für digitale Agenturen und andere Kreative bieten. Mit Tools wie Midjourney ist es möglich, visuelle Darstellungen von Texteingaben schnell und einfach zu generieren, was Zeit spart und die Effizienz des kreativen Prozesses verbessert.
Bei VISIONSBOX haben wir festgestellt, dass Midjourney ein effektiver AI-Mitarbeiter ist, der uns dabei hilft, 3D-Visualisierungen und Softwarelösungen schneller und einfacher zu erstellen. Durch die Nutzung der Kraft von Natural Language Processing und Computer Vision können wir überzeugende visuelle Inhalte auf der Grundlage von schriftlichen Beschreibungen oder Konzepten generieren, was besonders nützlich ist, wenn wir unter engen Deadlines arbeiten.
Während es Bedenken geben mag, dass AI menschliche Arbeit ersetzen könnte, ist es wichtig, sich darauf zu konzentrieren, wie diese Tools menschliche Arbeit verbessern können, anstatt sie zu ersetzen. Indem wir diese Tools nutzen und zu unserem Vorteil einsetzen, können wir unsere Arbeit verbessern und weiterhin die Grenzen dessen, was in der Welt der digitalen Kreativität möglich ist, erweitern.
Insgesamt glauben wir, dass Midjourney und andere AI-Tools hier bleiben werden, und wir freuen uns darauf, neue Möglichkeiten und Anwendungsfälle zu erforschen, während diese Technologien weiterentwickelt werden. Indem wir diese Tools annehmen und sie zu unserem Vorteil einsetzen, können wir unsere Arbeit verbessern und weiterhin die Grenzen dessen, was in der Welt der digitalen Kreativität möglich ist, erweitern.
Über den Autor:
RONJA HECKENDORF
Marketing Management