Konsistente Charaktererstellung mit KI: Herausforderungen und praktische Hilfestellungen
Strategy & Story

Konsistente Charaktererstellung mit KI: Herausforderungen und praktische Hilfestellungen

Wer bereits mit KI-Bildgeneratoren gearbeitet hat, kennt das Problem: Man erstellt mühevoll einen perfekt generierten Charakter, doch sobald man versucht, ihn in eine neue Pose, ein neues Outfit oder eine neue Emotion zu bringen, sieht er unter Umständen komplett anders aus. Für professionelle Anwendungen ist diese fehlende Charakter-Konsistenz mit KI ein kritischer Pain Point. Wir haben verschiedene Ansätze zur Charakter Consistency getestet und zeigen, welche Workflows sich für uns bewährt haben.

Warum „Consistency“ eine Hürde im Designprozess ist

In der Welt der KI-Bildgenerierung basieren Ergebnisse oft auf Wahrscheinlichkeiten. Jedes Mal, wenn du den „Generate“-Button drückst, würfelt die KI neu. Für ein einzelnes Artwork ist das faszinierend, für Brand-Storytelling, Serien oder Kampagnen jedoch fatal. Wenn die Nasenform, die Augenfarbe oder die Haarstruktur von Bild zu Bild variieren, verliert die Figur ihre Identität und die Marke ihre Glaubwürdigkeit.

Charaktererstellung mit KI im Test

Für eines unserer letzten Projekte haben wir verschiedene Workflows mit generativen Multi-KI-Plattformen wie Krea, Higgsfield und Artlist getestet. Ein großer Vorteil ist hier die Wahlfreiheit. Du kannst zwischen verschiedenen KI-Tools wählen, um das beste Ergebnis für dein Projekt zu erzielen.

Wie man KI-Modelle mit verschiedenen Charakter-Ansichten trainiert

Um eine konsistente Figur über verschiedene Szenarien hinweg zu etablieren, reicht einfaches Prompting oft nicht aus. Die Methode LoRA (Low Rank Adaptation) ermöglicht es, der KI gezielt spezifische Merkmale einer Figur anzutrainieren. Zur Etablierung einer konsistenten Ästhetik wird das jeweilige Tool hierbei zunächst mit 25 bis 50 Referenzbildern gefüttert.

Wichtig: Willst du Fotos als Trainingsmaterial einsetzen, reicht die Freigabe durch den Halter der Nutzungsrechte in der Regel nicht aus. Es kann zusätzlich die Zustimmung des Fotografen (Urheberrecht) oder sogar des Fotomodels (Persönlichkeitsrecht) notwendig sein.

Damit das Modell versteht, wie dein Charakter aus jedem Winkel aussieht, ist die Vorbereitung des Datensatzes entscheidend:

Hilfreich sind hochwertige Bilder aus verschiedenen Perspektiven wie Close-up, Halbkörper-Aufnahme oder noch besser: der Full-Body-Shot.

Ein effektiver Weg ist die Erstellung eines „Character Sheets“, das die Figur gleichzeitig von vorne, von der Seite und von hinten zeigt (360-Grad-Drehung in 8-12 Stufen). Diese Ansichten dienen der KI als räumliche Orientierungshilfe.

Die Prompt-Bibliothek muss regelmäßig gewartet werden. Ohne diese Pflege kann es passieren, dass die KI ungewollte, wiederkehrende Komponenten in jedes Bild übernimmt.

Durch das Training extrahiert die KI die Essenz deiner Figur. Nach Abschluss des Prozesses kann der Charakter in neue Umgebungen integriert werden, indem das Modell gezielt angesteuert wird.

Gute Erfahrungswerte zeigten sich hierbei vor allem bei fotorealistischen Motiven. In unseren Tests ist es sogar gelungen, komplexe Details, wie das spezifische Muster im Fell einer Katze, über mehrere Bilder hinweg beizubehalten. Bei 2D-illustrativen Stilen wie Cartoon-Charakteren stießen die Tools jedoch an ihre Grenzen.

Der optimierte Workflow: Image-Prompts statt komplexer Bibliotheken

Um auch im illustrativen Bereich präzise Ergebnisse zu erhalten, verzichteten wir im nächsten Schritt bewusst auf das Antrainieren einer Bibliothek, d. h. einen großen Datensatz. Stattdessen setzten wir auf eine schlanke Lösung und nutzten einzelne, qualitativ hochwertige Image-Prompts. Das bedeutet, wir fügten Bildergebnisse, die der gewünschten Ästhetik bereits entsprechen, direkt an unseren Textprompt an. Dieser agile Ansatz spart Zeit und erlaubt eine präzise Steuerung ohne den Wartungsaufwand einer kompletten Bibliothek.

Folgender Workflow hat sich dabei bewährt:

  1. Charakter-Basis: Zuerst wird der Charakter anhand eines präzisen Prompts erstellt.

  2. Referenz-Assets: Bei einem zufriedenstellenden Ergebnis erstellen wir ein Turntable (Ansichten aus verschiedenen Perspektiven) und ein Expression-Sheet mit verschiedenen Emotionen. Dies bündelt viele Informationen in einem Bild, was ideal für KIs ist, die nur wenige Bildreferenzen gleichzeitig verarbeiten können.

     

  3. Finalisierung: Der gesamte Turntable oder einzelne Ausdrücke, Posen und Perspektiven werden anschließend als Image Prompt geladen und (falls vorhanden) durch weitere Informationen ergänzt.

     

  4. Style-Mixing: Dieser Weg ist besonders effektiv, wenn Stile gemischt werden sollen, etwa ein Cartoon-Motiv mit einem fotorealistischen Motiv.
Konsistenz trifft Storytelling: Das Turntable-Sheet sichert die visuelle Identität aus jeder Perspektive und ermöglicht die präzise Integration eines Charakters in unterschiedlichste Szenarien.

Unser Fazit: Der Mix macht den Unterschied

Konsistenz in der KI-Bildgenerierung ist das Ergebnis eines strukturierten Workflows. Während einfache Prompts für Moodboards ausreichen, erfordern professionelle Kampagnen eine Kombination aus Character References und technischem Finetuning. 

Wir von OPEN Strategy & Story unterstützen dich gerne auf deinem individuellen Weg, durch den gezielten Einsatz von KI ein konsistentes  Brand-Erscheinungsbild zu schaffen und über alle Assets hinweg markentreu zu etablieren. 

Hast du bereits ein konkretes Projekt im Kopf? Lass uns gemeinsam herausfinden, welcher Workflow für dich am besten funktioniert

Mit einem Klick auf Social Media teilen

Kontakt. Auf Augenhöhe.

Patricia Krannich

Managing Director

Patricia Krannich

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Hier erfährst du alles über die Strategy & Story von OPEN