Während Tools wie Midjourney bereits weit verbreitet sind, bietet Stable Diffusion eine detailliertere Kontrolle über die Ästhetik und ermöglicht es, KIs die mit eigenen Bildern trainiert wurden zu verwenden.
In dieser Kompaktwoche werden die Grundlagen der KI-Bildgenerierung mit dem Open-Source-Programm Stable Diffusion erklärt. Es wird vermittelt, wie man gezielt Bilder erstellt, die den eigenen Vorstellungen entsprechen.
Zusätzlich wird gezeigt, wie man eine LoRA (Low-Rank Adaptation) mit Kohya trainiert. Diese KI kann mit eigenen Bildern trainiert werden, um die Ergebnisse weiter zu verfeinern.
Das Ziel der Woche ist es, am Ende ein Video mit Stable Diffusion und Parseq zu produzieren. Parseq ist ein Add-on, das Kameraeinstellungen, Zooms und Kamerabewegungen ermöglicht. Der Workshop endet mit der Erstellung eines Videos, das auf selbst generierten KI-Bildern und der trainierten LoRA basiert.
 

Glossar

Stable Diffusion / Automatic1111: Stable Diffusion ist ein latentes Text-zu-Bild-Diffusionsmodell, das mithilfe von Deep Learning fotorealistische Bilder aus beliebigen Texteingaben erstellt. Es wurde von Stability AI entwickelt und Mitte 2022 als Open-Source-KI veröffentlicht, um es einem breiten Nutzerkreis zugänglich zu machen; es ist über verschiedene Websites mit herunterladbarem Quellcode zugänglich, um es in Ihre eigenen Tools zu
implementieren.

Kohya GUI: Ein Werkzeug zum Trainieren von LoRA für Stable Diffusion.

LoRA: LoRA (Low Rank Adaptation) ist eine neue Technik zur Feinabstimmung von Deep-Learning-Modellen, die die Anzahl der trainierbaren Parameter reduziert und einen effizienten Aufgabenwechsel ermöglicht. Einfach gesagt ein Modell, das nicht so viele Daten benötigt, um es zu trainieren, und das zusätzlich zu einem Checkpoint verwendet wird, um die Ergebnisse der künstlichen Intelligenz stilistisch zu verfeinern

Keine Vorkentnisse erforderlich.