Hörbuch + Video selber erstellen [KI]

Kelterer des Wahren Mets · 16 September 2024

Hallo zusammen,

ich habe gerade mein erstes Hörbuch zu einer Kurzgeschichte "produziert" und dachte, dass das Thema vielleicht auch für andere von euch spannend sein könnte! Vorab der Link zu meinem Ergebnis: Orik Alriksons honig-süßer Raubzug (Hörbuch / Kurzgeschichte)

Sprecher
Ich fange mal mit dem vermutlich wichtigsten Thema an: Wie spreche ich mein Hörbuch ein? Nach einigen Versuchen, meine Geschichte selbst einzulesen, war ich mit der Qualität nicht zufrieden. Zum einen gefiel mir meine Stimme nicht, und zum anderen hatte ich kein Studio-Mikrofon, weshalb die Audioqualität zu wünschen übrig ließ. Nach kurzer Recherche habe ich mich schließlich für ElevenLabs als KI-Tool zum Vorlesen von Texten entschieden (https://elevenlabs.io/app/speech-synthesis/text-to-speech) und dort das Modell „Adam (Versatile Voice)“ verwendet, weil es deutschsprachig ist und eine angenehme Lesestimme bietet. Die kostenlose Version erlaubt die Erstellung von Audio mit bis zu 10.000 Credits pro Monat (entspricht ca. 10 Minuten), was für kurze Geschichten ausreicht. Ein kleiner Tipp: Generiere lieber jeden Absatz einzeln, um bei Fehlern oder Problemen nicht unnötig viele Credits zu verbrauchen.
Nur um es erwähnt zu haben: Natürlich ist auch die generierte Stimme nicht perfekt, an manchen Stellen ist die Betonung nicht korrekt und für bestimmte Worte muss man Laut-Schreibweise verwenden damit es korrekt ausgesprochen wird. Auch Emotionen der Charaktere fallen eher flach. Laut Beschreibung des Werkzeugs erkennt es Emotionen im Text, man könnte also deutlicher bestimmte Emotionen beschreiben, und am Ende nur die wörtliche Rede für das Hörbuch übernehmen (ie. statt "Sie unterbrach ihn, und fragte: <<Musstest du wirklich schon wieder Golf spielen gehen>>" => "Sie unterbrach ihn, und fragte mit wütender Stimme: <<Musstest du wirklich schon wieder Golf spielen gehen>>", beide Texte werden generiert und jeweils die in fett-gesetzten Texte zusammengeschnitten)

Update: Gerade habe ich eine Mail von ElvenLabs erhalten, dass Adams Stimme aus der Bibliothek entfernt wurde, mir wurden die folgenden Stimmen als passender Ersatz vorgeschlagen und ich gebe die info einfach ungeprüft weiter:

Here are the 3 most similar voices to Adam - Versatile Voice:

Johannes Dokumentarfilm

Otto

Stefan Rank der Erzähler (Radio-Moderator)

Hörbuch schneiden
Da ich mein Hörbuch auf YouTube veröffentlichen wollte, habe ich mich entschieden, es mit Adobe Premiere Pro (einem Videoschnittprogramm) zu bearbeiten. Premiere Pro kann man 30 Tage kostenlos testen. Es gibt aber auch kostenlose Alternativen. Wenn du nur die Audiodatei benötigst, empfehle ich Audacity (https://www.audacityteam.org/download/). Es ist relativ einfach zu bedienen und ermöglicht das Zusammensetzen der Audioclips aus dem ersten Schritt.

Hörbuch mit Bildern ergänzen
Da ich auf YouTube veröffentlichen wollte, habe ich KI-generierte Bilder zur Untermalung hinzugefügt. Hier ein Hinweis: Dieser Teil kann sehr zeitaufwendig sein! Anfangs dachte ich, ich könnte einfach ein paar Bilder generieren, aber um stimmig zu wirken, müssen die Bilder oft wechseln. Außerdem ist es schwierig, mit KI konsistent dieselben Charaktere zu erzeugen. Ich habe hauptsächlich Microsoft Copilot (https://copilot.microsoft.com/) für die Bildgenerierung verwendet und die Ergebnisse anschließend mit Adobe Photoshop und "Inpainting" angepasst. Hier ein paar Beispiele aus meiner Erfahrung:

Ich habe viel Zeit investiert, um das "Monster" in meiner Geschichte immer ähnlich aussehen zu lassen. Meine Vorgabe an die KI war häufig „Blaues drachenartiges Seemonster mit Tentakeln“.
Den Kapitän als Protagonisten wollte ich wiedererkennbar gestalten. Er hat auf allen Bildern rote Haare, einen roten Bart und wirkt wild. Leider variieren seine Kleidung und sein Gesicht.
Die Schiffe (Piratenschiff und Handelskogge) waren schwer einheitlich darzustellen und unterscheiden sich stark. Kenner der Seefahrt erkennen schnell, dass die „Handelskogge“ keine Kogge ist.
Bei der restlichen Mannschaft habe ich nicht so viel Aufwand betrieben, weshalb diese stark variiert.

Intro- und Outro-Video
Dieser Punkt ist optional und nur für Videoveröffentlichungen relevant. Um mein Hörbuch auf YouTube professioneller wirken zu lassen, habe ich ein Intro und Outro mit kurzer KI-generierter Musik und Videos erstellt. Für die Musik habe ich Suno (https://suno.com) verwendet und folgende Anweisungen gegeben: „30-second outro song, pirate metal, features bagpipes, hurdy-gurdy, drums, guitar“ (bzw. „10-second intro song...“). Das Video habe ich mit LumaLabs DreamMachine (https://lumalabs.ai/dream-machine/creations) erstellt und den ersten sowie letzten Frame aus zuvor erstellten KI-Bildern vorgegeben. Beim Outro habe ich das Video viermal verlängert, da jede Generierung nur 4 Sekunden Video erzeugt.

Veröffentlichung
Da es sich um eine Kurzgeschichte handelt, habe ich mein Hörbuch zunächst nur auf YouTube veröffentlicht. Falls ich es noch auf anderen Plattformen veröffentliche, werde ich den Bericht aktualisieren. Wenn ihr Vorschläge für sinnvolle Plattformen habt, schreibt sie gerne in die Kommentare!

YouTube: Auf YouTube ist das Hochladen von Videos sehr einfach. Nachdem du das Video hochgeladen hast, kannst du eine Beschreibung hinzufügen und „Cards“ integrieren, um eigene Inhalte zu verlinken (z. B. habe ich einen Song meiner Band verlinkt). Bei mir erfolgte die Veröffentlichung direkt nach dem Upload, ohne Wartezeit.

Hörbuch + Video selber erstellen [KI]

Kelterer des Wahren Mets

Mitglied