Lade dein eBook im EPUB-Format hoch — Kapitel werden automatisch erkannt
Charaktere und Dialoge werden automatisch per KI erkannt und zugeordnet
Stimme klonen oder per Voice Design erstellen lassen — für jeden Charakter individuell
Generiere ein komplettes Hörbuch mit Kapitelstruktur und Metadaten
VoxLibri ist eine KI-gestützte Plattform, die digitale Bücher im EPUB-Format in professionelle Hörbücher verwandelt. Anstatt jedes Kapitel manuell einzusprechen, analysiert VoxLibri den gesamten Text automatisch: Dialoge werden erkannt, Charaktere identifiziert und Sprecherzuordnungen vorgenommen — alles durch fortschrittliche Sprachmodelle.
Das Besondere: Jeder Charakter kann seine eigene, unverwechselbare Stimme erhalten. Durch Voice-Cloning lassen sich reale Stimmen nachbilden, oder du nutzt das Voice-Design, um eine völlig neue Stimme nach deinen Vorstellungen zu erstellen — Geschlecht, Alter, Tonlage und Sprechstil sind frei wählbar.
Mehrere TTS-Engines stehen zur Wahl: lokale Sprachsynthese auf eigenen GPU-Servern für maximale Kontrolle oder optional ElevenLabs als Cloud-Alternative für zusätzliche Stimmvielfalt.
Lade ein EPUB hoch und wähle die Kapitel aus
Die KI erkennt Charaktere — du wählst die Stimmen
VoxLibri erzeugt dein Hörbuch mit individuellen Stimmen
Große Sprachmodelle (Claude, GPT, DeepSeek u.a.) analysieren den Buchtext kapitelweise. Dialoge, Erzählerpassagen, Charakternamen und sogar Emotionen werden automatisch erkannt und den richtigen Sprechern zugeordnet. Eine nachträgliche manuelle Korrektur ist jederzeit möglich.
Die Sprachsynthese läuft auf eigenen GPU-Servern mit modernsten Text-to-Speech-Modellen. Voice-Cloning bildet eine Referenzstimme aus wenigen Sekunden Audio nach, Voice-Design erstellt eine komplett neue Stimme nach Textbeschreibung. Deine Daten verlassen niemals den Server.
Wähle zwischen mehreren Sprachsynthese-Engines: Qwen3-TTS und Chatterbox laufen lokal auf eigenen GPU-Servern, optional steht ElevenLabs als Cloud-Alternative zur Verfügung. Jede Engine unterstützt Voice-Cloning für natürlich klingende Ergebnisse.
VoxLibri läuft auf eigener Infrastruktur in Deutschland. Bücher, Sprachproben und generierte Hörbücher bleiben auf dem eigenen Server. Die lokale Sprachsynthese benötigt keine Cloud-Dienste. Optional kann ElevenLabs als Cloud-TTS genutzt werden — diese Entscheidung liegt beim Nutzer.
VoxLibri unterstützt das EPUB-Format — das meistverbreitete offene eBook-Format. Kapitel, Absätze und Formatierungen werden automatisch erkannt und beibehalten.
Lade eine kurze Audioaufnahme (wenige Sekunden reichen) als Referenz hoch. Die KI analysiert die Stimmeigenschaften und kann diese Stimme dann für beliebig langen Text reproduzieren. Ideal für Charaktere, die eine bestimmte Stimme bekommen sollen.
Mit Voice-Design beschreibst du eine Stimme per Text — zum Beispiel "Junge Frau, warm und ruhig, leichter süddeutscher Akzent". Die KI erstellt daraus eine völlig neue, einzigartige Stimme, die keiner realen Person entspricht.
Alle Daten — Bücher, Sprachproben, generierte Hörbücher — bleiben auf unserer eigenen Infrastruktur in Deutschland. Die lokale Sprachsynthese läuft auf eigenen GPU-Servern. Optional kann ElevenLabs als Cloud-TTS-Alternative genutzt werden — in dem Fall werden Textdaten zur Audiogenerierung an deren Server übermittelt.
VoxLibri exportiert Hörbücher als MP3 (einzelne Kapitel oder komplett als ZIP) und M4B (mit Kapitelmarkern für Apple Books und andere Player). Metadaten wie Titel, Autor und Kapitelstruktur werden automatisch eingebettet.
VoxLibri analysiert den Buchtext kapitelweise mit großen Sprachmodellen. Dabei werden Dialogpassagen identifiziert, Sprecher zugeordnet und Erzählertext von wörtlicher Rede getrennt. Das Ergebnis kann anschließend manuell überprüft und korrigiert werden.