Synthetische Stimmen

ElevenLabs

Der Dienst ElevenLabs erlaubt es mittels Sprachsynthese künstliche Stimmen zu erzeugen und mit ihnen über 29 Sprachen hinweg geschriebene Texte zu vertonen. Dabei können die Stimmen hinsichtlich Klarheit und Emotionalität moduliert werden. Ebenso können eigene Stimmen geklont und ebenso in verschiedene Sprachen übertragen werden, um etwa Podcasts ohne Synchronsprecher international verbreiten zu können. Dies geht mit dem integrierten Dubbing-Tool nahezu vollautomatisch.

https://www.youtube.com/watch?v=AyQqhXU6DrM

Zonos-v0.1

Zonos des amerikanischen KI-Start-ups Zyphra ist das erste Open-Source-Text-zu-Sprache-Modell, das existierende Stimmen glaubwürdig aufgreifen und klonen kann. Zwischen 10 und 30 Sekunden an Audiobeispielen reichen aus, um eine Stimme zu replizieren und auf verschiedene Sprachen anwendbar zu machen. Dabei gelingt es dem Modell auch, hörbare Spracheigenheiten, Spannungen und Emotionen wiederzugeben.

Voxify

Ein ähnliches Angebot wie Eleven Labs bietet der Dienst Voxify. Auch hier können Texte in Sprache übersetzt werden. Hierfür stehen verschiedene Stimmen und zahlreiche Sprachen zur Verfügung, die vielfältig angepasst werden können – etwa hinsichtlich Tonalität, Stil oder Ausdrucksstärke. Im Gegensatz zu den anderen Diensten verspricht Voxify, glaubhafte Emotionen in die vorgelesenen Texte zu bringen.

Descript / Lyrebird

Die Audio- und Videobearbeitungsplattform Descript bietet verschiedene KI-Werkzeuge zur Gestaltung von Radio- und Podcast-Sendungen an. Darunter das entfernen von Hintergrundgeräuschen, das Verbessern von Sprachqualität, Entfernen von Fülllauten die Möglichkeit, die Stimme eines Sprechers zu klonen, um Versprecher auszubessern und Erweiterungen in einer Sendung vorzunehmen.

https://www.youtube.com/watch?v=pOEvyYDGuzQ

<aside> 🎤

Neben kommerziellen Lösungen existieren auch mehrere freie Projekte, die eine Stimmsynthese und das Klonen von Stimmen ermöglichen. Darunter sind unter anderem OuteTTS-0.1-350M, RealtimeTTS, MaryTTS, Mimic und Mozilla TTS.

</aside>

Musik-Generatoren

SunoAI

SunoAI ist eine noch experimentelle Plattform, um eigene Songs zu generieren. Die Plattform kombiniert dafür Stimmsynthese mit einer KI-unterstützen Kombination von verschiedenen Musikelementen. Auch Musiktexte lassen sich gleich auf SunoAI generieren, wenn man sie nicht selbst schreiben mag. Die Ergebnisse sind auch in der aktuellen Version 3 durchwachsen, aber zuweilen auch erstaunlich gut.

Text to Image.mp4

Udio

Seit April macht Udio Suno AI ernsthafte Konkurrenz. Dieser Dienst glänzt vor allem mit sehr gut und natürlich klingendem Gesang – und das in Englisch, Deutsch, Französisch, Chinesisch, Japanisch, Russisch, Polnisch und Italienisch. Etwas wirr bleibt es bei den Genres und Stilen. Hier scheint Udio manchmal noch etwas verwirrt zu sein, was die Wünsche der Nutzer angeht und verwechselt etwa verschiedene Pop- und Klangrichtungen.