Qualität braucht Menschen: Unsere Redakteure im Einsatz für KI-Audio
- Jörg Stroisch
- vor 12 Minuten
- 3 Min. Lesezeit

KI wird auch im Journalismus und in den Medien immer mehr eingesetzt. Besonders gefragt: Klone und künstliche Stimmen. Aber damit das funktioniert, muss viel Arbeit investiert werden.
Medienhäuser experimentieren schon seit einigen Jahren mit synthetischen Stimmen. So hat RTL Deutschland 2022 die Sprecherstimmen seiner Nachrichtenformate klonen lassen und testet KI-Vertonung mithilfe dieser Klone. Ein lokaler Radiosender auf Helgoland lässt sogar komplette Sendungen durch ein KI-System produzieren, inklusive automatisch recherchierter Nachrichten und geklonter Moderator:innenstimmen.
Die Vorteile: Skalierbarkeit und Effizienz KI spart so Studiozeit, ermöglicht Audioausspielungen rund um die Uhr und eröffnet kreative Formate wie automatisierte Podcasts oder personalisierte Nachrichten-Apps. Aber auch inhaltlich macht das Sinn: Inhalte können barrierearmer zur Verfügung gestellt werden, weil Texte zum Beispiel schnell und kostengünstig vertont werden können und sie so zum Beispiel für blinde Menschen einfacher zugänglich sind.
Gerade bei journalistischen Inhalten überwiegt aber die Skepsis gegenüber KI im generellen: Laut einer Umfrage der Landesmedienanstalten stehen 76 Prozent der Deutschen KI im Journalismus skeptisch gegenüber.
Klone, die – nicht nur – Politiker täuschen, sorgen für ein Akzeptanzproblem. Es werden aber oft auch fehlende Emotionalität kritisiert, ein genereller Vertrauensverlust in Medien befürchtet, wenn zu sehr auf KI gesetzt wird.
Warum es menschliche Qualitätssicherung für KI-Audio braucht
KI kann monoton sein, manchmal auch gruselig oder unheimlich. Sie muss es aber nicht. Damit das gelingt, beschäftige ich mich für tisix stark mit der Verständlichkeit und Dramaturgie, der richtigen Betonung von KI-Stimmen. Und das kann von Genre zu Genre auch sehr unterschiedlich sein. Gute KI-Audio-Inhalte brauchen nämlich mehr als „nur“ eine realistisch klingende Stimme. Das ist redaktionelle Qualitätssicherung, die sich als tisix Quality Gate bewusst zwischen der synthetischen Stimme und dem Endprodukt dazwischenschaltet. Ich trainiere also die KI-Stimmen, damit sie besser werden, besser zum gewünschten journalistischen Medium passen.
tisix audio ist Teil unseres Verlags-Copiloten: Einer spezialisierten KI-Lösung für redaktionelle Workflows. Die Audio-Komponente ermöglicht es, Artikel automatisch zu vertonen, zu transkribieren und für verschiedene Genres anzupassen. Dabei geht es nicht nur um das Umwandeln von Text in Sprache, sondern um zielgerichtete Adaption auf Genre, Stil und Zielgruppe.
Mein Workflow: So funktioniert journalistische Qualitätssicherung bei tisix.io
Meine Aufgabe beginnt, nachdem die KI das erste Ergebnis geliefert hat. Das heißt, ich trainiere das tisix Quality Gate und höre und bewerte, ob das Endergebnis wirklich den vordefinierten journalistischen Standards entspricht. Mit Hilfe meines Feedbacks trainieren wir das Quality Gate und entwickeln es kontinuierlich weiter.
Ein beispielhafter Workflow sieht folgendermaßen aus:
1. Audio hören und bewerten
Ich prüfe in der Audiodatei, ob die Stimme verständlich ist, ob Betonungen passen, ob der Beitrag emotional stimmig wirkt. Ich höre nicht nur auf Fehler, sondern ich höre insbesondere auf die Wirkung.
2. Feedback zurück an die KI
Mein Urteil fließt direkt in den Trainingsprozess ein. Klingt die Stimme zu monoton oder vielleicht sogar zu extrovertiert? Ist sie zu hoch oder zu niedrig? Ist sie zu laut oder zu leise? Die Bandbreite ist hier extrem breit und das sind auch nicht rein technische Parameter. Mit meinen Beobachtungen justiere ich die Stimmen, entwickle auf den jeweiligen Einzelfall optimierte und justierte Stimm-Einstellungen.
3. Weiterentwicklung des Quality Gates
Das tisix Quality Gate ist kein starres Regelwerk. Es wächst mit jeder Rückmeldung. Ich arbeite daran, es intelligenter zu machen: etwa, indem es bestimmte semantische Stolperfallen automatisch erkennt. So wird aus menschlichem Feedback ein System zur lernenden Qualitätssicherung.
Warum ist das für Redaktionen und fürs Publikum wichtig
Berichte über Audio-Deepfakes machen Hörer:innen misstrauisch und zurecht auch kritisch. Gute Qualität und Transparenz beim Einsatz von KI schaffen deshalb notwendiges Vertrauen.
Wir arbeiten deshalb mit einem redaktionellen Kodex:
· Kein Einsatz synthetischer Stimmen ohne Qualitätssicherung
· Transparenz über den KI-Einsatz
KI-Stimmen beeindrucken bereits jetzt. Es ist unglaublich, welche Entwicklung sie in den letzten Monaten und Jahren gemacht haben. Es ist noch gar nicht so lange her, da klang eine KI-Stimme eher wie R2D2 aus StarTrek. Und heute ist sie häufig beim ersten Horchen nicht mehr von einer realen Stimme zu unterscheiden. Doch häufig geht von ihnen immer noch etwas Monotones, Unlebendiges und manchmal sogar Unheimliches aus. Das sorgt für ein Akzeptanzproblem von KI-Stimmen. Damit sich das ändert, braucht es redaktionelle Verantwortung im Umgang mit KI-Stimmen.
KI kann sprechen, aber Vertrauen entsteht im Dialog
Ob Nachrichten-Podcast, Börsen-Update oder Artikel-Vertonung für Social Media: KI-Stimmen kommen schon jetzt stark zum Einsatz. Die Vorteile bei einem verantwortungsvollen Einsatz überwiegen. Aber: Gute KI braucht gute Redaktion. Und deswegen nehmen wir Qualität ernst.
Neugierig, wie tisix audio funktioniert? Dann buche eine unverbindliche Demo bei uns.