06.10.2017

Bisher wurde für ein System für Sprachsynthese, das “Text-to-Speech (TTS), genutzt, um Sprachassistenten das Reden beizubringen. Dazu werden in der Regel zwei Techniken verwendet:

  • Verknüpfende TTS: Hier werden Stücke von Sprachaufnahmen eines Sprechers zusammengefügt und ausgegeben. Der Nachteil dieser Methode ist, dass die Audio-Bibliothek ersetzt oder geändert werden muss, wenn Upgrades oder Änderungen vorgenommen werden.
  • Pragmatische TTS: Hier werden eine Reihe von Parametern genutzt um computergenerierte Sprache zu produzieren. Nachteil daran ist, dass die Sprache oft unnatürlich und roboterhaft klingt. 

Wie funktioniert das System?

WaveNet erzeugt Schallwellen von Grund auf, weshalb sich die Technologie auch zum Erzeugen von Musik und Geräuschen eignet. Um die Plattform zu trainieren wurde eine große Anzahl von Sprachproben verwendet, um die Stimme zu synchronisieren. Unabhängig von den Sprachproben hat das System einen eigenen Akzent entwickelt und kann deshalb auch verschiedene Sprachen imitieren, verschiedene Sprach-Datensätze programmiert wurden.

Weitere Entwicklungen und Integration in Google Assistenten

Bisher benötigte die Nutzung des neuronalen Netzwerk eine erhebliche Menge an Rechenleistung, was die Sprachausgabe enorm verlangsamte. Nach der Optimierung des Systems hat sich dies deutlich verbessert und macht die Integration in die Google Sprachassistenten erst möglich. Zurzeit wird das System verwendet, um die US-englischen und japanischen Stimmen für Google Assistenten zu generieren.

Fazit

Voice Interfaces werden immer häufiger verwendet. Je menschlicher die Sprache des Sprachassistenten, desto höher ist die Akzeptanz bei den Nutzern und wird von diesen als natürliche Konversation wahrgenommen.