Sprachassistent

Jeder von uns kennt oder nutzt den Alltagshelfer, den Sprachassistenten. Man kennt sie unter dem Namen Siri (Apple), Alexa (Amazon), Google Now (Google), Cortana (Microsoft), Hotline- und Chatsysteme auf z.B. Reiseanbieter Webseiten. Aber wie funktionieren die überhaupt? 

Was ist ein Cloudbasierter Sprachdienst/Sprachassistent? 

Cloudbasierte Sprachdienste oder auch Sprachassistenten sind Software, die von Endgeräten wie Handys, Tablets oder Laptops oder von Smarthome-Geräten genutzt werden. Die Software nimmt einen Audioeingabe auf und liefert uns innerhalb von Millisekunden eine Antwort auf Fragen, erledigt Kleinigkeiten wie eine Weckerstellen, eine Einkaufsliste pflegen, Licht bedienen, etc.  

Die Sprachassistenten funktionieren mithilfe von Deep Learning. Der Software wird durch die Eingabe von hohen Datenmengen und Informationen beigebracht wie auf Fragen und Aufforderungen reagiert werden soll. Dazu lernt jedes System von einer Person selber und verarbeitet die eingegebenen Daten wie die Informationen des Namens, Standort, Vorlieben beim Einkaufen, etc., um den Nutzer bestmöglichen zu unterstützen. Dazu lernt der aus Fehlern. Versteht der Sprachassistent eine Eingabe richtig oder falsch, lernt die Software automatisch dazu.  

Dazu sind wir mittlerweile mit der Entwicklung so weit, dass ein Dialog zwischen dem Menschen und dem Sprachassistenten möglich ist. Das heißt, dass der Sprachassistenten kann rückfragen stellen, wenn er die Eingabe nicht richtig verstanden hat oder Informationen fehlen.  

Funktionsweise: 

  1. Das Mikrophon des Endgerätes oder Intelligenten Lautsprechers nimmt durchgehend die Umgebung auf und erkennt, wenn das Aktivierungswort z.B. “Hey Siri”, “OK, Google”,etc. genannt wird.  
  2. Das Gesagte Aktivierungswort wird an die Sprachassistenten-Software, welche in der Cloud des Anbieters liegt übermittelt.  
  3. Danach wird die Audiodatei verarbeitet. Das heißt werden z.B. Störgeräusche entfernt und die Worterkennung aktiviert.  
  4. In dem nächsten Schritt wird der Inhalt des Gesagten analysiert. Dort wird die Absicht der Anfrage (Intents) und die dazugehörigen Parameter (Slot) ermittelt.  

Beispiel: “Hey …, wie regnet es morgen?” Intents: Wetter-Abfrage, Slot: “morgen” 

  • Dann wird die eigentliche Verarbeitung durchgeführt und ein Antwortet generiert.  
  • Als letztes wird die Antwort durch die Steuerung des Endgeräts oder Smarthome-Gerätes via Audio ausgegeben.  

Vorteile: 

  • Einfache Alltags Fragen/Aktivitäten wie Wecker stellen, Timer einstellen, Wetteransagen möglich 
  • Zuhause mit elektrischen Geräten wie lichter, Musikboxen, Küchengeräten steuern  
  • Hilfe im Alltag auch für Alte, eingeschränkte Menschen  

Nachteile: 

  • Datenschutz (Welche Daten werden aufgenommen, verwendet, gespeichert?) 
  • Zugriff auf die Privatsphäre 
  • Ständiges Aufnehmen der Umgebung, auch wenn sie nicht genutzt werden