Interaktive Sprachdialoge für VoIP

IVR alias Interactive Voice Response bedeutet frei übersetzt soviel wie interaktive Sprachdienste. Durch das Zusammenwachsen von Computerwelt und Telefonnetzwerken kann mittels IVR immer mehr gesteuert und erledigt werden. Durch die Eingabe von Tonsignalen (z.B. per Knopfdruck), Tastenkombinationen oder gesprochenen Kommandos agiert das gegenüber befindliche IVR- System und ermöglicht den Aufbau teil- oder vollautomatisierter Telefondienste. Die ersten Versuche mit Hilfe von Signaltönen (MFW alias Multi-Frequenz-Wahlverfahren) zu steuern, wurden bereits 1941 bei Bell durchgeführt. Steuerungen auf der Basis von Tonwahl (Frequenzen) aufzubauen erwies sich als vorteilhafter gegenüber dem Impulswahlverfahren. Ziel der ersten Versuche war es natürlich vorrangig die Gespräche zu steuern. Die ersten kommerziellen IVR- Systeme wurden Anfang der Siebziger vorgestellt. Durch die Kommunikation mit EDVA, Rechnern und Telefonanlagen wuchs der Umfang an steuerbaren Optionen. 1983 erschien das erste IVR- System, welches auf einem PC integriert werden konnte.

Die Funktionsweise reicht von einfachen Tasteneingaben bis hin zu in Sätzen gesprochen Auswahlverfahren. Die Navigation per Tastendruck ist recht simple gehalten. Eine automatisierte Stimme fordert Sie auf, wenn sie dies wünschen drücken Sie bitte die Eins, möchten Sie jenes betätigen Sie die Taste Zwei und wenn Sie die Taste Drei benutzen haben Sie die Option X. Diese Form der Steuerung bzw. Navigation lässt sich sowohl mit Ziffern wie auch mit Zahlen gestalten. Auch ist eine Verschachtelung von Navigationsebenen möglich. Zum Beispiel können Sie in einer oberen Ebene den Servicebereich durch eine Ziffer wählen und müssen sich innerhalb dieses Bereiches durch Eingabe weiterer Ziffern zwischen verschiedenen Dienstleistungen wie Störungsbeseitigung, Austausch/Erweiterung von Hardware, kompletten Neuanschluss entscheiden. Eine Steigerung dieser Navigation- bzw. Dialogdienste wird durch die Eingabe ganzer Ziffernblöcke erreicht (Kundennummer, Bestellnummer, Datum usw.). Der Fachausdruck für diese Verfahren nennt sich DTMF alias Dual tone multifrequency dialing.

Noch komplizierter wird die Verwertung von menschlicher Sprache. Während wir Menschen ein gesprochenes Wort verstehen, ist dies für Maschinen eine riesige Barriere. Auf Grund von Unterschieden in Stimmlage, Betonungen, Geschwindigkeit etc. erzeugt ein und dasselbe Wort immer ein unterschiedliches Frequenzmuster. Gesprochen von ein und derselben Person sind diese Unterschiede eher gering. Leidet diese Person jedoch an eine Erkältung oder ist Stress ausgesetzt, verändern sich die Stimmmuster rapide. Noch komplizierter wird es, wenn ein Wort von mehreren Personen verwendet wird. Die ersten Sprachdialoge beruhten also auf die einfache Beantwortung von Fragen mit ja und nein. Die nächsten logischen Schritte waren die Erweiterung auf die Synonyme wie okay, yepp, klar, nee usw. sowie die Einbindung von mehreren Kommandos. Erst durch die Entwicklung von Mikroprozessor gesteuerten Modulen war die Entwicklung der Spracherkennung möglich. Jeder der einmal versucht hat, Spracherkennung auf seinem PC zu integrieren, hat ein ungefähre Vorstellung welch immenser Aufwand hinter diesen Spracherkennungssystemen steckt. Doch dank der Entwicklung in der IT-Branche können ganze Sätze oder Teile daraus interpretiert werden, welche wieder Aktionen auslösen.

Die Vorteile dieser Technologie liegen auf der Hand, so können Mitarbeiter bei gleichartigen Anfragen durch automatisierte Systeme entlastet oder eingespart werden. Die Automatisierung von Um- und Weiterleitung ist ebenfalls möglich. Auch arbeiten Computer rund um die Uhr ohne sich zu beschweren. Zeitraubende Abfragen wie Bestell- und Kundennummer, Anliegen und weiteres können bereits im Vorfeld abgeklärt werden, bevor diese dem kompetenten Mitarbeiter vorliegen. Die individuellen Stimmmuster der User ermöglichen eine Authentifizierung, welche wiederum protokolliert und mit anderen Daten verwaltet werden. So sind Profilerstellungen über Nutzer denkbar. Doch trotz intensiver Bemühungen sind die Möglichkeiten von IVR begrenzt. Die Computer können nur innerhalb der vorprogrammierten Möglichkeiten verarbeiten und agieren. Sobald sehr komplexe Fragestellungen oder emotionale Aspekte eine Rolle spielen, wird die zwischenmenschliche Kommunikation bevorzugt. Wenn es um die Weitergabe von persönlichen, sensiblen oder geheimen Daten wie beim Telefonbanking geht, gewinnen die IVR- Systeme an Interesse.