Case Study
In Zusammenarbeit mit Neohelden, jetzt Teil der msg solutions, entwickelte AMAI eine robuste Lösung zur Verbesserung der automatischen Spracherkennung (ASR) für den Einsatz in industriellen Umgebungen.
Zwar werden Sprachassistenten bereits für den Heimgebrauch eingesetzt (Alexa, Siri, Cortana und Co.) dennoch sind sie in der Industrie noch nicht weiterverbreitet. Denn gerade hier sind die Anforderung an ihre Zuverlässigkeit sehr hoch. So muss das System u.a. domänespezifische Begriffe und Beschreibungen verstehen und in gewünschte Aktionen umsetzen. Hintergrundgeräusche, andere Stimmen und verschiedene Lautstärken erschweren das Erkennen von Sprache noch weiter und erhöhen so die sogenannte Word Error Rate (WER).
Die Lösung umfasst die Entwicklung eines domänenspezifischen, deutschen Textkorpus, um die Grundlage für das Training eines präzisen Spracherkennungsmodells zu schaffen. Hierbei setzen wir auf das Kaldi ASR Framework (kaldi-asr.org), ein etabliertes Open-Source-Tool, das für seine Flexibilität und Effizienz in der Verarbeitung natürlicher Sprache bekannt ist. Um die Robustheit des Modells gegenüber realen Einsatzbedingungen zu stärken, implementieren wir eine Datenanreicherung z.B. durch die Überlagerung von Sprachaufnahmen mit verschiedenen Hintergrundgeräuschen. Dieser Ansatz simuliert authentische Umgebungsbedingungen, wie sie bei der Inspektion und Wartung von Maschinen und Anlagen auftreten können. Das resultierende Spracherkennungssystem ist speziell darauf ausgerichtet, die Mitarbeiter in ihren täglichen Aufgaben effizient zu unterstützen, indem es eine zuverlässige Erkennung und Transkription von Sprachbefehlen und -notizen ermöglicht.