Was ist Spracherkennung?

Januar 2022 | Lilly Torn
zuletzt aktualisiert am 19. Juni 2024
Alexa, spiel meine Lieblingsmusik!

Mit Alexa, Siri, Google Assistant & Co. ist Spracherkennung längst in unserem Alltag angekommen. Ob im smarten Zuhause oder im Berufsleben, die auf künstlicher Intelligenz basierende Technologie erleichtert unser Leben enorm.

Spracherkennung hat sich in den letzten Jahren rasant weiterentwickelt, mittlerweile werden Erkennungsraten von bis zu 99 % erreicht. Sie vereinfacht die Umwandlung von gesprochenem Wort in Text, weil die zeit- und kostenaufwendige manuelle Transkription entfällt. Davon profitieren vor allem professionelle Anwender, sei es im Gesundheitswesen, im Journalismus, in der Forschung, in der öffentliche Verwaltung oder in den Medien, die Inhalte von Videos und Podcasts zum Zweck der Barrierefreiheit immer auch als Skript anbieten müssen.

Wie funktioniert Spracherkennung eigentlich?

Das Ganze ist ein hochkomplexer Vorgang. In einfachen Worten erklärt, wird die analoge Sprache zunächst von der automatischen Spracherkennungssoftware digitalisiert und in einzelne Frequenzen zerlegt. Anschließend werden diese Abschnitte mit bereits gespeicherten Phonemen (kleinste Worteinheiten) abgeglichen. Mit Hilfe des Hidden Markov Models (grob gesagt eine Art Modellierungsmodell) wird berechnet, welches Phonem am wahrscheinlichsten dazu passt. So werden die einzelnen Sprachschnipsel wieder zu ganzen Wörtern und Sätzen zusammengesetzt. Die Anwendung von „Deep Neuronal Networks“, einem Teilbereich der künstlichen Intelligenz, macht es möglich, riesige Datenmengen schnell zu erkennen und richtig zu deuten – wichtig für die Genauigkeit der Spracherkennung.

Verschiedene Anwendungsmöglichkeiten von Spracherkennung

Spracherkennung ist nicht gleich Spracherkennung. Je nach Anwendung gibt es unterschiedliche Ausführungen.

1. Sprachbefehle

Mittels Sprachbefehl werden Assistenzsysteme wie Alexa, Siri oder sogar die professionellen Spracherkennungssysteme selbst gesteuert. Sagt man „Siri, lies mir die neue Nachricht vor“ oder „speichere die Datei unter Dokumente“, führt die Software den Befehl aus. Man erspart sich also die Handgriffe.

2. Diktatspracherkennung

Spracherkennungssoftware für professionelle Diktate bietet bereits hinterlegte Spezialwortschätze (für Mediziner und Rechtsanwälte) an. Die darin enthaltenen Fachbegriffe sind eine gute Grundlage für eine zuverlässige Erkennung, die Software lernt auch je nach individuellem Gebrauch Wörter hinzu. Satzzeichen, Zeilenumbrüche und neue Absätze müssen mit diktiert werden, der fertige Text kann mittels Sprachbefehlen formatiert und nachbearbeitet werden. Sensible Patienten- oder Klientendaten werden automatisch passwortgeschützt. Professionelle Diktiersysteme mit Sprachverarbeitungssoftware sind für Branchen mit hohem Dokumentationsaufwand eine perfekte Lösung zur Vereinfachung des Arbeitsaufwands und für mehr Effizienz.

3. Gesprächsspracherkennung

Ob Sitzungen, Diskussionsrunden, Konferenzen oder Interviews – sogar Online-Meetings können mit dieser Software schnell in Textform gebracht werden. Die Speech-to-text-Software braucht keine Sprachprofile, sondern kann ohne Training verschiedene Stimmen erfassen und ihre Worte in Schrift umsetzen. Kein zeitraubendes Erstellen von Protokollen mehr, kein Verlust von Informationen, kein aufwendiges Transkribieren. Gesprächsspracherkennungssoftware, wie beispielsweise GoSpeech, läuft über einen zentralen Server, ist von überall aus zu erreichen und intuitiv zu bedienen. Erfahren Sie mehr über die Vorteile einer Transkriptionssoftware.

Neugierig geworden? Dann nutzen Sie jetzt die Möglichkeit, GoSpeech kostenlos zu testen.

Jetzt Audio- oder Videoaufnahme transkribieren