Spracherkennung: Eine 70-jährige Reise vom Labor zum Laptop

Spracherkennung ist eine der bemerkenswertesten und allgegenwärtigsten Technologien unserer Welt, und Intel strengt sich ständig an, sie weiterzuentwickeln.

Auf einen Blick

  • Seit ihren Anfängen in den 1950er Jahren hat sich die Soundanalyse deutlich entwickelt.

  • Jetzt kann die Spracherkennung alles tun, vom Kundenservice bis zur Patientenversorgung.

  • Die Produkte von Intel sind dafür zentral und helfen Forschern bei UCL bei der Entwicklung von barrierefreie Lösungen für Patienten mit Motoneuron-Erkrankung.

author-image

Von

Die Vergangenheit und Gegenwart der Spracherkennung

Die früheste funktionierende Spracherkennung wurde 1952 von Bell Labs entwickelt. Ihre „Audrey“-Technologie war nach heutigen Standards primitiv, zu dieser Zeit aber ein Durchbruch, und sie konnte nur eine einzige Stimme erkennen, die Zahlen aussprach. Ein Jahrzehnt später folgte IBMs Shoebox, das 16 englische Wörter verstehen konnte.

Moderne Spracherkennung funktioniert folgendermaßen: Zunächst erfasst ein Mikrofon Schallschwingungen in der Luft und wandelt diese Schwingungen in digitale elektrische Codes um. Dieser Code wird dann von Computer gelesen und in ein Spektrogramm verwandelt (das wie ein zackiges Linienrdiagramm aussieht), das einzelne Frequenzen im aufgezeichneten Sound unterscheidet.

Mithilfe dieses Spektrogramms Identifizieren Computer die Audiosignaturen einzelner Phoneme (z.B. ein „Ah“ oder ein „Tsch“). Aktuelle Tools verwenden neuronale Netzwerkmodelle (speziell Sprachmodelle) um diese Phoneme zu analysieren und in einzelne Wörter und Phrasen zu synthetisieren.

Diese Wörter werden dann einer syntaktischen und grammatischen Analyse unterzogen (denken Sie an die Rechtschreibprüfung Ihrer Textverarbeitung), um zu sehen, ob die Äußerung tatsächlich Sinn ergibt. Falls das Sinn ergibt, wird der Befehl von relevanten Systemen ausgeführt.

Intel hilft dabei, Innovationen voranzutreiben, sowohl in der Theorie als auch in der Praxis. Bei der jährlichen Konferenz über neuronale Information Processing Systems im Jahr 2021 wurden zwei von Intel unterstützte Whitepaper vorgestellt, die dazu beitrugen, die Spracherkennung in „unordentlichen“ Audioumgebungen (darunter informelle, idiomatische Sprache oder Umgebungen mit viel Hintergrundgeräusch) zu verbessern.

Und in der Welt der Anwendungen unterstützen Produkte von Intel die Vorfront der Innovation. Beispielsweise wurden skalierbare Intel® Xeon® Prozessoren der 2. Generation sowie Intel® Advanced Vector Extensions 512, Intel® Deep Learning Boost und Intel® Math Kernel Library alle bei der Verbesserung der Spracherkennungs-Inferenzleistung für das südkoreanische Serviceunternehmen Kakao verwendet.

Innovation voranbringen

Eine der leistungsfähigsten Anwendungen der Spracherkennung ist die Gesundheitsversorgung. Deshalb arbeiten Forscher bei UCL in Zusammenarbeit mit Intel und anderen Partnern mit bewährten Spracherkennungs-Tools, die bei einer Reihe von Anwendungen im Gesundheitswesen helfen können.

Ein Beispiel ist die Verbesserung des Zugangs zur Spracherkennung für Personen mit begrenzten vokalen Fähigkeiten, wie Patienten mit Erkrankungen wie Motoneuron-Krankheiten wie ALS (der verstorbene Physiker Stephen Hawking hatte amyotrophische Lateralsklerose).

Durch die Schulung von Computern zur Zuordnung bestimmter Geräusche (wie „ah“ oder „e“) mit spezifischen Befehlen (wie „Cursor hochbewegen“ oder „hier klicken“) zielen die Forscher darauf ab, die bahnbrechende Funktionalität von sprachbasierten Kontrollsystemen für Personen zu bieten, die keinen vollen Zugriff auf die Sprache haben. Die Befehle zielen darauf ab, vollständig anpassbar zu sein, sodass Aktionen an die spezifischen sprachlichen Fähigkeiten des jeweiligen Benutzers angepasst werden können.

„Sie beginnen mit dem Trainieren der Lösung. Zuerst erstellen Sie eine Reihe von Sounds, und die Lösung wird sie als unterschiedliche Wörter erkennen“, sagt einer der Forscher, der an dem Projekt gearbeitet hat. „Und danach programmieren Sie es, so dass beim Aussprechen bestimmter Sounds eine bestimmte Verknüpfung ausgelöst wird. Diese sind veränderbar, damit man sie den Bedürfnissen des Benutzers anpassen kann."

Den Kern der Lösung bildet PyAudio und die VOSK-Soundanalyse. Intel lieferte dabei die Technik, mit der diese Lösungen reibungslos funktionierten, und zwar auf eine unaufdringliche Weise, die sich nahtlos in das Leben der Patienten einpassen würde. „Die Geräte von Intel sind viel, viel kleiner und leiser und können 24/7 laufen“, sagt Anelia Gaydardzhieva, eine der Lead Architect Researcher, die am Projekt mitgearbeitet hat.

„Es wird voraussichtlich vollständig anpassbar sein. Die Motoneuron-Krankheit kann sich bei verschiedenen Patienten auf verschiedene Weise manifestieren“, sagt Emily Pulford, eine der studentischen Mitarbeiterinnen. „Wir wollen den Patienten die Möglichkeit geben, die Geräusche zu verwenden, die sie aussprechen können, und das als Grundlage für eine vollständig anpassbare, vollständig zugängliche Art der Interaktion mit Computern zu verwenden.“

Bahnbrechende Innovation in Krankenhäusern

Die Spracherkennung vereinfacht auch medizinische Umgebungen auf andere Weise. Unter der Leitung von Dr. Atia Rafiq, einem NHS-Doktor, Clinical Safety Officer und Honorary Lecturer bei UCL Computer Science und Sheena Visram, Clinical Lead für UCL MotionInput, arbeiten Teams bei UCL an der Entwicklung von sprachbasierten Automatisierungsverfahren für Krankenhäuser, die eine Reihe von Verwaltungsaufgaben vereinfachen.

Beispielsweise könnte die verbale Aufforderung „Überweisung an den Empfang senden“ eine Folge von automatisierten Verwaltungsprozessen auslösen, die die Arbeit der Klinikmitarbeiter vereinfachen, und ihnen helfen, mehr Zeit bei der Patientenversorgung zu verbringen.

Ein besonders relevanter Bereich für diese Arten von Lösungen ist die Chirurgie. Die Chirurgie erfordert die volle Aufmerksamkeit des Geistes und der Hände des Chirurgen. Wenn Chirurgen etwas während der Operation auf dem Computer nachsehen müssen, muss der gesamte Prozess gestoppt werden, manchmal für 30 Minuten, was sich auf das Ergebnis für den Patienten und die Betriebskosten des Krankenhauses auswirken kann.

Durch die Innovation mit sprachaktivierten Befehlen helfen UCL-Forscher dabei, Hands-Free-Tools für Ärzte zu erstellen, die es ihnen ermöglichen, wichtige Informationen aufzurufen und sich dabei auf die lebensrettende Arbeit konzentrieren.

Die Zukunft dieser Arbeit könnte sogar Interaktionen mit komplexen Krankenhaussystemen durch die Spracherkennungstechnologie ermöglichen, die auf Mitarbeiter und Patienten zugeschnitten ist. Dadurch wird die Bedienung und Verwaltung von Aufgaben in Krankenhäusern weiter rationalisiert.

In Zukunft wird UCL diese Technologien für eine Vielzahl von anderen Bereichen weiterentwickeln, von der Gesundheit zu Unterhaltung, Bildung Einzelhandel und Finanzbranche.