16.07.2012

Gebärdensprache per PC: Masterstudent entwickelt visuelle Spracherkennung

 

Krefeld, 16. Juli. Als Fernseh-Zuschauer wüsste man schon mal gerne, was beispielsweise Fußballtrainer ihren Spielern auf dem Platz so alles zurufen. Aber wegen der Lautstärke in den Stadien sind meistens nur die Lippenbewegungen zu erkennen. Stanislav Mayburd, Absolvent des Fachbereichs Elektrotechnik und Informatik der Hochschule Niederrhein, hat jetzt ein System entwickelt, um anhand der Mundbewegungen beim Sprechen das Gesagte maschinell erkennen zu können.

 

Zunächst einmal liefert der frisch gebackene Masterstudent aber eine ernüchternde Erkenntnis: Nur ungefähr 30 Prozent aller Laute sind überhaupt über visuelle Spracherkennung zu verstehen. Das liegt daran, dass es nur 15 eindeutige und doppeldeutige Mundposen gibt, also Viseme, die einen Laut optisch repräsentieren. Von dem akustischen Gegenstück, den Phonemen, gibt es dagegen 47. Eine pauschale Behauptung über die visuelle Verstehbarkeit ist aber schwer zu treffen, da sie von zahlreichen Faktoren abhängt, wie etwa der Frage, ob der Kontext der Unterhaltung bekannt ist oder nicht.

 

Stanislav Mayburd aus Mönchengladbach hat es sich in seiner Masterarbeit über „Lippensegmentierung zur visuellen Spracherkennung" zur Aufgabe gemacht, zunächst die Lippenränder eines Gesichts mit Punkten zu detektieren. Daraufhin hat er das Bild einer sprechenden Frau in mehrere Blöcke zerlegt. „Aus der Analyse der Bildfolgen konnte ich Merkmale erkennen, die dann ein bestimmtes Muster ergeben", sagt der 29-jährige gebürtige Usbeke.

 

Betreut wurde die Arbeit von den Professoren Regina Pohle-Fröhlich und Hans-Günter Hirsch, die im Forschungsinstitut iPattern im Bereich der Mustererkennung arbeiten. Hirsch, der Spezialist für Spracherkennung ist, sieht visuelle Spracherkennung als Unterstützung der Spracherkennung in besonders lauter, also gestörter Umgebung. „Wenn Sie an einem Fahrkartenautomaten alleine über das Sprachsignal eine Karte kaufen wollen, wird das nicht funktionieren, wenn gerade ein Zug einfährt. In solchen Fällen könnte eine visuelle Spracherkennung unterstützend wirken." Denkbar sind auch Weiterentwicklungen, bei denen Geräte durch Lippenbewegungen gesteuert werden können.

 

Pressekontakt: Dr. Christian Sonntag, Referat für Presse und Öffentlichkeitsarbeit, Hochschule Niederrhein, Tel.: 02151 822 3610; E-Mail: christian.sonntag@hs-niederrhein.de

Masterstudent Stanislav Mayburd mit den Professoren Dr. Regina Pohle-Fröhlich und Dr. Hans-Günter Hirsch.


Autor: Christian Sonntag