Nur etwa ein Drittel der deutschen Worte lassen sich eindeutig aus den Lippenbewegungen des Sprechers ablesen. Nicht viel, aber dennoch bei störenden Hintergrundgeräuschen ein wichtiger Rettungsanker: Wenn es rundum mal laut wird, folgen wir unwillkürlich nicht nur mit den Ohren, sondern auch mit den Augen dem Mund unseres Gegenübers. Computerwissenschaftler kopieren diesen Trick jetzt in ihren Programmen zur Spracherkennung. Unter optimalen Bedingungen läßt sich die Trefferquote damit zwar nicht verbessern, doch in lärmender Umgebung zeigt sich, wieviel die Computeraugen hören können.
Auch wenn es uns meistens nicht bewußt ist: Wir sind ziemlich gut im Lippenlesen. Sei es auf einer Party, an einer vielbefahrenen Straße oder bei heftigem Wind - sobald störende Hintergrundgeräusche eine rein akustisch geführte Konversation verhindern würden, füllen wir die Lücken mit optischen Informationen auf. Gehörlose Mitmenschen sind oft genug sogar vollständig auf das angewiesen, was sie Hörenden aus den Mundbewegungen und der Mimik ablesen.
Mit neuen Computerprogrammen möchten Wissenschaftler wie Alex Waibel von der Carnegie Mellon University in Pittsburgh diese Fähigkeit auch ihren Rechnern beibringen. Denn auch die beste Spracherkennungssoftware versagt, sobald es ringsum laut ist. Die Erfolgsrate sinkt dann von über neunzig auf magere sechzig Prozent richtig erkannter Laute. Mit Waibels neuem Programm NLips sind es immerhin noch mehr als 85 Prozent.
Wie die meisten Systeme zur Spracherkennung zerlegt auch NLips Sätze und Wörter in einzelne Laute, sogenannte Phoneme. Es steuert jedoch zusätzlich Kameras, die am Computer installiert sind und die Lippenbewegungen des Sprechenden aufzeichnen. Ein Teil des Programms kompensiert leichte Bewegungen des Kopfes. Über ein lernfähiges neuronales Netz sucht NLips nach fünfzig typischen Bewegungsmustern, die Waibel als "Viseme" bezeichnet. Schließlich vergleicht das Programm Phoneme mit Visemen und entscheidet sich für einen Laut. Erst diese Kombination von akustischer und visueller Information ermöglicht es mitunter, die richtige Wahl zu treffen.
NLips schlägt sich zwar unter schwierigen Umständen schon besser als die Konkurrenz, doch noch steht die Entwicklung am Anfang. In den bisherigen Testläufen mußte die Software lediglich Wörter erkennen, die Buchstabe für Buchstabe gesprochen wurden. Und ist der Programmteil für das Lippenlesen ganz auf sich alleine gestellt, versteht er so gut wie gar nichts mehr. Aber das kennen wir ja auch, wenn mal der Ton vom Fernseher ausfällt. Umso mehr Respekt vor der Leistung Gehörloser, die ihre Informationen unter allen Bedingungen über den optischen Weg erschließen - selbst dann, wenn es ausnahmsweise mal leise um uns herum ist.
Siehe auch
Copyright: Spektrum der Wissenschaft