Solange es Hörsysteme mit Richtmikrofonen gab, wurde allgemein angenommen, dass Hörgeräteträger in Richtung der Person sehen, der sie zuhören. Diese Theorie ist interessant, weitverbreitet und vernünftig – jedoch meist falsch. Bedenken Sie folgendes Beispiel: Sie sitzen bei einem Vortrag über Hörsysteme in der dritten Reihe. Der Dozent steht auf einem Podium etwa 60° links von Ihnen und spricht über die Leistung von Richtmikrofonen. Gleichzeitig beschreibt er mithilfe eines Laserpointers ein Polardiagramm, das auf einem Bildschirm vor Ihnen zu sehen ist. Sehen Sie in Richtung des Redners oder des Bildschirms?

Das ist keineswegs ein Einzelfall. In einem Restaurant sprechen Kellner Sie über Ihre Schulter an: „Möchten Sie Fisch oder Rindfleisch?“ Auf dem Weg zur Schule sprechen Ihre Kinder mit Ihnen vom Rücksitz Ihres Autos aus. Sehen Sie dabei zu Ihren Kindern oder schauen Sie auf die Straße? In der Kirche lehnt sich Ihr Partner zu Ihnen herüber und flüstert Ihnen zu, dass Sie einen Kaffeefleck auf Ihrem Hemd haben. Ziemlich häufig sehen wir die Person, der wir gerade zuhören, gar nicht an.

Wie oft befinden sich die Signale, die für uns von Interesse sind, nicht direkt vor uns? Walden et. al. (2004)1 haben 17 Hörgeräteträger darum gebeten, diverse Aspekte entsprechender Signale und Geräusche über einen Zeitraum von vier Wochen für sieben Tage zu beobachten. Die Befragten gaben Informationen zu 1586 Fällen an, in denen Sprache mit im Spiel war. Sie gaben an, dass in 1268 dieser Fälle die Sprache von vorne kam. In 318 Fällen kam die Sprache aus einer anderen Richtung. Demnach berichteten die Hörer, dass Sprache etwa zu 80 % von vorne kam und zu etwa 20 % aus einer anderen Richtung. Daraus ergibt sich eine beachtliche Menge an Situationen, in denen Sprache nicht von vorne kommt. Wenn Sie davon ausgehen, dass Menschen die Person, der sie gerade zuhören, auch anschauen, würden Sie bei den meisten Menschen nur in etwa 80 % der Fälle richtig liegen.

Warum halten Hörgerätehersteller dann so fest an dieser Idee? Der Grund liegt zum Teil in der Vergangenheit. Wir hatten keine andere Wahl. Damals waren Hörsysteme nicht in der Lage, zu erkennen, aus welcher Richtung Sprache kommt. Diese Situation hat sich jedoch mit der Einführung von SpeechPro bei Hörsystemen von Unitron geändert. SpeechPro nutzt die binaurale akustische Signalverarbeitung, um in jedem einzelnen Augenblick zu bestimmen, ob Sprache von vorne, rechts, links oder hinten kommt. Durch Nutzung der beiden Mikrofoneingänge an den jeweiligen Hörsystemen und die anschließende Kommunikation zwischen den Geräten kann sich das gesamte binaurale System mit großer Präzision der entsprechenden Quelle der Sprache nähern.

Zu wissen, aus welcher Richtung die Sprache in Relation zu den Hintergrundgeräuschen kommt, kann sich möglicherweise deutlich vorteilhaft auswirken. Wir können sowohl den Zielbereich der Richtmikrofone in Richtung der Sprache und weg von Störgeräuschen lenken, als auch weitere richtungsspezifische (Azimut-)Anpassungen vornehmen, um die Leistung der Hörsysteme zu verbessern. So variiert beispielsweise der Mikrofonlokalisierungseffekt (MLE) für Receiver-in-Canal(RIC)-Geräte mit Mikrofonen am oberen Ende der Pinna, je nachdem, ob das Signal von vorne, von hinten oder von der Seite kommt. Die Übertragungsfunktion des MLE ging immer davon aus, dass das Signal von vorne kommt, da wir eine Richtung auswählen mussten und dies die offensichtliche Wahl war. Wenn Hörsysteme inzwischen aber die Richtung der Sprache bestimmen können, können wir den MLE dynamisch anpassen, indem wir die in diesem Moment besten Werte für die bekannte Richtung des Sprachsignals verwenden. Diese Anpassung kann die Klangqualität und die natürliche Richtungswahrnehmung verbessern. Wie effektiv diese dynamischen Anpassungen sein werden, hängt davon ab, wie gut das System tatsächlich funktioniert.

Wir haben uns an die University of South Florida gewandt, damit sie uns helfen, die Genauigkeit unserer Azimut-Sprachsensoren zu bewerten. Bei allen Arten von digitalen Erkennungssystemen hängt die Leistung von einer ausgewogenen Mischung aus Geschwindigkeit, Sicherheit und Verarbeitungsfähigkeit ab. Genauer gesagt: Je weniger Proben für eine Entscheidung zu einer Hörumgebung erforderlich sind, desto schneller ist die Erkennung. Je mehr Proben Sie jedoch aus der Umgebung nehmen, desto sicherer können Sie sich sein, dass Ihre Erkennung korrekt ist. In anderen Worten: Je schneller Sie vorgehen, desto mehr Fehler machen Sie wahrscheinlich. Je langsamer Sie vorgehen, desto verzögerter treten Ihre Entscheidungen in Kraft und desto stärker könnten Ihre Entscheidungen von der dynamischen Hörumgebung abweichen. Das perfekte Gleichgewicht besteht darin, schnell genug vorzugehen, damit Ihre Entscheidungen noch immer relevant für die sich verändernde Hörumgebung sind, und gleichzeitig auch langsam genug vorzugehen, damit Sie nicht zu viele Fehler begehen.

Eine wichtige Einschränkung dieser Regel stellt die Verarbeitungsfähigkeit des Geräts dar, das die Proben nimmt. So wie bei Computern ist jede Generation der Signalverarbeitungs-Chips in unseren Hörsystemen zunehmend schneller und leistungsfähiger als ihr Vorgänger. Deshalb haben wir unsere neuere Tempus-Plattform ebenso wie die ältere North-Plattform untersucht. Siehe Abbildungen 2a und 2b auf der nächsten Seite.

Die Leistung dieser beiden Generationen an Unitron-Geräten wurde im Auditory & Speech Sciences Laboratory an der University of South Florida (USF) getestet. In einem schalldichten Raum wurden Sprach- und Geräuschpassagen von insgesamt 24 Sprechern aus vier Azimuten abgespielt (siehe Abbildung 1). Die Forscher überwachten die Erkennung über einen Zeitraum von vier Stunden mit Probenintervallen von 40 Sekunden. Die Sprach- und Geräuschproben bestanden aus folgenden Kombinationen:

  • Vier Sprachpassagen: männlich, weiblich und Sprecherwechsel zwischen männlich und weiblich
  • Fünf unterschiedliche Arten diffuser Hintergrundgeräusche
  • Vier SNRs: –3, 0, 3 und 6 dB
  • Vier Azimute: 0°, 90°, 180° und 270°

Abbildung 1. Sprache (männlich, weiblich oder Sprecherwechsel) von einem der Sprecher mit einem grünen + zu einem beliebigen Zeitpunkt. Eine der vier Geräuscharten von allen vier Sprechern mit einem roten – jederzeit.

Die Genauigkeit wurde anhand des Prozentsatzes korrekter Erkennungen für jede der drei Startzeiten berechnet. Für ein vollständiges, 40-sekündiges Intervall wurde der Durchschnitt ermittelt. Die Startzeiten lagen bei:

  • 0 Sekunden Verzögerung = „Sofortmessung“, die direkt nach einer Richtungsänderung stattfindet
  • 5 Sekunden Verzögerung = „mittlerer Ausgleich“
  • das verbleibende Intervall nach der durchschnittlichen Wechselzeit = „bester Ausgleich“ für das jeweilige Gerät
  • North-Plattform (Q2 Pro) = 17 Sekunden
  • Tempus-Plattform (Moxi Fit Pro) = 6,2 Sekunden

Beachten Sie, dass der beste Ausgleich für Quantum2 Pro in bis zu 17 Sekunden (Abbildung 2a) und für Moxi Fit Pro in nur 6,2 Sekunden erzielt wurde (Abbildung 2b). Dass Moxi Fit Pro bis zur Näherung an eine zuverlässige Erkennung weniger Zeit benötigt, liegt an den verbesserten Verarbeitungsfähigkeiten der Tempus-Plattform im Vergleich zur North-Plattform.

Abbildung 2a und 2b – Erkennungsgenauigkeit von zwei Generationen von Unitron-Produkten mit SpeechPro. Genauigkeitsergebnisse oben unter Verwendung von 2a) Quantum2 Pro (North) und unten unter Verwendung von 2b) Moxi Fit Pro (Tempus). Die Ergebnisse sind in der jeweiligen Abbildung nach dem Signal-Rausch-Abstand (SNR) angeordnet, der von links nach rechts von sehr schwer (–3 dB) bis zu sehr einfach (+6 dB) reicht. Die Genauigkeit ist durch einen Prozentsatz von 0 % (0) bis 100 % (1) angegeben.

In den Abbildungen 2a und 2b sind drei Trends sichtbar. Zunächst ist offensichtlich, dass das neuere System Moxi Fit Pro (Tempus) viel genauere Erkennungsergebnisse als das ältere System Quantum2 Pro (North) aufweist. Die Erkennungsgenauigkeit von Quantum2 Pro reichte von beinahe 30 % bei einem SNR von –3 dB bis beinahe 70 % bei einem SNR von +6 dB. Gleichzeitig erzielte Moxi Fit Pro den geringsten Genauigkeitswert von etwa 70 % bei einem SNR von –3 dB und den höchsten Wert von beinahe 90 % bei einem SNR von +6 dB. Dadurch ergibt sich eine starke Verbesserung der Erkennungsgenauigkeit, die mit dem Wechsel zur neueren Tempus-Plattform in Zusammenhang steht. Darüber hinaus lag die Erkennungsgenauigkeit von Moxi Fit Pro in dem SNR-Bereich (+3 dB bis +6 dB), in dem die meisten Hörgeräteträger lieber Sprache in Störlärm hören, durchweg bei über 80 %.

Zweitens, abgesehen von den deutlichen Leistungsunterschieden zwischen den beiden Plattformen, hat sich der SNR insgesamt betrachtet auf beide Arten von Hörsystemen ausgewirkt. Je positiver der SNR wurde, desto stärker stieg auch die Erkennungsgenauigkeit (von links nach rechts im jeweiligen Diagramm) an. Es kam zu einer Verzögerung des Ausgleichs. Hatte das Hörsystem einige zusätzliche Sekunden Zeit, um die Sprachrichtung zu erkennen, verbesserte dies bei gleichbleibenden Plattform- und SNR-Werten ebenfalls die Genauigkeit. Mit anderen Worten: Werden die ersten fünf Sekunden eines jeden 40-sekündigen Erkennungszyklus ignoriert und wird der Durchschnitt nur aus den letzten 35 Sekunden ermittelt, ergeben sich für den mittleren Ausgleich im Vergleich zur Sofortmessung bei beiden Plattformen verbesserte Erkennungsgenauigkeiten. Durch Warten auf den besten Ausgleich ergaben sich sogar noch genauere Erkennungsergebnisse. Dieser Effekt war bei den Quantum2 Pro-Geräten noch stärker ausgeprägt. Um den besten Ausgleich für Quantum2 Pro zu finden, mussten die Forscher jedoch die gesamten ersten 17 Sekunden der Erkennungsproben ignorieren. Gleichzeitig näherte sich Moxi Fit Pro dem besten Ausgleich in nur 6,2 Sekunden – also bis zu dreimal schneller.

Drittens übertraf Moxi Fit Pro das System Quantum2 Pro ganz klar. Die Erkennungsgenauigkeit der Sofortmessung von Moxi Fit Pro bei einem SNR von –3 dB (das Worst-Case-Szenario) war identisch zur besten Ausgleichsmessung von Quantum2 Pro bei einem SNR von +6 dB (das Best-Case-Szenario). Das ist eine riesige Leistungssteigerung.

Wir haben also eine bessere Spracherkennung in unsere Hörsystemen eingebaut und konnten eine große Leistungssteigerung bei der Erkennungsgenauigkeit erzielen. Ein Hörsystem anzubieten, das bei einem positiven SNR in über 80 % der Fälle die Richtung von Sprache genau erkennen kann, klingt ziemlich gut. Aber was sagt uns das?

Uns liegen zwar keine Daten zur Erkennungsgenauigkeit bei Menschen vor, mit denen wir unsere Ergebnisse aus dieser Studie vergleichen könnten, wir können jedoch eine weitere Studie betrachten, in der die Azimuterkennung bei hörgeschädigten Menschen gemessen wurde. Anschließend können wir entscheiden, wie begeisternd unsere neuen Ergebnisse wirklich sind.

Indem wir die Daten von Moxi Fit Pro in einer einzelnen Tabelle mit Azimutrichtungen je nach SNR zusammenfassen, können wir einen annehmbaren Vergleich zu einer anderen Tabelle aus einer Studie von Keidser et. al. (2009) ziehen.2 Die Erkennungsdaten von Moxi Fit Pro finden sich unten in Tabelle 1.

Tabelle 1. Prozentsatz der korrekten Erkennungen aller Messungen für den jeweiligen SNR und die jeweilige Richtung. Die Spalte „Overall“ stellt den durchschnittlichen Prozentsatz aller korrekten Erkennungen je nach SNR aus allen vier getesteten Azimuten dar.

Moxi Fit Pro zeigte bei allen vier Arten von Hintergrundgeräuschen eine beinahe perfekte Genauigkeit bei der Erkennung von Sprache, die von vorne kam. Dennoch sinkt die Genauigkeit in Tabelle 1 nach und nach im Verlauf von links nach rechts und von oben nach unten. Der durchschnittliche Gesamtwert der Genauigkeit, der für alle vier Richtungen ermittelt wurde, ist mit 88,4 % im positivsten SNR-Bereich (+6 dB) am höchsten und im SNR-Bereich von 0 dB am niedrigsten. Die Abnahme im SNR-Bereich von 0 dB im Vergleich zu –3 dB scheint an einer erhöhten Verwechslung bei der Wahrnehmung von Sprache, die von hinten kommt, im SNR-Bereich von 0 dB zu liegen.

Diese Ergebnisse sind vergleichbar mit den Daten von Keidser et. al. zur Verwechslung von Signalen, die von vorne bzw. hinten kommen, wie in
Tabelle 2 dargestellt.

Tabelle 2. Der durchschnittliche Prozentsatz der Verwechslungen bei 40 Versuchen, bei denen Signale von vorne (F) bzw. hinten (B) kamen

Keidser et. al. untersuchten die Verwechslung von Signalen, die von vorne bzw. hinten kommen, bei 51 Studienteilnehmern. Wie bei den meisten Lokalisierungsstudien hatten die Personen die größten Schwierigkeiten bei der Bestimmung, ob das Testsignal von vorne oder von hinten kommt. Die Forscher fanden heraus, dass Verwechslungen von links bzw. rechts deutlich seltener vorkamen. Verwechslungen von vorne bzw. hinten stellen die häufigste Art von Lokalisierungsfehlern dar, selbst bei Personen mit normalem Hörvermögen. Verwechslungen von links bzw. rechts treten deutlich seltener auf. Grund dafür sind die relativ großen Unterschiede zwischen dem interauralen Pegel, der Zeit, der Frequenz und der Phase, die sich aus der Head-Related Transfer Function (HRTF) von einer Seite des Kopfes zur anderen ergeben. Die HRTF hat nur geringe Auswirkungen, wenn das Zielsignal direkt von vorne oder von hinten kommt. Es ist zum größten Teil die Ohrmuschel, die hauptsächlich über spektrale Effekte zur Lokalisierung von vorne bzw. hinten beiträgt3. Diese Effekte auf die Lokalisierung von links bzw. rechts sind, verglichen mit dem deutlich größeren Effekt der HRTF, sehr gering.

Tabelle 2, aus Keidser at. el. (2009), zeigt den Prozentsatz der Verwechslungen von vorne bzw. hinten bei 40 Versuchen, wobei die Antworten von 30 Personen mit normalem Hörvermögen (NH) und von 21 hörgeschädigten Personen (HI) untersucht wurden. Die Standardabweichungen sind ebenfalls in Klammer dargestellt. In dieser Studie hörten die Teilnehmer fünf unterschiedliche Sprach- oder Geräuschsignale aus einem der 20 Lautsprecher, die kreisförmig mit einem Abstand von je 20° um die Teilnehmer herum aufgestellt wurden. Der direkteste Vergleich zwischen den Ergebnissen dieser Studie, an der menschliche Probanden teilnahmen, und der weiter oben dargestellten Messung der Erkennungsgenauigkeit von Hörsystemen besteht in dem Prozentsatz der Verwechslungen von Sprachsignalen, die von vorne bzw. hinten kommen. Die Personen mit normalem Hörvermögen schnitten recht gut ab. Sie lagen durchschnittlich in 1 % und 6 % der Fälle falsch. Die Standardabweichung reicht für alle Testsignale von 1,8 % bis 8,1 %. Die Antworten der hörgeschädigten Gruppe ohne Hörsystem waren jedoch nicht so gut. Die Fehlerquoten lagen zwischen 33 % und 38 %. Die Standardabweichung für alle Testsignale reichte von 8 % bis 13,2 %.

Diese Teilnehmer ohne Hörsystem konnten Sprachsignale, die von hinten bzw. vorne kamen, in 67 % der Fälle korrekt lokalisieren, wenn keine Störgeräusche zu hören waren. Dies lässt sich mit den sehr ähnlichen Testbedingungen bei der Messung der Leistung von Hörgerätesensoren in den beiden positivsten SNR-Bereichen von +3 dB und +6 dB vergleichen. Bei einem SNR von +6 dB erkannten die Hörsysteme die Richtung der Sprache in 99,1 % der Fälle richtig, wenn das Signal von vorne kam, und in 85,6 % der Fälle, wenn das Signal von hinten kam. Im SNR-Bereich von +3 dB waren die Ergebnisse ähnlich: zu 100 % richtig bei Signalen von vorne und zu 82,8 % richtig bei Signalen von hinten. Gerechterweise muss auch berücksichtigt werden, dass wir hier die Erkennung von Sprache in einer ruhigen Umgebung mit der Erkennung von Sprache in Störlärm vergleichen. Dieser Vergleich ist also nicht unbedingt ideal. Diese Informationen können jedoch als Referenzrahmen für die Erkennungsleistung von Hörsystemen dienen, verglichen mit der bekannten Fähigkeit von Hörgeräteträgern zur Lokalisierung von Sprache in den schwierigsten Testumgebungen (von vorne bzw. hinten). Man kann über die Ergebnisse der Hörsysteme sagen, dass diese am wenigsten vergleichbar sind und dass sie möglicherweise eine verbesserte Erkennung im Vergleich zu hörgeschädigten Personen darstellen.

Auf Basis der hier dargestellten Ergebnisse können einige Beobachtungen gemacht werden. Es sollte klar sein, dass der Wechsel von der North-Plattform zur Tempus-Plattform zu einem deutlichen Anstieg in der Erkennungsgeschwindigkeit und -genauigkeit führt. Die Geschwindigkeit und Genauigkeit werden fortwährend mit jeder neuen Plattform verbessert, zuerst von North zu Tempus und nun von Discover zu Discover Next. Die Genauigkeit der North-Plattform reichte von etwa 30 % bis beinahe 70 % unter den günstigsten Bedingungen, einschließlich einer Verzögerung von 17 Sekunden zur Verbesserung der Genauigkeit. Gleichzeitig reichten die Genauigkeitsergebnisse der Tempus-Plattform von etwa 70 % bis beinahe 90 % mit einer maximalen Verarbeitungsverzögerung von 6,2 Sekunden. Es ist außerdem ersichtlich, dass die Erkennungsgenauigkeit der Tempus-Plattform mit beinahe 70 % auch in einem SNR-Bereich von –3 dB mit Sofortmessung sehr hoch bleibt. Schließlich haben wir gesehen, dass die Genauigkeit bei der Erkennung von Signalen, die von vorne bzw. hinten kommen, unter Verwendung der Tempus-Sensoren zumindest vergleichbar mit einer Gruppe von hörgeschädigten Personen ist und dass diese in einigen Fällen sogar viel höher liegt (bei Sprache von vorne). Hoffentlich zeigt diese Abhandlung den Wert der binauralen Signalverarbeitung auf, die es Hörsystemen ermöglicht, die Richtung von Sprache auch in einer sehr geräuschvollen Hörumgebung genau zu bestimmen.

Ich möchte hier auf den Beitrag von Dr. Ozmeral und Dr. Eddins hinweisen, die eng mit uns zusammengearbeitet haben, um den Sound Parkour zu entwickeln und die Datenerhebung in ihrem Labor an der University of South Florida durchzuführen.

Referenzen

1Walden, B.E., et al., Predicting Hearing Aid Microphone Preference in Everyday Listening. Journal American Academy of Audiology, 2004. 15: p. 365-396.
2Keidser, G., et al., The effect of frequency-dependent microphone directionality on horizontal localization performance in hearingaid users. International Journal of Audiology, 2009. 48(11): p. 789-803.
3Van Den Bogaert, T., E. Carette, and J. Wouters, Sound localization with and without hearing aids. 2009.

Erweitern Sie den Horizont der Höranalyse über Ihr Geschäft hinaus in den Alltag aus. Ihre Kunden können die Hörsysteme zuhause, bei der Arbeit oder überall dort erleben, wo sie ihre Zeit verbringen.