Depuis les premiers instruments auditifs dotés de microphones directionnels, l’idée reçue était que les porteurs d’instruments auditifs regardent la personne qu’ils écoutent. Il s’agit d’une théorie tout à fait intéressante, répandue et raisonnable, mais qui se révèle souvent erronée. Imaginez que vous assistez à une conférence sur les instruments auditifs et êtes assis au troisième rang. Le conférencier se tient sur l’estrade à environ 60° sur votre gauche, et vous parle des performances des microphones directionnels tout en décrivant un diagramme polaire à l’aide d’un pointeur laser sur l’écran en face de vous. Observez-vous l’intervenant ou l’écran?

Il ne s’agit absolument pas d’un cas isolé. Un serveur s’adresse à vous par-dessus votre épaule au restaurant : « Prendrez-vous du poisson ou du bœuf? » En rentrant de l’école, vos enfants discutent avec vous tandis qu’ils sont assis sur la banquette arrière de votre voiture. Regardez-vous les enfants ou la route? À l’église, votre conjoint se penche pour vous murmurer que vous avez une tache de café sur votre chemise. Dans bien des cas, nous ne regardons pas la personne que nous écoutons.

À quelle fréquence les signaux intéressants se situent-ils ailleurs que directement en face de nous? Walden et al. (2004)1 ont demandé à 17 porteurs d’instruments auditifs de faire le suivi de divers aspects de signaux et bruits souhaités pendant sept jours sur une période de quatre semaines. Les participants ont rapporté 1 586 expériences d’écoute dans lesquelles la parole était présente. Ils ont indiqué que la parole provenait de l’avant dans 1 268 de ces situations, et qu’elle provenait d’une autre direction dans 318 cas. Les auditeurs ont ainsi rapporté que la parole provenait de l’avant 80 % du temps environ et d’une autre direction 20 % du temps environ. La proportion du temps pendant laquelle la parole est issue d’une direction autre que l’avant est donc assez importante. L’hypothèse selon laquelle les gens regardent la personne qu’ils écoutent se révèle donc vraie seulement 80 % du temps pour la plupart des individus.

Alors, pourquoi les fabricants d’instruments auditifs se focalisent-ils autant sur cette idée? La raison est en partie historique. Nous n’avions en réalité pas le choix. Les instruments auditifs ne permettaient pas encore de déterminer d’où venait la parole. Cette situation a changé lorsque SpeechPro est venu enrichir l’offre d’instruments auditifs d’Unitron. SpeechPro utilise le traitement du signal acoustique binaural pour déterminer à chaque instant la provenance de la parole; qu’elle provienne de l’avant, de la droite, de la gauche ou de l’arrière. En utilisant les entrées des deux microphones sur chaque instrument auditif et en communiquant ensuite entre les appareils de manière collaborative, il est possible que l’ensemble du système binaural converge de manière très précise vers l’emplacement de la parole désirée.

Connaître la direction de la parole désirée par rapport au bruit de fond présente des avantages potentiels considérables. Nous pouvons non seulement pointer la zone cible des microphones directionnels vers la parole loin des bruits gênants, mais nous pouvons également apporter d’autres réglages spécifiques de la direction (azimut) afin d’améliorer les performances des instruments auditifs. Par exemple, l’effet de localisation du microphone (MLE) pour les récepteurs intraconduits (RIC) avec des microphones en haut du pavillon de l’oreille diffère selon la source; qu’elle provienne de l’avant, de l’arrière ou d’un côté. La fonction de transfert liée au MLE a toujours supposé un signal orienté vers l’avant, car nous devions choisir une direction et ce choix semblait évident. Si les instruments auditifs peuvent désormais déterminer la direction de la parole, nous pouvons toutefois modifier dynamiquement le MLE en utilisant les meilleures valeurs possibles pour l’orientation connue du signal de la parole dans l’instant. Ce réglage permet d’améliorer la qualité sonore et la perception naturelle de la direction. Le degré d’efficacité de ces ajustements dynamiques dépendra du bon fonctionnement actuel du système.

Nous avons fait appel à l’Université de Floride du Sud pour nous aider à évaluer la précision de nos détecteurs d’azimut en ce qui concerne la parole. Quel que soit le type, la maîtrise de la détection numérique repose sur un équilibre entre la vitesse, la certitude et la capacité de traitement. Pour résumer, moins vous avez besoin d’échantillons pour prendre une décision concernant un environnement sonore, plus la détection est rapide. Il faut toutefois noter qu’un plus grand nombre d’échantillons de l’environnement renforce la certitude que la détection est correcte. En d’autres termes, la précipitation risque de vous faire faire des erreurs. Plus vous irez lentement, plus vos décisions seront différées et plus elles seront désynchronisées par rapport à l’environnement d’écoute dynamique. Pour atteindre un équilibre idéal, il faut aller assez vite pour prendre des décisions qui restent pertinentes pour l’environnement sonore changeant, mais suffisamment lentement pour ne pas faire trop d’erreurs.

Concernant cette règle, il faut par contre prendre en compte la capacité de traitement de l’appareil qui effectue l’échantillonnage. À l’instar des PC, chaque génération de puce de traitement du signal équipant nos instruments auditifs gagne peu à peu en rapidité et en puissance par rapport aux précédentes. Nous avons donc évalué notre plateforme Tempus la plus récente ainsi que sa version antérieure sur la plateforme North. Consultez les figures 2a et 2b à la page suivante.

Les performances de ces deux générations d’appareils Unitron ont été testées dans le laboratoire des sciences de l’audition et de la parole de l’Université de Floride du Sud (USF). Les extraits de parole et de bruit ont été diffusés dans une salle sonorisée contenant un ensemble de 24 haut-parleurs avec des présentations de quatre azimuts (voir la figure 1). Les chercheurs ont surveillé la détection sur quatre heures d’échantillonnage à des intervalles de 40 secondes. Les échantillons de parole et de bruit contenaient des combinaisons des éléments suivants :

  • Quatre extraits avec parole : homme, femme, et homme/femme à tour de rôle
  • Cinq types différents de bruit de fond diffus
  • Quatre RSB : -3, 0, 3 et 6 dB
  • Quatre azimuts : 0°, 90°, 180° et 270°

Figure 1. La parole (homme, femme ou à tour de rôle) diffusée depuis l’un des haut-parleurs avec un + vert à tout moment. L’un des quatre types de bruit diffusé par les quatre haut-parleurs avec un – rouge en permanence.

La précision a été calculée comme étant le pourcentage de détections correctes pour chacun des trois temps de départ en moyenne sur un intervalle complet de 40 secondes. Les temps de départ étaient les suivants :

  • Délai de 0 seconde = « Mesure instantanée », se produisant immédiatement après un changement de direction
  • Délai de 5 secondes = « Compensation intermédiaire »
  • Intervalle restant après le temps de commutation moyen = « Meilleure compensation » pour chaque appareil donné
  • Plateforme North (Q2 Pro) = 17 secondes
  • Plateforme Tempus (Moxi Fit Pro) = 6,2 secondes

Vous remarquerez sur la figure 2a que jusqu’à 17 secondes ont été nécessaires pour atteindre la meilleure compensation pour le Quantum2 Pro, contre seulement 6,2 secondes pour le Moxi Fit Pro (figure 2b). Le délai moindre nécessaire pour converger vers une détection fiable du Moxi Fit Pro s’explique par les capacités de traitement accrues de la plateforme Tempus par rapport à la plateforme North.

Figures 2a et 2b – Précision de la détection de deux générations de produits Unitron avec SpeechPro. Résultats de précision avec en haut 2a) l’appareil Quantum2 Pro (North) et en bas 2b) le Moxi Fit Pro (Tempus). Les résultats sont affichés de gauche à droite sur chaque figure, le rapport signal sur bruit (RSB) évoluant de très difficile (-3 dB) à très facile (+6 dB). La précision est indiquée en pourcentage de 0 % (0) à 100 % (1).

Les figures 2a et 2b présentent trois tendances. Premièrement, il semble évident que le récent Moxi Fit Pro (Tempus) ait généré des résultats de détection beaucoup plus précis que le Quantum2 Pro (North) qui le précède. La précision de détection du Quantum2 Pro variait d’un peu moins de 30 % au RSB de -3 dB à tout juste moins de 70 % au RSB de +6 dB. En parallèle, les scores de précision du Moxi Fit Pro variaient d’environ 70 % dans le pire des cas au RSB de -3 dB à près de 90 % d’exactitude au RSB de +6 dB. Le passage à la dernière plateforme Tempus a donc entraîné une amélioration considérable de la précision de détection. En outre, la précision de détection du Moxi Fit Pro était constamment supérieure à 80 % dans la plage du RSB (+3 dB à +6 dB) où la plupart des porteurs d’instruments auditifs choisiraient d’écouter la parole dans le bruit.

Deuxièmement, outre les performances opposées des deux plateformes, le RSB avait un impact global sur les deux paires d’instruments auditifs. Plus le RSB devenait favorable (de gauche à droite sur chaque graphique), plus la précision de détection augmentait également. Il s’agit là d’un effet de retard de compensation. Accorder quelques secondes supplémentaires à l’instrument auditif pour surveiller la direction de la parole permettait également d’améliorer la précision en cas de plateforme et de RSB constants. En d’autres termes, le fait d’ignorer les cinq premières secondes de chaque cycle de détection de 40 secondes et de calculer uniquement la moyenne des 35 dernières secondes donnait systématiquement lieu à une précision de détection accrue pour la compensation intermédiaire par rapport à la mesure instantanée pour les deux plateformes. Attendre la meilleure compensation a rendu les résultats de détection encore plus précis. Cet effet était plus prononcé avec les appareils Quantum2 Pro. Afin d’obtenir la meilleure compensation avec le Quantum2 Pro, les chercheurs ont cependant dû ignorer intégralement les 17 premières secondes des échantillons de détection. Le Moxi Fit Pro a quant à lui convergé vers la meilleure compensation en seulement 6,2 secondes, soit un délai trois fois plus rapide.

Troisièmement, le Moxi Fit Pro a tellement surpassé le Quantum2 Pro, que la précision de détection de la mesure instantanée du Moxi Fit Pro au RSB de -3 dB (pire des cas) était égale à la mesure de la meilleure compensation du Quantum2 Pro au RSB de +6 dB (meilleur des cas). Il s’agit là d’un accroissement considérable des performances.

Nous avons donc développé un meilleur détecteur de parole pour nos instruments auditifs, ce qui nous a permis de d’améliorer nettement la précision de détection. Cela a l’air plutôt intéressant d’avoir un instrument auditif capable de détecter avec précision la direction de la parole plus de 80 % du temps à un RSB positif. Mais qu’est-ce que ça signifie?

Bien que nous ne disposions pas de données sur la précision de la détection humaine dans le cadre de cette étude aux fins de comparaison de nos résultats, nous pouvons examiner une autre étude de la littérature où la détection d’azimut a été mesurée sur des personnes en perte d’audition. Nous pourrons alors décider à quel point ces résultats doivent nous enthousiasmer.

En regroupant les données du Moxi Fit Pro dans un seul tableau de directions d’azimut par RSB, nous pouvons effectuer une comparaison acceptable avec un autre tableau d’une étude de Keidser et coll. (2009)2. Voir le tableau 1 ci-dessous pour les données de détection du Moxi Fit Pro.

Tableau 1. Pourcentage de détections correctes pour toutes les mesures à chaque RSB et pour chaque direction. La colonne « Overall » (Global) correspond au pourcentage de toutes les détections correctes par RSB en moyenne sur les quatre azimuts testés.

Le Moxi Fit Pro a démontré une précision presque parfaite lors de la détection de la parole dans les quatre types de bruit de fond lorsque la parole provenait de l’avant. Cependant, la précision diminue progressivement à mesure que l’on examine le tableau 1. La précision moyenne globale agrégée dans les quatre directions testées est la plus élevée au RSB le plus favorable, soit 88,4 % (+6 dB), et la plus faible au RSB de 0 dB. La baisse au RSB de 0 dB par rapport à celui de -3 dB semble provenir de confusions plus nombreuses en ce qui concerne la parole provenant de l’arrière au RSB de 0 dB.

Ces résultats peuvent être comparés aux données de confusion avant/arrière de Keidser et al. qui figurent dans le
tableau 2.

Tableau 2. Pourcentage moyen d’inversions de 40 réponses produites dans la dimension avant/arrière

Keidser et coll. ont examiné les confusions avant/arrière pour les 51 participants de leur étude. Comme dans la plupart des études de localisation, les individus ont eu le plus de mal à déterminer correctement si le signal de test provenait de l’avant ou de l’arrière. Les chercheurs ont constaté que les confusions gauche/droite étaient beaucoup moins courantes. Concernant les confusions avant/arrière, il s’agit du type d’erreur de localisation le plus courant, même chez les personnes ne souffrant pas de problèmes d’audition. Les confusions gauche/droite sont beaucoup moins fréquentes en raison des différences relativement plus importantes de niveau, de durée, de fréquence et de phase interauriculaires résultant de la fonction de transfert liée à la tête (HRTF) d’un côté de la tête à l’autre. L’impact de la HRTF est minime lors de l’écoute des signaux cibles provenant directement de l’avant ou de l’arrière. Ce sont surtout les effets de l’oreille externe, principalement spectraux, qui favorisent la localisation avant/arrière3. Ces effets sont très faibles par rapport à l’impact beaucoup plus important de la HRTF gauche/droite.

Le tableau 2, tiré de Keidser et coll. (2009), montre le pourcentage d’inversions avant/arrière sur 40 essais selon les réponses de 30 personnes ayant une audition normale (AN) et de 21 personnes ayant une perte auditive (PA). Les écarts-types figurent également entre parenthèses. Dans cette étude, cinq cibles différentes de parole ou de bruit ont été présentées aux participants depuis l’un des 20 haut-parleurs positionnés autour d’eux en cercle à des intervalles de 20°. La comparaison la plus directe entre les résultats humains de cette étude et la précision de détection des instruments auditifs ci-dessus est le pourcentage de confusions avant/arrière pour le signal de la parole. Les participants normo-entendants ont obtenu d’assez bons résultats, avec en moyenne entre 1 % et 6 % d’erreurs et des écarts-types allant de 1,8 % à 8,1 % pour tous les signaux de test. Le groupe de personnes en perte d’audition n’a, quant à lui, pas fourni de réponses aussi bonnes sans appareil. Leurs taux d’erreur variaient de 33 % à 38 % avec des écarts-types de 8 % à 13,2 % pour les signaux de test.

Ces participants non appareillés ont correctement localisé la parole provenant de l’avant/arrière 67 % du temps sans bruit indésirable. Nous pouvons faire une comparaison avec les conditions de test les plus proches pour les performances des détecteurs d’instruments auditifs aux deux RSB les plus favorables, +3 dB et +6 dB. Au RSB de +6 dB, les instruments auditifs ont correctement localisé la parole 99,1 % du temps lorsqu’elle provenait de l’avant, et 85,6 % du temps lorsqu’elle provenait de l’arrière. Les résultats étaient similaires au RSB de +3 dB, avec 100 % de réponses correctes depuis l’avant et 82,8 % de réponses correctes depuis l’arrière. Par souci d’impartialité, nous tenons à préciser que notre comparaison n’est pas idéale, car nous comparons de la parole dans le calme à de la parole dans le bruit. Cela permet toutefois de fournir un cadre de référence pour les performances de détection de l’instrument auditif par rapport à la capacité connue des porteurs d’instruments à localiser la parole dans la situation de test la plus difficile (avant/arrière). Il n’est pas déraisonnable d’affirmer que les résultats des instruments auditifs sont au moins comparables et démontrent probablement une amélioration par rapport à ce que peut détecter une personne en perte d’audition.

Quelques observations peuvent être faites à partir des résultats présentés ici. Il doit être évident que le passage de la plateforme North à Tempus entraîne une augmentation considérable de la vitesse et de la précision de détection. Cette vitesse et cette précision bénéficient d’une perpétuelle amélioration à chaque nouvelle itération de la plateforme allant de North à Tempus, et maintenant Discover et Discover Next. La précision de la plateforme North variait d’environ 30 % à près de 70 % dans la situation la plus favorable, incluant un délai de 17 secondes afin d’améliorer la précision. En parallèle, les résultats de la plateforme Tempus variaient d’environ 70 % à près de 90 % de précision avec au plus un délai de mesure de 6,2 secondes pour le traitement. On constate également que la précision de détection de Tempus demeure très élevée à près de 70 %, même à un RSB de -3 dB avec une mesure instantanée. Enfin, nous avons observé que la précision avant/arrière des détecteurs Tempus est au moins comparable à celle d’un groupe d’auditeurs en perte d’audition et, dans certains cas, bien meilleure (pour la parole provenant de l’avant). Nous espérons que cet article démontre en partie la valeur du traitement du signal binaural qui permet aux instruments auditifs de localiser la parole avec précision, même dans un environnement sonore très bruyant.

Je tiens à remercier la participation du Dr Ozmeral et du Dr Eddins qui ont collaboré étroitement avec nous au développement du « parkour » sonore et à la collecte de données dans leur laboratoire de l’Université de Floride du Sud.

Références

1Walden, B.E., et al., Predicting Hearing Aid Microphone Preference in Everyday Listening. Journal American Academy of Audiology, 2004. 15: p. 365-396.
2Keidser, G., et al., The effect of frequency-dependent microphone directionality on horizontal localization performance in hearing aid users. International Journal of Audiology, 2009. 48(11): p. 789-803.
3Van Den Bogaert, T., E. Carette, et J. Wouters, Sound localization with and without hearing aids. 2009.

Prolongez l’évaluation auditive au-delà de votre bureau, pour aller dans le monde réel. Vos clients peuvent faire l’essai d’instruments auditifs à la maison, au travail et partout où ils passent leur temps.