Détection de la parole selon la direction

Dès lors que les aides auditives équipées de microphones directionnels ont existé, on a supposé que les utilisateurs d’aides auditives regardaient la personne qu’ils écoutaient. Cette théorie est intéressante, très répandue, raisonnable, mais souvent incorrecte. Réfléchissez à cet exemple : vous êtes assis(e) au troisième rang lors d’une conférence sur les aides auditives. Le conférencier se tient sur une estrade à environ 60° sur votre gauche. Il évoque les performances des microphones directionnels tout en décrivant un diagramme de polarité à l’aide d’un pointeur laser dirigé sur l’écran situé devant vous. Regardez-vous le conférencier ou l’écran ?

Cette situation est loin de représenter un cas isolé. Au restaurant, les serveurs vous demandent par-dessus votre épaule si vous commandez le plat de poisson ou de viande. Imaginez aussi que vous discutez avec vos enfants sur le chemin de l’école alors qu’ils sont assis sur le siège arrière de la voiture. Est-ce que vous les regardez ou gardez les yeux sur la route ? Ou encore, à l’église, votre conjoint se penche pour vous murmurer que vous avez une tache de café sur la chemise. Bien souvent, nous ne regardons pas la personne que nous écoutons.

Arrive-t-il souvent que les signaux d’intérêt ne proviennent pas directement d’en face ? Walden et. al. (2004)1 ont demandé à 17 utilisateurs d’aides auditives de consigner divers aspects des signaux souhaités et des bruits pendant sept jours au cours d’une période de quatre semaines. Les participants ont rapporté 1 586 exemples d’expériences d’écoute dans lesquelles la parole était présente. Ils ont indiqué que la parole provenait de l’avant dans 1 268 de ces cas, et d’une autre origine dans 318 cas. Ces utilisateurs ont ainsi signalé que la parole provenait de l’avant environ 80 % du temps, alors qu’elle avait une autre origine environ 20 % du temps. Par conséquent, la proportion de situations dans lesquelles la parole ne provient pas de l’avant est assez importante. La présomption selon laquelle nous regardons la personne que nous écoutons n’est correcte que 80 % du temps seulement pour la plupart d’entre nous.

Pourquoi alors les fabricants d’aides auditives continuent-ils de se fier obstinément à cette idée ? La raison est en partie historique. Nous n’avions pas le choix. Les aides auditives n’étaient pas encore en mesure de localiser la provenance de la parole. Cependant, cette situation a changé avec l’intégration de SpeechPro aux aides auditives Unitron. SpeechPro a recours à un traitement binaural du signal acoustique pour déterminer en permanence si la parole provient de l’avant, de la droite, de la gauche ou de l’arrière. En utilisant les signaux d’entrée captés par les deux microphones de chaque aide auditive, puis en établissant une communication collaborative entre les deux appareils, l’ensemble du système binaural peut converger avec une grande précision sur la provenance de la parole désirée.

Connaître l’origine de la parole désirée par rapport au bruit de fond présente des avantages potentiels notables. Ainsi, nous pouvons non seulement diriger la zone cible des microphones directionnels vers la parole, à l’écart des bruits gênants, mais également effectuer d’autres ajustements spécifiques à la direction (azimut) afin d’améliorer les performances des aides auditives. Par exemple, l’effet de la position du microphone (MLE, Microphone Location Effect) pour les écouteurs de type intra-canal (RIC) dotés de microphones situés au sommet du pavillon de l’oreille est différent si les signaux proviennent de l’avant, de l’arrière ou d’un côté. La fonction de transfert appliquée pour tenir compte de l’effet MLE a toujours été basée sur la présomption que le signal provenait de l’avant. Il nous fallait en effet choisir une direction, et cette provenance constituait le choix évident. Cependant, puisque les aides auditives peuvent à présent déterminer la provenance de la parole, nous pouvons ajuster dynamiquement l’effet MLE sur les meilleures valeurs possibles pour l’orientation connue du signal vocal à l’instant T. Ce réglage peut améliorer la qualité sonore et la perception naturelle de la provenance de la parole. L’efficacité de ces ajustements dynamiques dépend des performances réelles de fonctionnement du système.

Nous nous sommes tournés vers l’Université de Floride du Sud pour nous aider à évaluer la précision de nos détecteurs d’azimut de la parole. L’efficacité des détecteurs numériques de tout type repose sur un équilibre optimal entre rapidité, certitude et capacité de traitement. En substance, plus le nombre d’échantillons nécessaires pour prendre une décision concernant un environnement d’écoute est faible, plus la détection est rapide. Cependant, plus vous prenez d’échantillons de l’environnement, plus vous êtes certain que votre détection est correcte. En d’autres termes, plus vous allez vite, plus vous risquez de faire des erreurs. Plus vous allez lentement, plus vos décisions sont tardives et plus elles peuvent être désynchronisées de l’environnement d’écoute dynamique. L’équilibre idéal consiste à opérer assez rapidement pour que vos décisions soient toujours en phase avec l’évolution de l’environnement d’écoute, mais suffisamment lentement pour ne pas commettre trop d’erreurs.

Une réserve importante concernant cette règle a trait à la capacité de traitement de l’appareil réalisant l’échantillonnage. Comme les ordinateurs personnels, les puces de traitement des signaux qui équipent nos aides auditives gagnent progressivement en rapidité et en puissance par rapport aux générations précédentes. De ce fait, nous avons réalisé une évaluation de notre plateforme Tempus la plus récente, ainsi que de notre version antérieure, la plateforme North. Reportez-vous aux Figures 2a et 2b, page suivante.

Les performances de ces deux générations d’aides auditives Unitron ont été testées dans le laboratoire des Sciences de l’audition et de la parole (Auditory & Speech Sciences Laboratory) de l’Université de Floride du Sud (USF). Des extraits de parole et de bruit ont été diffusés dans une cabine insonorisée équipée d’un ensemble de 24 haut-parleurs, selon quatre azimuts différents (voir la Figure 1). Les chercheurs ont contrôlé la détection durant quatre heures d’échantillonnage, à des intervalles de 40 secondes. Les échantillons de parole et de bruit associaient les éléments suivants :

Quatre extraits de parole : homme, femme et homme/femme alternativement
Cinq types différents de bruit de fond diffus
Quatre niveaux de rapport signal/bruit : -3, 0, 3 et 6 dB
Quatre azimuts : 0°, 90°, 180° et 270°

Figure 1 : Parole (homme, femme ou homme/femme alternativement) diffusée à tout moment par n’importe quel haut-parleur identifié par un symbole « + » vert. Un des quatre types de bruits diffusés en permanence par les quatre haut-parleurs identifiés par un symbole « - » rouge.

La précision a été calculée en établissant le pourcentage moyen de détections correctes pour chacun des trois temps de démarrage sur un intervalle complet de 40 secondes. Les temps de démarrage étaient les suivants :

délai de 0 seconde = « mesure instantanée », réalisée immédiatement lors d’un changement de direction
délai de 5 secondes = « décalage intermédiaire »
l’intervalle restant après le délai de commutation moyen = « meilleur décalage » pour chaque aide auditive donnée
plateforme North (Q2 Pro) = 17 secondes
plateforme Tempus (Moxi Fit Pro) = 6,2 secondes

Vous pouvez remarquer sur la Figure 2a qu’il a fallu jusqu’à 17 secondes pour atteindre le meilleur décalage avec le Quantum2 Pro, contre 6,2 secondes seulement pour le Moxi Fit Pro (Figure 2b). Le délai requis pour converger vers une détection fiable est inférieur avec le modèle Moxi Fit Pro, car les capacités de traitement de la plateforme Tempus sont supérieures à celles de la plateforme North.

Figure 2a et 2b : précision de détection de deux générations de produits Unitron dotés de SpeechPro. Résultats de précision en haut avec 2a) une aide auditive Quantum2 Pro (North) et en bas avec 2b) une aide auditive Moxi Fit Pro (Tempus). Les résultats sont affichés de gauche à droite sur chaque figure, le rapport signal/bruit passant de très défavorable (-3 dB) à très favorable (+6 dB). La précision est indiquée en pourcentage, de 0 % (0) à 100 % (1).

Les Figures 2a et 2b montrent trois tendances. Premièrement, il apparaît de manière évidente que le modèle Moxi Fit Pro (Tempus), plus récent, a donné des résultats de détection beaucoup plus précis que le Quantum2 Pro (North), plus ancien. La précision de détection du Quantum2 Pro s’est échelonnée d’un peu moins de 30 % à un rapport signal/bruit de -3 dB à un peu moins de 70 % à un rapport signal / bruit de +6 dB. Dans le même temps, le Moxi Fit Pro a présenté des scores de précision variant de 70 % environ au plus bas, en présence d’un rapport signal/bruit de -3 dB, à près de 90 % avec un rapport signal/bruit de +6 dB. Ainsi, l’adoption de la nouvelle plateforme Tempus s’est accompagnée d’une amélioration considérable de la précision de détection. De plus, dans la plage de rapport signal/bruit (+3 dB à +6 dB) qui représenterait pour la plupart des utilisateurs d’aides auditives une situation d’écoute de parole dans le bruit idéale, la précision de détection du Moxi Fit Pro a toujours été supérieure à 80 %.

Deuxièmement, en plus de la grande différence de performances entre les deux plateformes, le rapport signal/bruit a eu un impact global sur les deux paires d’aides auditives. À mesure que le rapport signal/bruit devenait plus favorable, de gauche à droite sur chaque graphique, la précision de détection augmentait également. Un effet de délai de décalage s’est produit. Accorder quelques secondes supplémentaires à l’aide auditive pour analyser la provenance de la parole a également amélioré la précision lorsque les facteurs « plateforme » et « rapport signal/bruit » étaient constants. En d’autres termes, le fait d’ignorer les cinq premières secondes de chaque cycle de détection de 40 secondes et de n’établir la moyenne que des 35 dernières secondes a permis d’obtenir une précision de détection supérieure pour le décalage intermédiaire par rapport à la mesure instantanée, et ce, pour les deux plateformes. Attendre le meilleur décalage a produit des résultats de détection encore plus précis. Cet effet a été plus prononcé avec les aides auditives Quantum2 Pro. Cependant, pour obtenir le meilleur décalage avec le modèle Quantum2 Pro, les chercheurs ont dû ignorer l’intégralité des 17 premières secondes des échantillons de détection. Dans le même temps, le modèle Moxi Fit Pro a convergé sur le meilleur décalage en 6,2 secondes seulement, soit trois fois plus rapidement.

Troisièmement, le modèle Moxi Fit Pro a surpassé le Quantum2 Pro avec une telle supériorité que la précision de détection de la mesure instantanée du Moxi Fit Pro avec un rapport signal/bruit de -3 dB (la situation la plus défavorable) a été égale à la mesure du meilleur décalage du Quantum2 Pro avec un rapport signal/bruit de +6 dB (la situation la plus favorable). Il s’agit d’un immense bond en avant en matière de performances.

Nous avons donc mis au point un détecteur de parole plus performant pour nos aides auditives et avons réalisé d’énormes progrès concernant la précision de détection. Une aide auditive capable de détecter précisément la provenance de la parole 80 % du temps à un rapport signal/bruit positif semble représenter un véritable atout. Mais qu’est-ce que cela signifie ?

Même si, dans le cadre de cette étude, nous ne disposons pas de données sur la précision de détection de l’oreille humaine auxquelles nous pourrions comparer nos résultats, nous pouvons rechercher s’il existe une autre étude dans laquelle la détection d’azimut a été mesurée sur des personnes malentendantes. Nous pourrons alors déterminer dans quelle mesure ces résultats sont exceptionnels.

En compilant les données du Moxi Fit Pro dans un tableau unique répertoriant les directions d’azimut en fonction du rapport signal/bruit, nous pouvons établir une comparaison acceptable avec un autre tableau proposé dans une étude de Keidser et. al. (2009).2 Reportez-vous au Tableau 1 ci-dessous pour consulter les données de détection du Moxi Fit Pro.

Tableau 1. Pourcentage de détections correctes pour toutes les mesures à chaque rapport signal/bruit et pour chaque direction. La colonne Global indique le pourcentage moyen de toutes les détections correctes en fonction du rapport signal/bruit sur les quatre azimuts testés.

Le Moxi Fit Pro a fait preuve d’une précision de détection de la parole presque parfaite dans les quatre types de bruit de fond lorsque la parole provenait de l’avant. Cependant, la précision diminue progressivement à mesure que l’on parcourt le Tableau 1 horizontalement et verticalement. La précision moyenne globale compilée dans les quatre directions testées est la plus élevée (88,4 %) en présence du rapport signal/bruit le plus favorable (+6 dB) et la plus faible avec un rapport signal/bruit de 0 dB. Le fait que les valeurs relevées à un rapport signal/bruit de 0 dB soient inférieures à celles obtenues avec un rapport signal/bruit de -3 dB semble être dû à une plus grande confusion concernant la parole provenant de l’arrière en présence d’un rapport signal/bruit de 0 dB.

Ces résultats peuvent être comparés aux données de confusion avant/arrière mises en évidence dans l’étude de Keidser et. al. et indiquées dans le
Tableau 2.

Tableau 2. Pourcentage moyen des inversions dans la dimension avant/arrière (Av./Ar.) sur 40 réponses

Keidser et. al. ont examiné les confusions avant/arrière relevées pour les 51 participants à leur étude. Comme dans la plupart des études de localisation, les oreilles humaines ont eu le plus de difficulté à déterminer correctement si le signal de test provenait de l’avant ou de l’arrière. Les chercheurs ont constaté que les confusions gauche/droite étaient beaucoup moins courantes. Les confusions avant/arrière sont le type d’erreur de localisation le plus fréquent, même chez les normo-entendants. Les confusions gauche/droite sont beaucoup moins courantes en raison des différences interaurales de niveau, de temps, de fréquence et de phase relativement plus importantes, celles-ci résultant de la fonction de transfert relative à la tête (HRTF) d’un côté de la tête à l’autre. La fonction HRTF a un impact minimal lors de l’écoute de signaux cibles provenant directement de l’avant ou de l’arrière. Ce sont essentiellement les effets de l’oreille externe, principalement spectraux, qui contribuent à la localisation avant/arrière3. Ces effets sont très faibles par rapport à l’impact beaucoup plus important de la fonction HRTF entre la gauche et la droite.

Le Tableau 2, tiré de l’étude de Keidser et. al. (2009), montre le pourcentage d’inversions avant/arrière sur 40 essais dans les réponses produites par 30 personnes normo-entendantes (NH) et 21 personnes malentendantes (HI). Les écarts-types sont également indiqués entre parenthèses. À l’occasion de cette étude, les participants ont entendu les cinq signaux cibles différents de parole ou de bruit diffusés par n’importe lequel des 20 haut-parleurs disposés en cercle autour d’eux à des intervalles de 20°. La comparaison la plus directe entre les résultats humains obtenus dans cette étude et la précision de détection des aides auditives présentée au-dessus concerne le pourcentage de confusions avant/arrière pour le signal vocal. Les participants normo-entendants ont obtenu de très bons résultats, avec des taux moyens de réponses incorrectes compris entre 1 et 6 % et des écarts-types compris entre 1,8 et 8,1 % pour tous les signaux de test. En revanche, les réponses fournies par les personnes concernées par une perte auditive et non équipées d’aides auditives n’ont pas été aussi bonnes. Elles ont obtenu des taux d’erreur compris entre 33 et 38 % de réponses incorrectes, avec des écarts-types de 8 à 13,2 % pour tous les signaux de test.

Ces participants non dotés d’aides auditives ont correctement localisé la parole provenant de l’avant/arrière dans 67 % des cas, en l’absence de bruits indésirables. Nous pouvons comparer ces résultats à ceux obtenus dans les conditions d’essai les plus similaires mises en place pour évaluer les performances des détecteurs des aides auditives aux deux rapports signal/bruit les plus favorables : +3 dB et +6 dB. Avec un rapport signal/bruit de +6 dB, les aides auditives ont correctement détecté l’origine de la parole dans 99,1 % des cas lorsqu’elle provenait de l’avant et dans 85,6 % des cas lorsqu’elle provenait de l’arrière. Les résultats ont été semblables en présence d’un niveau de rapport signal/bruit de +3 dB, avec 100 % de réponses correctes pour la parole provenant de l’avant et 82,8 % de réponses correctes pour la parole provenant de l’arrière. Dans un souci d’honnêteté, il convient de préciser que nous avons comparé une situation de parole dans le calme à une situation de parole dans le bruit. Cette comparaison n’est donc pas idéale. Elle peut cependant fournir un cadre de référence concernant les performances de détection des aides auditives par rapport à la capacité connue des utilisateurs d’aides auditives à localiser la parole dans la situation de test la plus difficile (avant/arrière). On peut raisonnablement affirmer que les résultats des aides auditives sont au moins comparables et peut-être supérieurs aux capacités de détection d’une personne malentendante.

Les résultats présentés dans ce document peuvent donner lieu à quelques observations. Il apparaît clairement que le passage de la plateforme North à la plateforme Tempus s’accompagne d’une augmentation considérable de la rapidité et de la précision de détection. Cette rapidité et cette précision ont progressé continuellement avec chaque nouvelle plateforme, depuis le lancement de North et de Tempus, puis à présent avec Discover et Discover Next. La plateforme North a offert une précision comprise entre 30 % environ et près de 70 % dans la situation la plus favorable, et nécessité un délai de 17 secondes pour obtenir une précision optimale. La plateforme Tempus a offert, quant à elle, des résultats de précision s’élevant de 70 % environ à près de 90 %, avec un délai de mesure de 6,2 secondes au maximum pour le traitement. On peut également constater que la précision de détection de Tempus reste à un niveau très élevé de 70 % environ, même en présence d’un rapport signal/bruit de -3 dB avec une mesure instantanée. Enfin, nous avons observé que la précision avant/arrière des détecteurs Tempus est au moins comparable à celle d’un groupe de personnes malentendantes et que leur précision est même bien meilleure dans certains cas (pour la parole provenant de l’avant). Nous espérons que cet article aura démontré une partie de l’intérêt du traitement binaural du signal, celui-ci permettant aux aides auditives de déterminer avec précision la provenance de la parole même dans un environnement d’écoute très bruyant.

Je tiens à saluer les contributions des docteurs Ozmeral et Eddins, avec qui nous avons étroitement collaboré pour mettre au point le parkour sonore et mener à bien la collecte de données dans leur laboratoire de l’Université de Floride du Sud.

Références

¹Walden, B.E., et al., Predicting Hearing Aid Microphone Preference in Everyday Listening (Prédire les préférences relatives aux microphones des aides auditives dans l’écoute au quotidien). Journal American Academy of Audiology, 2004. 15: p. 365-396.
²Keidser, G., et al., The effect of frequency-dependent microphone directionality on horizontal localization performance in hearingaid users (L’effet de la directivité des microphones liée à la fréquence sur les performances de localisation horizontale chez les utilisateurs d’aides auditives). International Journal of Audiology, 2009. 48(11): p. 789-803.
³Van Den Bogaert, T., E. Carette, and J. Wouters, Sound localization with and without hearing aids (Localisation du son avec et sans aides auditives). 2009.

Prolongez l’évaluation auditive au-delà de votre cabine. Vos clients peuvent découvrir les aides auditives chez eux et dans leur environnement quotidien.