Les aides auditives modernes offrent toutes un certain degré de commutation automatique entre les programmes, qui se base sur la classification acoustique. Les plus simples de ces appareils sont disponibles depuis le tournant du siècle : difficile de croire que 19 ans se sont déjà écoulés depuis leur apparition ! Avez-vous déjà réfléchi à la manière dont le système de classification influe discrètement sur les performances des aides auditives ? Bien que certaines personnes souhaitent encore contrôler manuellement leurs aides auditives, la plupart des utilisateurs préfèrent oublier qu’ils les portent, les laissant ainsi s’adapter automatiquement aux changements d’environnements d’écoute. La précision de classification que ces appareils sont capables d’offrir revêt donc une grande importance.
À mesure que les aides auditives numériques ont évolué, leurs performances n’ont cessé de s’améliorer. Il en va de même de la complexité des systèmes de classification acoustique sousjacents, sur lesquels tout repose. Avec le lancement d’Indigo en 2005, Unitron a proposé un nouveau type de système de classification. Il s’agissait de notre premier classificateur entraîné par intelligence artificielle à distinguer quatre scènes acoustiques différentes : écoute dans le calme, parole dans le bruit, bruit et musique.
L’intégration de notre classificateur conversationnel à la plateforme North nous a donné une si grande confiance dans notre capacité à classer correctement sept environnements d’écoute différents que nous utilisons les résultats du classificateur pour piloter Log It All, une innovation d’Unitron. Alors que l’enregistrement des données fournit des informations sur ce que réalise l’aide auditive au fil du temps, la fonction Log It All indique combien de temps l’utilisateur passe dans chacun des sept environnements d’écoute. Elle présente ainsi un aperçu des habitudes d’écoute de ce dernier, permettant de personnaliser son expérience dans chaque environnement. Cependant, pour que Log It All soit utile, nous devons nous assurer que le classificateur catégorise avec précision ces environnements d’écoute.
La classification devient encore plus importante pour offrir une expérience d’écoute vraiment satisfaisante. Même si les paramètres de chaque environnement d’écoute sont parfaitement configurés dès le premier appareillage, ces réglages n’auront aucune utilité si le classificateur qui commande le changement automatique de programme ne détecte pas correctement l’environnement acoustique. Par exemple, si le classificateur estime que l’utilisateur écoute de la musique alors qu’il est en train de discuter dans un environnement calme, les performances de l’aide auditive ne seront pas d’un niveau satisfaisant, car elle a été optimisée pour un environnement d’écoute incorrect.
Par conséquent, une classification précise constitue un facteur de réussite absolument essentiel pour les aides auditives modernes. Chez Unitron, nous nous sommes posé les questions suivantes : procédons-nous correctement ? Avonsnous entraîné notre classificateur de manière à détecter avec précision les véritables environnements acoustiques dans lesquels les utilisateurs passent du temps ?
Pour répondre à ces interrogations, nous avons réalisé une étude comparative de notre classificateur conversationnel à l’Université de Floride du Sud, en collaboration avec les docteurs David Eddins et Erol Ozmeral.
Les classificateurs automatiques échantillonnent l’environnement acoustique dans lequel se trouve le patient et génèrent des probabilités pour chacune des destinations d’écoute disponibles dans le programme automatique. L’aide auditive active alors le programme d’écoute pour lequel la probabilité générée est la plus élevée. Elle change à nouveau de programme lorsque l’environnement acoustique évolue suffisamment pour qu’un autre environnement d’écoute engendre une probabilité plus élevée.
Cependant, tous les systèmes de classification ne fonctionnent pas de la même manière. Ce qui les rend uniques, c’est la philosophie des ingénieurs qui les ont créés. Ce sont ces philosophies qui déterminent leurs choix concernant les aspects qui distinguent un environnement acoustique donné de tous les autres. Réfléchissons au point suivant : exposées à un même environnement acoustique, les aides auditives de deux fabricants pourraient classer celui-ci différemment. Pourquoi ? Parce que les concepteurs des deux systèmes ont attribué des pondérations différentes aux diverses caractéristiques de cet environnement acoustique. Par conséquent, les appareils mesurent différents aspects de l’environnement et prennent des décisions divergentes concernant les valeurs des éléments qu’ils ont détectés. Ils peuvent ainsi parvenir à des conclusions différentes au sujet de l’environnement acoustique lui-même.
Considérons par exemple ces approches représentatives de la classification acoustique dans les aides auditives :
- En 1995, Kates a décrit un système basé sur l’analyse typologique de la modulation d’enveloppe et des caractéristiques spectrales pour classifier les bruits de fond dans onze classes : appartement, conversations ambiantes, repas, vaisselle, gaussien, imprimante, circulation, dactylographie, voix masculine, sirène et ventilation.
- En 2004, Nordqvist et Leijon ont utilisé des modèles de Markov cachés afin de mettre au point un système de classification robuste pour les aides auditives, composé de trois classes : parole dans le bruit de circulation, parole parmi des conversations ambiantes et parole sans interférences.
- En 2005, Büchler, Allegro, Launer et Dillier ont utilisé plusieurs approches pour établir comme classifications la parole dans le calme, la parole dans le bruit, le bruit et la musique. Les auteurs ont expliqué de nombreux types d’extractions de caractéristiques, puis ont comparé six classificateurs faiblement à modérément complexes, nécessaires à l’utilisation d’aides auditives.
- En 2010, Lamarche, Giguere, Gueaieb, Aboulnasr et Othman ont testé deux systèmes : un classificateur de distance minimale et un classificateur bayésien. Dans chaque cas, le classificateur est capable de s’adapter aux environnements spécifiques des utilisateurs et de définir ses réglages en conséquence. Ils ont choisi des caractéristiques distinctives permettant de différencier efficacement les environnements de parole, de bruit et de musique, notamment la profondeur des modulations d’amplitude, les plages de fréquence de modulation (de 0 à 4 Hz et de 4 à 16 Hz) et la variation temporelle de la fréquence instantanée. Ils ont constaté que les deux méthodes fonctionnaient bien. Mais elles ont eu tendance à fusionner les classes différemment lorsque la fusion ne portait plus sur trois classes, mais sur deux.
Cette liste n’est pas exhaustive, mais elle présente plusieurs approches disponibles pour les ingénieurs et scientifiques qui développent ces algorithmes. Bien que les philosophies suivies soient propres aux fabricants d’aides auditives, il est tout de même possible de comparer ces systèmes entre eux, ainsi qu’à un standard de référence, afin d’évaluer les atouts de différentes méthodes. À cette fin, nous avons développé une approche comparative basée sur la réplication d’environnements d’écoute réels dans des conditions contrôlées et reproductibles. Le présent article décrit cette approche et certains des résultats obtenus.
Nous avons choisi de comparer les classificateurs en appliquant deux types de comparaisons. Nous avons tout d’abord comparé tous les classificateurs d’aides auditives à un standard de référence humain. Nous avons ensuite comparé les résultats obtenus par les classificateurs des aides auditives de cinq fabricants. Les deux approches offrent des informations utiles.
Nous avons effectué toutes les mesures dans le laboratoire des Sciences de l’audition et de la parole (Auditory & Speech Sciences Laboratory) de l’Université de Floride du Sud. La cabine acoustique est illustrée à la Figure 1.
Le fauteuil situé au centre de la pièce est entourée d’un ensemble de 64 haut-parleurs installés à hauteur des oreilles et pilotés indépendamment. Bien que la pièce soit une cabine acoustique insonorisée classique, il est possible de fixer des panneaux en plexiglas sur les murs et au plafond afin de créer un environnement à la réverbération plus naturelle. Les participants humains sont assis dans le fauteuil au centre de la pièce durant l’évaluation des environnements d’écoute. Nous avons recueilli des données sur les aides auditives par groupes de trois appareils simultanément, au moyen d’un système anthropomorphique Klangfinder (Figure 2).
En remplaçant les participants humains au centre de la pièce par le Klangfinder, nous avons pu répéter toutes les conditions de test pour tous les sujets et toutes les aides auditives en un même lieu.
Nous avons commencé l’exercice de mesure en créant un parkour sonore, une sorte de course d’obstacles acoustique pour mettre les classificateurs à l’épreuve. Nous avons défini le parkour dans plusieurs dimensions, comme indiqué dans l’en-tête et la colonne de gauche du Tableau 1. Chaque ligne du Tableau 1 décrit la composition d’un fichier son unique, d’une durée de deux minutes et représentant un environnement d’écoute spécifique. Cette itération du parkour contient 26 environnements d’écoute (fichiers son). L’environnement d’écoute le plus simple est appelé « écoute dans le calme » (première ligne du tableau). Il ne comporte pas de parole, mais seulement le son faible d’un ventilateur fonctionnant de manière régulière avec un niveau global de 40 dB SPL. Cet environnement ne présente presque aucune modulation et aucun contraste temporel ou spectral, simplement un bruit faible et constant.
À mesure que vous parcourez le tableau vers le bas, les environnements d’écoute deviennent plus complexes. Vous pouvez par exemple constater dans la colonne de gauche que nous avons ajouté davantage de locuteurs et plusieurs types de bruit de fond. Nous avons également expérimenté différents niveaux de musique et de bruit de fond associés à la parole dans les environnements très complexes.
Les éléments de parole, de bruit et de musique comportent également une composante directionnelle. À mesure que des locuteurs sont ajoutés, leur orientation par rapport à l’avant des aides auditives est actualisée afin de refléter la position normale d’un locuteur se tenant debout ou assis dans cet environnement. Cette étape intègre tous les effets du traitement directionnel. Notez par exemple l’orientation des locuteurs (à gauche, à droite et devant) dans l’environnement « Métro ».
Cette « distribution spatiale des locuteurs » correspond à la situation que vous rencontreriez sur un quai du métro parisien si vous étiez assis entre deux amis, avec une autre personne devant vous en train de discuter. La composante directionnelle est également appliquée pour le bruit et la musique dans les fichiers son. Le Tableau 1 fournit un exemple représentatif des multiples itérations du parkour sonore qui ont été utilisées.
Chaque fichier son a été diffusé en boucle pendant huit heures de lecture continue pour chaque jeu d’aides auditives mis en place sur le Klangfinder. La plupart des appareils n’offraient aucun moyen direct de lire les probabilités de leur classificateur. Au lieu de cela, nous nous sommes appuyés sur les résultats de l’enregistrement des données correspondant à huit heures de lecture d’un fichier unique pour déterminer comment le classificateur de chaque fabricant a enregistré cet environnement d’écoute particulier. Étant donné que l’enregistrement des données du temps passé dans un environnement d’écoute spécifique est très probablement déterminé par les probabilités générées par le classificateur au fil du temps, la diffusion en boucle d’un fichier son unique pendant huit heures par session constituait la méthode la plus logique pour obtenir des résultats de classification stables.
Cette « distribution spatiale des locuteurs » correspond à la situation que vous rencontreriez sur un quai du métro parisien si vous étiez assis entre deux amis, avec une autre personne devant vous en train de discuter. La composante directionnelle est également appliquée pour le bruit et la musique dans les fichiers son. Le Tableau 1 fournit un exemple représentatif des multiples itérations du parkour sonore qui ont été utilisées.
Chaque fichier son a été diffusé en boucle pendant huit heures de lecture continue pour chaque jeu d’aides auditives mis en place sur le Klangfinder. La plupart des appareils n’offraient aucun moyen direct de lire les probabilités de leur classificateur. Au lieu de cela, nous nous sommes appuyés sur les résultats de l’enregistrement des données correspondant à huit heures de lecture d’un fichier unique pour déterminer comment le classificateur de chaque fabricant a enregistré cet environnement d’écoute particulier. Étant donné que l’enregistrement des données du temps passé dans un environnement d’écoute spécifique est très probablement déterminé par les probabilités générées par le classificateur au fil du temps, la diffusion en boucle d’un fichier son unique pendant huit heures par session constituait la méthode la plus logique pour obtenir des résultats de classification stables.
Avant d’examiner les résultats obtenus indirectement avec des aides auditives de cinq fabricants à l’aide des enregistrements des données, il sera instructif d’examiner plus en détail les résultats obtenus avec des aides auditives Unitron. Il est possible pour les docteurs Eddins et Ozmeral de lire instantanément les probabilités du classificateur de nos aides auditives plusieurs fois par seconde, tandis qu’elles sont générées. Les Figures 3 et 4 illustrent les probabilités réelles déterminées par le classificateur d’une paire d’aides auditives Unitron à l’aide de cette approche. Le premier cas (Figure 3) présente les probabilités générées par le classificateur sur une période de 60 secondes pour deux environnements d’écoute très simples.
La partie supérieure de la Figure 3 représente 60 secondes du fichier son d’origine. La première moitié de ce graphique représente les 30 dernières secondes de l’enregistrement (sous la forme d’un fichier WAV) de l’environnement produit par le son faible d’un ventilateur (première ligne du Tableau 1). La seconde moitié représente les 30 premières secondes de l’enregistrement de deux minutes (fichier WAV) d’une conversation dans le calme avec un locuteur unique (deuxième ligne du Tableau 1). Ces environnements d’écoute simples montrent comment le classificateur génère des probabilités représentant presque exclusivement un environnement acoustique unique.
Le centre de la partie inférieure de la figure est synchronisé chronologiquement avec les enregistrements. Il montre la distribution des probabilités pour chacun des sept environnements d’écoute possibles dans le classificateur Unitron. Les 30 premières secondes sont classifiées comme un environnement d’écoute dans le calme selon une probabilité de 100 % (1 sur l’axe des probabilités de classe). Étant donné qu’il s’agit de l’enregistrement du bruit faible d’un ventilateur mesuré à 40 dB SPL seulement dans une cabine insonorisée, cette classification est correcte. L’aide auditive passerait ces 30 secondes dans l’environnement d’écoute dans le calme de SoundNav.
Après 30 secondes, l’enregistrement bascule brusquement du bruit faible d’un ventilateur à 40 dB SPL à celui d’un locuteur unique à 55 dB SPL. De la 30e à la 37e seconde environ, les probabilités du classificateur sont en transition. Notez que la probabilité de la parole dans le calme commence immédiatement à augmenter, tandis que celle de l’écoute dans le calme diminue. Les deux probabilités se croisent à la 35e seconde environ. Dans cette zone de transition, SoundNav fait passer l’aide auditive de l’environnement d’écoute calme à celui de la parole dans un environnement d’écoute calme. En réalité, le classificateur détecte le changement presque immédiatement, mais nos développeurs ont volontairement choisi de ne pas laisser l’appareil réagir trop rapidement au moindre petit changement de l’environnement acoustique. Des changements rapides pourraient nuire à la qualité du son dans les environnements d’écoute dynamiques, puisque SoundNav tenterait de suivre toutes les fluctuations environnementales.
À partir de la 40e seconde et durant les 20 dernières secondes de l’enregistrement, la probabilité d’un environnement de parole dans le calme est presque égale à 100 %.
Les deux barres verticales sur la gauche et la droite de la section des proportions du classificateur indiquent la proportion du temps passé dans chacun des sept environnements d’écoute possibles pour les deux fichiers WAV de deux minutes. La barre rouge sur la gauche représente les deux minutes complètes du fichier WAV reproduisant le son faible d’un ventilateur. La barre rouge et bleue sur la droite indique la proportion du temps passé dans chacun des sept environnements d’écoute pendant les deux minutes du fichier WAV reproduisant une situation de parole dans le calme. La petite partie rouge représente le temps de transition au début de l’enregistrement de la situation de parole dans le calme.
La Figure 4 illustre ce qui se produit dans un environnement d’écoute plus complexe.
Nous pouvons ainsi observer l’impact sur les probabilités de deux environnements d’écoute beaucoup plus complexes. Dans les deux cas, l’utilisateur conduit une voiture et se trouve en compagnie de trois locuteurs. Dans la partie gauche (les 30 premières secondes), la voiture offre un environnement beaucoup plus calme, avec un niveau global de 70 dB environ et un rapport signal/bruit de -10 dB. Les niveaux généraux sont beaucoup plus difficiles durant les 30 secondes suivantes, avec un signal global de 80 dB et un rapport signal/bruit de -15 dB. Ces valeurs peuvent paraître pratiquement rédhibitoires pour un utilisateur d’aides auditives, mais le bruit de la voiture se caractérise par le fait que ce signal se situe presque exclusivement dans les très basses fréquences (au-dessous de 1 000 Hz). C’est pourquoi la quasi-totalité des paroles, qui se situent dans les hautes fréquences, sont clairement audibles dans les deux fichiers WAV, et ce, même si les niveaux de rapport signal/bruit peuvent sembler extrêmes.
À mesure que la voiture change de vitesse et que les locuteurs commencent à parler et s’interrompent, les probabilités du classificateur varient considérablement entre trois environnements d’écoute différents. Pendant les 30 premières secondes (les plus calmes), la probabilité la plus élevée est celle d’une conversation en petit groupe, avec une moyenne de 50 à 60 %. Sans surprise, la conversation dans le bruit est également détectée, variant de 0 à 50 %. La probabilité d’une situation de conversation en grand groupe est plus faible, mais présente tout au long de cet exemple, oscillant entre 15 et 20 %. Lorsque le niveau général augmente et que le rapport/signal bruit empire, le bruit de la voiture devient prédominant. Lorsque la voiture accélère, la probabilité générée par le classificateur concernant l’environnement de conversation dans le bruit augmente de façon notable, tandis que la probabilité d’une conversation en petit groupe chute au-dessous de 20 %.
Prenez un moment pour réfléchir à ces deux exemples. Le premier est simple. Ayant comparé les aides auditives de nombreux fabricants, il nous paraît évident que toutes réagiraient de la même manière dans les deux environnements d’écoute illustrés à la Figure 3.
Mais qu’en est-il concernant les deux environnements de la Figure 4 ? C’est ici que la philosophie entre en jeu. De nombreux facteurs interviennent dans ces environnements d’écoute et les développeurs doivent décider d’une marche à suivre. Quel est, par exemple, le plus important : éliminer le bruit de la voiture ou renforcer la clarté de la parole ? À quel stade le niveau général devient-il trop fort, au point qu’il ne soit même plus pertinent de se préoccuper de l’intelligibilité de la parole ? Cette décision est-elle basée sur le niveau général ou sur le rapport signal/ bruit ? Le parkour sonore est conçu pour examiner toutes ces possibilités afin de déterminer les choix correspondants qui ont été faits.
Le Tableau 1 répertorie des fichiers son représentant plusieurs environnements d’écoute généraux dans lesquels un utilisateur d’aides auditives pourrait se trouver en situation réelle. Comment avons-nous su que ces fichiers représentaient fidèlement les environnements d’écoute désignés ? Nous avons demandé à 17 personnes dotées d’une audition normale de définir les environnements d’écoute que chaque fichier son représentait au mieux, selon elles. Les réponses multiples étaient acceptées. Nos auditeurs ont écouté les fichiers son dans un ordre aléatoire. Ils ont entendu chaque fichier audio trois fois et ont décrit l’environnement pour chaque itération de chaque fichier. Nous avons ensuite regroupé toutes leurs réponses pour les comparer aux classificateurs d’aides auditives.
La Tableau 2 compare les descriptions fournies par nos auditeurs humains aux sept environnements d’écoute de notre classificateur :
Même si nous observons certains recoupements au sujet de la terminologie spécifique utilisée, nous avons noté des différences intéressantes concernant l’interprétation de la signification de ces termes. Trois appellations ont été utilisées aussi bien par les auditeurs que par le classificateur pour désigner des environnements d’écoute : « calme », « bruit » et « musique ». Cependant, l’interprétation de chaque terme était souvent assez spécifique. Le terme « calme » a été très peu utilisé par nos auditeurs et a rarement dépassé 3 %, quel que soit l’environnement d’écoute. Notre classificateur a par exemple considéré, avec une probabilité de 100 %, que le fichier reproduisant le son d’un ventilateur et figurant à la première ligne du Tableau 1 représentait un environnement « calme », car le niveau général n’atteignait que 40 dB SPL. Pourtant, nos auditeurs ont désigné cet environnement par le terme « bruit » dans 92 % des cas. Il est intéressant de noter que nos auditeurs ont attribué une probabilité de « bruit » supérieure à 27 % dans deux autres environnements d’écoute seulement, qui étaient tous les deux assez bruyants. Les fichiers son très bruyants contenaient tous de la parole et ont donc reçu les probabilités les plus élevées de « parole dans le bruit » de la part de nos auditeurs. Il en était de même pour le classificateur, à la différence qu’il a établi une distinction en fonction du type de bruit, selon qu’il s’agissait de conversations ambiantes entre plusieurs interlocuteurs ou de bruits de moteur, tels que des trains, des voitures ou le bruit de la circulation. Très souvent, ni les auditeurs, ni le classificateur n’ont détecté la « musique », et ils l’ont fait uniquement lorsqu’elle était beaucoup plus forte que tous les autres bruits environnants. En revanche, les auditeurs ont proposé une catégorie distincte de « parole en présence de musique » combinée avec de la « parole dans le bruit » dans sept environnements pour lesquels le classificateur a détecté un « grand groupe » (ce qui était bien le cas, mais le classificateur a ignoré la musique au profit de l’optimisation de la parole).
Les principales différences entre les auditeurs et le classificateur n’étaient pas tant qu’ils détectaient des environnements distincts, mais qu’ils donnaient la priorité à des aspects différents des fichiers son ou qu’ils établissaient des distinctions légèrement plus précises dans certains cas. Il est par exemple tout-à-fait possible d’affirmer qu’un ventilateur à 40 dB SPL constitue à la fois un environnement de calme et de bruit. Ces deux interprétations du même environnement d’écoute sont correctes.
Les résultats suivants montrent comment les produits haut de gamme de cinq fabricants, y compris Unitron, classent plusieurs environnements d’écoute par rapport à nos jeunes possédant une audition normale. Cet exercice n’a pas pour objectif de déterminer qui a raison ou qui a tort. Il s’agit plutôt d’une occasion de comparer différents classificateurs. Les résultats ont montré que certaines aides auditives sont plus performantes que d’autres en matière de classification. Les différences entre les philosophies des fabricants ont en outre tendance à se révéler.
Commençons à nouveau par un exemple simple. La Figure 5 présente la classification établie par les jeunes à l’audition normale et les cinq aides auditives pour un locuteur masculin situé à l’avant et s’exprimant à un niveau de 55 dB SPL.
Les différents fabricants appliquent des systèmes de classification distincts qui utilisent des noms différents pour les environnements d’écoute qu’ils classifient. En nous basant sur les descriptions des fabricants concernant l’objet de chaque destination d’écoute, nous avons regroupé les intitulés dans quatre catégories principales : calme, parole dans le bruit, bruit et musique (comme indiqué dans la légende de la Figure 5). Quels que soient les noms qui leur sont attribués, nous avons retrouvé ces quatre catégories générales dans toutes les aides auditives que nous avons testées. Pour présenter nos résultats, nous avons cependant utilisé des noms génériques afin de préserver l’anonymat des aides auditives et des fabricants concernés. Les personnes à l’audition normale ont classé ce fichier son comme un environnement d’écoute dans le calme dans 98 % des cas environ. Les cinq aides auditives ont fait de même.
La Figure 6 est un peu plus complexe que la Figure 5. Encore une fois, un locuteur unique s’exprime directement en face de l’auditeur, mais le niveau général du fichier son est maintenant de 80 dB SPL, avec un rapport signal/bruit nominal de 0 dB. Le bruit de fond est celui de rames du métro de Londres, et les niveaux variaient à mesure que les rames arrivaient et repartaient.
Les personnes à l’audition normale ont classé ce fichier comme un environnement de parole dans le bruit dans 83 % des cas environ. Ils l’ont également classé dans la catégorie « bruit » dans 4 % des cas et dans la catégorie « calme » dans 10 % des cas. En tenant compte des variations de niveau à mesure que les rames arrivaient et repartaient, il est juste d’affirmer qu’Unitron et le Concurrent D ont été les plus proches des classifications établies par les jeunes à l’audition normale. Le Concurrent A ne se situait pas très loin, mais les résultats des Concurrents B et C étaient très différents.
C’est ici que les différences de philosophie interviennent en premier lieu. Si nous examinons le Concurrent B, cet appareil a classé l’environnement dans la catégorie « bruit » dans 50 % des cas environ. Il apparaît clairement que les personnes à l’audition normale estiment en grande majorité qu’il s’agit de parole dans le bruit. Par conséquent, le rapport signal/bruit doit être raisonnable la plupart du temps. Cependant, à 80 dB, le niveau général est assez élevé. Nous en déduisons donc que le Concurrent B a une philosophie plus sensible au niveau général qu’au rapport signal/bruit dans ce cas, à l’instar des quatre autres aides auditives testées.
Le bruit ambiant devient encore plus complexe à la Figure 7. Ici, les auditeurs devaient évaluer un locuteur unique situé à l’avant, dans l’aire de restauration d’un centre commercial à l’heure du déjeuner. Le niveau général était légèrement inférieur à 70 dB, avec un rapport signal/bruit de 0 dB. Il s’agit d’un contexte complexe, avec de nombreuses conversations simultanées impliquant des dizaines de personnes, le bruit du service dans les cuisines et celui des passants.
Dans ce cas, les personnes à l’audition normale ont estimé à 47 % environ qu’il s’agissait d’une situation de parole dans le bruit, et à seulement 50 % environ qu’il s’agissait de bruit. La musique constitue les 3 % restants. Cette fois, les résultats du classificateur varient considérablement d’un fabricant à l’autre. Alors que tous les classificateurs ont identifié une situation de parole dans le bruit ou de bruit, les pourcentages obtenus pour les Concurrents A et C ont été totalement opposés à ceux des Concurrents B et D.
Ces résultats peuvent être considérés comme le parfait exemple des différences philosophiques appliquées à ce que Leonard Cornelisse, responsable expert en science de l’audition au sein d’Unitron, nomme le « point d’abandon ». Il définit le point d’abandon comme le niveau de signal et/ou le niveau de rapport signal/bruit auquel l’utilisateur d’aides auditives « abandonne » ses efforts pour suivre la conversation, car la situation est devenue trop difficile. Au-dessous du point d’abandon, l’auditeur s’efforcera de suivre la conversation et considérera qu’il s’agit d’un environnement de parole dans le bruit, attendant des aides auditives qu’elles mettent l’accent sur la clarté de la parole. Mais une fois le point d’abandon franchi, l’auditeur estime qu’il est trop difficile de suivre la conversation ou que le volume sonore est trop élevé pour écouter confortablement. Il préfère alors que les aides auditives privilégient le confort sur la clarté. Chaque classificateur est conçu pour prendre cette décision à un moment donné, et cette décision repose exclusivement sur des facteurs acoustiques (à moins que l’auditeur n’active un programme manuel pour l’ignorer).
La première conclusion de la Figure 7 est que les Concurrents A et C supposent un point d’abandon plus élevé que les Concurrents B et D. D’après Unitron et les personnes à l’audition normale, cet environnement se situe à proximité immédiate du point d’abandon, avec une répartition à parts presque égales entre la parole dans le bruit et le bruit. Il s’agit peut-être de l’exemple le plus parlant de l’impact de la philosophie sur les performances. Étant donné que le point d’abandon varie souvent de façon considérable entre différentes personnes concernées par une perte auditive, qui peut dire lequel de ces fabricants aura parfaitement raison pour un auditeur particulier ?
Le dernier exemple concerne l’écoute de la musique. La Figure 8 présente les résultats obtenus pour de la musique diffusée seule (sans aucun autre bruit ambiant), à un niveau de 65 dB. Ce niveau n’est pas élevé pour écouter de la musique et ne reproduit pas les conditions d’un concert. Il est plus proche du niveau auquel un utilisateur d’aides auditives pourrait écouter de la musique tout en cuisinant ou en lisant un livre, mais un peu plus fort que de la musique d’ambiance.
Dans cette situation, les personnes à l’audition normale, Unitron, le Concurrent A et le Concurrent C ont tous indiqué qu’il s’agissait essentiellement d’un environnement d’écoute de musique exclusivement. Les Concurrents B et D l’ont classé différemment dans au moins 33 % et 20 % des cas, respectivement. L’erreur la plus courante sur ce point a été une classification dans la catégorie « parole dans le bruit ». Cette situation est la seule dans laquelle un échec évident et injustifiable a été constaté. Confondre la musique et la parole dans le bruit revient à configurer une aide auditive pour un type de performances à l’exact opposé de celles souhaitables. Il est courant de définir un environnement musical de façon à obtenir une reproduction à large bande avec un traitement réduit. Mais la parole dans le bruit reçoit généralement un traitement important, basé sur des microphones directionnels et des algorithmes d’atténuation du bruit, destiné notamment à réduire l’amplification des basses fréquences. La musique de ce fichier audio a été diffusée à un azimut de 90 degrés et aurait été altérée par un microphone directionnel. Pour être juste, un tel échec a été rare pour les cinq classificateurs.
La classification des scènes sonores par les aides auditives est un sujet qui suscite peu d’attention. C’est pourtant l’un des composants les plus importants de l’architecture de ces appareils. Fonctionnant de manière invisible en arrière-plan, les classificateurs prennent toutes les décisions relatives aux paramètres de traitement les plus appropriées dans un environnement d’écoute donné. Par conséquent, ils ont un impact majeur sur la qualité d’écoute dont bénéficie l’utilisateur.
Les décisions de classification reposent autant sur la philosophie du fabricant que sur les paramètres acoustiques. De ce fait, tous les classificateurs ne sont pas égaux dans toutes les situations. La plupart du temps, en particulier dans les situations d’écoute simples, la quasi-totalité des principales aides auditives convergent vers des résultats très cohérents, qui correspondent à la classification qu’une personne dotée d’une audition normale attribuerait à l’environnement en question. Mais lorsque l’environnement d’écoute devient plus complexe, les différences en matière de philosophie, et parfois de performances, apparaissent de manière évidente.
Grâce à SoundNav, un classificateur entraîné à l’aide de l’intelligence artificielle, les résultats d’Unitron concordent grandement avec ceux de jeunes auditeurs possédant une audition normale.
Je tiens à saluer les contributions des docteurs Ozmeral et Eddins, avec qui nous avons étroitement collaboré pour mettre au point le parkour sonore et mener à bien la collecte de données dans leur laboratoire de l’Université de Floride du Sud.
Büchler, M., Allegro, S., Launer, S., & Dillier, S. (2005). Sound classification in hearing aids inspired by auditory scene analysis (Classification sonore dans les aides auditives, inspirée de l’analyse des scènes auditives). EURASIP Journal on Applied Signal Processing, 18, 2991–3002.
Kates, J. M. (1995). Classification of background noises for hearing-aid applications (Classification des bruits de fond pour les applications d’aides auditives). J Acoust Soc Am, 97(1), 461-470.
Lamarche, L., Giguere, C., Gueaieb, W., Aboulnasr, T., & Othman, H. (2010). Adaptive environment classification system for hearing aids (Système adaptatif de classification de l’environnement pour les aides auditives). J Acoust Soc Am, 127(5), 3124-3135. doi:10.1121/1.3365301
Nordqvist, P., & Leijon, A. (2004). An efficient robust sound classification algorithm for hearing aids (Un algorithme robuste et efficace de classification du son pour les aides auditives). J Acoust Soc Am, 115(6), 3033 -3041.