Desde que existen los audífonos con micrófonos direccionales, la creencia común ha sido que los usuarios de audífonos miran a la persona a la que están escuchando. Esa teoría es interesante, difundida, razonable y, a menudo, incorrecta. Piensa en este ejemplo: está sentado en la tercera fila en una conferencia sobre audífonos. El disertante está de pie en un podio aproximadamente 60° a su izquierda, está hablando sobre el rendimiento de los micrófonos direccionales mientras describe la imagen de un gráfico polar con un puntero láser en la pantalla ubicada frente a ti. ¿Está mirando al orador o la pantalla?

Este no es en absoluto un caso aislado. Los camareros hablan por encima de tu hombro en un restaurante para preguntarte: “¿prefiere pescado o carne vacuna?” Tus hijos conversan con usted camino a la escuela desde el asiento trasero de la camioneta. ¿Miras el camino o los miras a ellos? Tu mujer se inclina en la iglesia para susurrarte que tienes una mancha de café en la camisa. La mayor parte del tiempo no miramos a las personas a las que estamos escuchando.

¿Cómo de frecuente las señales de interés se encuentran en otras partes y no directamente frente a nosotros? Walden et.al. (2004)1 pidieron a 17 usuarios de audífonos que realizaran un seguimiento de diversos aspectos de las señales deseadas y los ruidos durante siete días en un periodo de cuatro semanas. Los participantes informaron acerca de 1586 instancias de experiencias auditivas en las cuales había habla. Indicaron que el habla provenía del frente en 1268 de esos casos y que el habla provenía de otros lugares en 318 casos. Por lo tanto, los oyentes informaron que el habla provenía del frente aproximadamente el 80 % de las veces y que provenía de otras direcciones en aproximadamente el 20 % de los casos restantes. Por lo tanto, en una cantidad considerable de veces, el habla no proviene del frente. Si supone que las personas miran a aquellos con los que están hablando, estaría en lo cierto aproximadamente el 80 % de las veces.

Entonces, ¿por qué los fabricantes de audífonos están tan arraigados a esa idea? En parte, porque la razón es histórica. No teníamos alternativa. Los audífonos aún no podían determinar de qué dirección provenía el habla. Sin embargo, la situación cambió con la aparición de SpeechPro en los audífonos de Unitron. SpeechPro usa el procesamiento de la señal acústica binaural para determinar si el habla proviene del frente, la derecha, la izquierda o de atrás según el momento. Al utilizar las entradas a ambos micrófonos en cada audífono y luego, hacer que los dispositivos se comuniquen entre sí, es posible que todo el sistema binaural converja en la ubicación del habla deseada con gran precisión.

Saber de qué dirección proviene el habla en relación con el ruido de fondo puede ofrecer ciertas ventajas. No solo podemos apuntar el área objetivo de los micrófonos direccionales hacia el habla y alejarnos del ruido molesto, también podemos realizar otros ajustes de dirección específicos (acimut) para mejorar el rendimiento del audífono. Por ejemplo, el efecto de ubicación del micrófono (MLE) de los audífonos RIC con micrófonos ubicados en la parte superior del pabellón auditivo es diferente desde el frente que desde atrás o de un costado. En la función de transferencia que da cuenta de las mediciones del efecto de localización del micrófono (MLE) siempre se ha dado por hecho que la señal proviene del frente porque teníamos que elegir una dirección y esa era la opción más obvia. Sin embargo, si los audífonos ahora pueden determinar la dirección del habla, podemos modificar dinámicamente las MLE a los mejores valores posibles para la orientación conocida de la señales de voz en el momento. Este ajuste puede mejorar la calidad del sonido y la percepción natural de la dirección. Qué tan eficaces sean esos ajustes dinámicos dependerá de cómo funcione realmente el sistema.

Nos dirigimos a la Universidad del Sur de Florida para que nos ayudara a establecer la referencia de la precisión de nuestros detectores de acimut del habla. Cualquier tipo de aptitud en la detección digital depende de un equilibrio entre velocidad, certeza y capacidad de procesamiento. En esencia, cuanto menos muestras necesite para tomar una decisión acerca de un entorno de escucha, más rápida será la detección. Sin embargo, cuanto más muestras tome del entorno, más seguro estará de que la detección es correcta. En otras palabras, si se apresura, es probable que cometa más errores. Si va más despacio, tardará más en tomar decisiones y se producirá una falta de sincronización con el entorno de escucha dinámico. El equilibrio ideal se logra al ir lo suficientemente rápido como para que sus decisiones sean relevantes para el entorno de escucha cambiante, pero lo suficientemente despacio como para no cometer demasiados errores.

Una salvedad importante a esta regla es la capacidad de procesamiento del dispositivo al tomar las muestras. Al igual que con los ordenadores personales, cada generación de chip de procesamiento de señal en nuestros audífonos es cada vez más rápida y más potente que la anterior. Por lo tanto, hemos tomado como referencia nuestra plataforma Tempus más reciente y también la versión anterior de la plataforma North. Consulte las figuras 2a y 2b en la página siguiente.

El rendimiento de estas dos generaciones de dispositivos Unitron se probó en el Laboratorio de ciencias auditivas y del lenguaje de la Universidad del Sur de Florida (USF). Se presentaron fragmentos de habla y ruido en una sala insonorizada que contenía 24 altavoces con presentaciones de cuatro acimuts (ver la figura 1). Los investigadores supervisaron la detección durante cuatro horas de toma de muestras mediante intervalos de 40 segundos. Las muestras de habla y ruido consistían en combinaciones de los siguientes elementos:

  • Cuatro fragmentos discursivos: por turnos de hombre, mujer y H/M
  • Cinco tipos diferentes de ruido ambiente difuso
  • Cuatro SNR: –3, 0, 3 y 6 dB
  • Cuatro acimuts: 0°, 90°, 180° y 270°

Figura 1. Habla (hombre, mujer y alternados) desde cualquiera de los altavoces con un + verde en cualquier momento. Uno de los cuatro tipos de ruido de los cuatro altavoces con – rojo en todo momento.

Se calculó la precisión como porcentaje de detecciones correctas para cada uno de los tres tiempos de inicio promediados durante un intervalo completo de 40 segundos. Los tiempos de inicio fueron:

  • demora de 0 segundos = “Medición instantánea”, que se produce inmediatamente después de un cambio de dirección
  • Demora de 5 segundos = “Compensación intermedia”
  • el intervalo restante tras el tiempo de cambio promedio = “Mejor compensación” para cada dispositivo presentado
  • Plataforma North (Q2 Pro) = 17 segundos
  • Plataforma Tempus (Moxi Fit Pro) = 6,2 segundos

Tenga en cuenta que en la figura 2a, se tardó 17 segundos en alcanzar la mejor compensación para Quantum2 Pro, pero solo 6,2 segundos para Moxi Fit Pro (figura 2b). El tiempo reducido necesario para converger en una detección confiable para Moxit Fit Pro se debió a mejores capacidades de procesamiento de la plataforma Tempus en relación con la plataforma North.

Figuras 2a y 2b: precisión de la detección de dos generaciones de productos de Unitron con SpeechPro. Resultados de precisión en la parte superior usando 2a) el dispositivo Quantum2 Pro (North) y en la parte inferior 2b) Moxi Fit Pro (Tempus). Los resultados se muestran de izquierda a derecha en cada figura a medida que la relación señal-ruido (SNR) va de más difícil (–3 dB) a muy fácil (+6 dB). La precisión se muestra como porcentaje de 0 % (0) a 100 % (1).

En las figuras 2a y 2b pueden verse tres tendencias. En primer lugar, debería ser obvio que el dispositivo más nuevo Moxi Fit Pro (Tempus) arroje resultados de detección más precisos que el dispositivo anterior Quantum2 Pro (North). La precisión de la detección del Quantum2 Pro fluctuó entre menos del 30 % en la SNR de –3 dB y poco menos del 70 % en la SNR de +6 dB. Mientras tanto, las puntuaciones de exactitud de Moxi Fit Pro fluctuaron entre aproximadamente el 70 % en el peor de los casos para la condición de SNR de –3 dB y casi el 90 % de corrección en la condición de SNR de +6 dB. Por lo tanto, hubo una gran mejoría en la precisión de la detección asociada con el cambio a la plataforma Tempus más nueva. Por otra parte, en el rango de SNR (de +3 dB a +6 dB) donde la mayoría de los usuarios de audífono elegirían escuchar habla en ruido, la precisión de detección de Moxi Fit Pro se mantuvo constantemente por cima del 80 % de precisión.

En segundo lugar, aparte de la marcada diferencia en el rendimiento entre las dos plataformas, hubo un impacto general de la SNR en ambos juegos de audífonos. A medida que la SNR se volvía más favorable, de izquierda a derecha en cada gráfico, también aumentaba la precisión de la detección. Hubo un efecto de compensación retardada. Al concederle al audífono unos segundos más para controlar la dirección del habla, también mejoró la precisión cuando los factores de plataforma y SNR eran constantes. En otras palabras, al ignorar los primeros cinco segundos de cada ciclo de detección de 40 segundos y promediar solamente los últimos 35 segundos se obtuvo sistemáticamente una mejor precisión de exactitud para la compensación intermedia frente a la medición simultánea de ambas plataformas. Al esperar por la mejor compensación se obtuvieron resultados de detección más precisos. Este efecto fue más pronunciado con los audífonos Quantum2 Pro. Sin embargo, para obtener la mejor compensación con el Quantum2 Pro era necesario que los investigadores ignoraran los primeros 17 segundos completos de las muestras de detección. Mientras tanto, el Moxi Fit Pro convergió en la mejor compensación en tan solo 6,2 segundos, eso es tres veces más rápido.

En tercer lugar, el rendimiento de Moxi Fit Pro fue tan superior al de Quantum2 Pro que la precisión de detección de la medición instantánea de Moxi Fit Pro a –3 dB de SNR (el peor escenario) fue equivalente a la medición de la mejor compensación del Quantum2 Pro a +6 dB de SNR (el mejor escenario posible). Eso significa un gran aumento en el rendimiento.

Entonces, creamos un mejor detector del habla para nuestros audífonos y logramos una mejoría sustancial en cuanto a la precisión de la detección. Contar con un audífono que puede detectar de forma precisa la dirección del habla más del 80 % de las veces en una SNR positiva suena muy bien. Pero, ¿qué significa esto?

Mientras no contemos con datos de precisión de detección humana como parte de este estudio con los cuales comparar nuestros resultados, podemos examinar publicaciones de otro estudio en el cual se haya medido la detección de acimut en personas con pérdida auditiva. Entonces, podremos decidir que estamos muy emocionados con estos resultados.

Al resumir los datos de Moxi Fit Pro en una sola tabla de direcciones de acimut por SNR, podemos establecer una comparación aceptable con otra tabla de un estudio de Keidser et.al. (2009).2 Véase la tabla 1 a continuación que contiene los datos de detección de Moxi Fit Pro.

Tabla 1. Porcentaje de detecciones correctas de todas las mediciones en cada SNR y cada dirección. La columna General corresponde al porcentaje de todas las detecciones correctas de SNR promediadas entre los cuatro acimuts sometidos a prueba.

El Moxi Fit Pro demostró una precisión casi perfecta al detectar habla entre los cuatro tipos de ruido ambiente cuando la voz provenía del frente. Sin embargo, la precisión disminuye gradualmente al pasar a la Tabla 1. La precisión promedio general resumida en las cuatro direcciones que se sometieron a prueba es más alta en la SNR más favorable, 88,4 % (+6 dB) y la menos favorable en el nivel de SNR de 0 dB. La disminución en la SNR de 0 dB en relación con la SNR de –3 dB parece deberse a un aumento en la confusión del habla que proviene desde atrás a una SNR de 0 dB.

Estos resultados pueden compararse con los datos de confusión delantera/trasera de Keidser et.al. que se muestran en
la tabla 2.

Tabla 2. El porcentaje promedio de retrocesos de 40 respuestas producidas en la dimensión delantera/trasera (D/T).

Keidser et. al. examinaron las confusiones delanteras/traseras de los 51 participantes del estudio. Como con la mayoría de los estudios de localización, a las personas les costó más determinar correctamente si la señal de la prueba provenía del frente o de atrás. Los investigadores descubrieron que las confusiones de izquierda/derecha era mucho menos comunes. Las confusiones entre delante/atrás son el tipo más frecuente de error de localización, incluso entre personas con audición normal. Las confusiones entre izquierda/derecha son mucho menos frecuentes debido a la diferencias relativamente más grandes en el nivel, el tiempo, la frecuencia y la fase interaural que resultan de la función de transferencia relacionada con la cabeza (HRTF) de un lado de la cabeza al otro. La HRTF tiene un impacto mínimo al escuchar las señales objetivo directamente desde el frente o desde atrás. Se trata principalmente de los efectos del oído externo, especialmente el espectral que contribuyen a la localización delantera/trasera3. Esos efectos son muy pequeños en relación con el impacto mucho mayor de la HRTF de la izquierda/derecha.

La tabla 2 de Keidser at. el. (2009) muestra el porcentaje de reversiones delanteras/traseras de 40 ensayos en respuestas de 30 personas con audición normal y 21 personas con pérdida auditiva. Las desviaciones estándar también se muestran entre paréntesis. En este estudio, a los participantes se les presentaron cinco objetivos de habla o ruido diferentes provenientes de cualquiera de los 20 altavoces dispuestos alrededor de ellos en círculo a intervalos de 20°. La comparación más directa entre los resultados en seres humanos en este estudio y la precisión de detección del audífono anterior es el porcentaje de confusiones delanteras/traseras para la señal del habla. A los participantes con audición normal es fue bastante bien, solo presentaron entre un 1 % y un 6 % de error con desviaciones estándar que comprendían entre 1,8 % y 8,1 % entre todas las señales de prueba. Sin embargo, las respuestas sin audífono del grupo de personas con pérdida auditiva no fueron tan buenas. Sus tasas de error fluctuaron entre el 33 % y el 38 % con desviaciones estándar del 8 % al 13,2 % entre todas las señales de prueba.

Estos participantes sin audífonos localizaron correctamente el habla proveniente desde atrás/adelante el 67 % de las veces sin la interferencia de ruido. Podemos comparar que las condiciones de prueba más similares para el rendimiento de los detectores de audífono en las dos SNR más positivos, +3 dB y +6 dB. En la SNR de +6 dB, los audífonos detectaron correctamente la ubicación del habla el 99,1 % de las veces desde adelante y el 85,6 % de las veces desde atrás. Los resultados fueron similares en el nivel de SNR de +3 dB, 100 % correcto desde el frente y 82,8 % correcto desde atrás. Para ser justos, estamos comparando un paradigma de habla en un entorno silencioso con un paradigma de habla en ruido, de modo que la comparación no es ideal. Sin embargo, puede proporcionar un marco de referencia para el rendimiento de detección del audífono en comparación con la capacidad conocida de los usuarios de audífonos para localizar el habla en el caso de prueba más difícil (delante/atrás). No es descabellado decir que los resultados del audífono son como mínimo similares y quizás mejores que los que una persona con pérdida auditiva puede detectar.

Podemos hacer algunas observaciones en función de los resultados que se presentan aquí. Debería quedar claro que al cambiar de una plataforma North a la plataforma Tempus se obtiene un aumento considerable en la velocidad y la precisión de la detección. Esta velocidad y precisión mejoran constantemente con cada nueva repetición de la plataforma, al avanzar desde North a Tempus y ahora con Discover y Discover Next. La precisión de la plataforma North fluctuó entre aproximadamente el 30 % y casi el 70 % en la condición más favorable, incluidos los 17 segundos de tiempo de retardo para mejorar la precisión. Mientras tanto, los resultados de la plataforma Tempus fluctuaron aproximadamente entre el 70 % y casi el 90 % de precisión con un retardo en el procesamiento de la medición de 6,2 segundos como máximo. También se puede observar que la precisión de Tempus se mantiene en casi el 70 %, incluso en una SNR de –3 dB con medición instantánea. Por último, hemos visto que la precisión desde adelante/atrás de los detectores Tempus es como mínimo similar a la de un grupo de oyentes con pérdida auditiva y, en algunos casos, mucho mejor (en el caso del habla desde el frente). Con suerte, este informe demuestra parte del valor del procesamiento de la señal binaural, que permite a los audífonos determinar con precisión la ubicación del habla incluso en un entorno de escucha muy ruidoso.

Me gustaría agradecer la colaboración del Dr. Ozmeral y el Dr. Eddins que trabajaron codo a codo con nosotros para desarrollar este recorrido del sonido y a proceder con la recolección de datos en el laboratorio de la Universidad del Sur de Florida.

Referencias

1Walden, B.E., et al., Predicting Hearing Aid Microphone Preference in Everyday Listening. Journal American Academy of Audiology, 2004. 15: p. 365-396.
2Keidser, G., et al., The effect of frequency-dependent microphone directionality on horizontal localization performance in hearingaid users. International Journal of Audiology, 2009. 48(11): p. 789-803.
3Van Den Bogaert, T., E. Carette, and J. Wouters, Sound localization with and without hearing aids. 2009.

Expande la valoración auditiva más allá de tu oficina y llévala al mundo real. Tus pacientes pueden probar los audífonos en su casa, en su trabajo o dondequiera que les apetezca.