Desde que salieron los audífonos con micrófonos direccionales, la suposición común fue que los usuarios de audífonos miran a la persona a la que están escuchando. Esa teoría es interesante, generalizada, razonable y, con frecuencia, incorrecta. Piense en este ejemplo: usted está sentado en la tercera fila en una conferencia sobre audífonos. El profesor está parado en un podio a unos 60° a su izquierda, hablándole sobre el funcionamiento del micrófono direccional mientras describe una imagen de un diagrama polar con un puntero láser en la pantalla frente a usted. ¿Mira usted al conferencista o la pantalla?

Este no es de ninguna forma un caso aislado. Los meseros le dicen por encima del hombro en un restaurante, “¿le gustaría el pescado o la carne?” Sus hijos conversan con usted camino a la escuela desde el asiento trasero de una minivan. ¿Mira usted el camino o a sus hijos? Su esposa se inclina en la iglesia para susurrarle que tiene una mancha de café en la camisa. La gran mayoría de las veces, no miramos a la persona a la que estamos escuchando.

¿Con qué frecuencia se encuentran las señales de interés en algún lugar que no está directamente frente a nosotros? Walden et.al. (2004)1 pidió a 17 usuarios de audífonos que rastrearan varios aspectos de las señales y ruidos deseados por siete días durante un período de cuatro semanas. Los participantes informaron sobre 1,586 casos de experiencias de escucha donde el habla estaba presente. Indicaron que el habla provenía del frente para 1,268 de esos casos y que el habla provenía de otro lugar que no era el frente 318 veces. Por lo tanto, los oyentes informaron que el habla provenía del frente aproximadamente el 80 % del tiempo y de alguna otra dirección aproximadamente el 20 % del tiempo. Por lo tanto, el habla no viene del frente una cantidad de tiempo bastante considerable. Al asumir que las personas miran a la persona a la que escuchan, estaría en lo correcto aproximadamente el 80 % del tiempo para la mayoría de las personas.

¿Por qué entonces están las compañías de audífonos tan aferradas a esta idea? En parte, la razón fue histórica. No tuvimos opción. Los audífonos aún no podían determinar de qué dirección provenía el habla. Sin embargo, esa situación cambió con la introducción de SpeechPro en los audífonos de Unitron. SpeechPro utiliza el procesamiento binaural de señal acústica para determinar si el habla proviene del frente, la derecha, la izquierda o de atrás de un momento a otro. Al usar las entradas para ambos micrófonos en cada audífono y luego comunicarse entre los dispositivos en colaboración, es posible que todo el sistema binaural converja en la ubicación del habla deseada con gran precisión.

Existen ventajas potenciales sustanciales para conocer la dirección del habla deseada en relación con el ruido de fondo. No solo podemos apuntar el área objetivo de los micrófonos direccionales hacia el habla y lejos del ruido que lo distrae, sino que también podemos hacer otros ajustes específicos de dirección (acimut) para mejorar el rendimiento del audífono. Por ejemplo, el efecto de ubicación del micrófono (MLE) en los audífonos receptor en canal (RIC) con micrófonos en la parte superior del pabellón de la oreja es diferente desde la parte frontal que desde la parte posterior o lateral. La función de transferencia a cuenta del efecto de ubicación del micrófono siempre ha asumido una señal frontal porque teníamos que elegir una dirección y era la elección obvia. Sin embargo, si los audífonos ahora pueden determinar la dirección del habla, podemos alterar dinámicamente el efecto de ubicación del micrófono a los mejores valores posibles para obtener la orientación conocida de la señal del habla en el momento. Este ajuste puede mejorar la calidad del sonido y la percepción natural de la dirección. La eficacia de esos ajustes dinámicos dependerá de qué tan bien funcione realmente el sistema.

Nos dirigimos a la Universidad del Sur de Florida para ayudarnos a evaluar la precisión de nuestros detectores de acimut del habla. La capacidad de detección digital de cualquier tipo depende de un equilibrio de velocidad, certeza y capacidad de procesamiento. En esencia, cuantas menos muestras necesite para tomar una decisión sobre un ambiente de escucha, más rápida será su detección. Sin embargo, cuantas más muestras tome del ambiente, más seguro estará de que su detección es correcta. En otras palabras, cuanto más rápido sea, es probable que cometa más errores. Cuanto más lento sea, más se demorarán sus decisiones y estarán más desincronizados con el ambiente de escucha dinámico en el que se pueden convertir. El equilibrio ideal es ser lo suficientemente rápido para que sus decisiones sigan siendo relevantes en el ambiente de escucha en evolución, pero lo suficientemente lento para no cometer demasiados errores.

Una advertencia importante a esta regla es la capacidad de procesamiento del dispositivo que realiza el muestreo. Al igual que con las computadoras personales, cada generación de chips de procesamiento de señal en nuestros audífonos es progresivamente más rápida y potente que las anteriores. Por lo tanto, comparamos nuestra más reciente plataforma Tempus, así como la versión anterior de la plataforma North. Vea las Figuras 2a y 2b en la siguiente página.

El rendimiento de estas dos generaciones de dispositivos de Unitron se probó en el Laboratorio de ciencias auditivas y del habla de la Universidad del Sur de Florida (USF). Se presentaron pasajes de habla y ruido en una sala tratada con sonido que contenía una serie de 24 bocinas con presentaciones de cuatro acimutes (Vea la Figura 1). Los investigadores monitorearon la detección durante cuatro horas de muestreo utilizando intervalos de 40 segundos. Las muestras de habla y ruido consistieron en combinaciones de lo siguiente:

  • Cuatro fragmentos de discurso: masculino, femenino y turnos M/F
  • Cinco tipos diferentes de ruido de fondo difuso
  • Cuatro SNR: –3, 0, 3 y 6 dB
  • Cuatro acimutes: 0°, 90°, 180° y 270°

Figura 1. Habla (masculino, femenino o por turnos) de cualquiera de las bocinas con una + verde en cualquier momento. Uno de los cuatro tipos de ruido de las cuatro bocinas con rojo, en todo momento.

La precisión se calculó como el porcentaje de detecciones correctas de cada uno de los tres tiempos de inicio promediados durante un intervalo completo de 40 segundos. Los tiempos de inicio fueron:

  • 0 segundos de retardo= “Medida instantánea”, que se produce inmediatamente después de un cambio de dirección
  • Retardo de 5 segundos = “Compensación intermedia”
  • el intervalo restante después del tiempo de conmutación promedio = “Mejor compensación” para cada dispositivo dado
  • Plataforma North (Q2 Pro) = 17 segundos
  • Plataforma Tempus (Moxi Fit Pro) = 6.2 segundos

Observe que en la Figura 2a se demoró hasta 17 segundos en alcanzar la mejor compensación del Quantum2 Pro, pero solo 6.2 segundos para el Moxi Fit Pro (Figura 2b). El tiempo reducido requerido para converger en una detección confiable del Moxi Fit Pro se debió a las capacidades mejoradas de procesamiento de la plataforma Tempus con respecto a la plataforma North.

Figuras 2a y 2b: Precisión de detección de dos generaciones de productos de Unitron con SpeechPro. Resultados de precisión en la parte superior de 2a) con el dispositivo Quantum2 Pro (North) y en la parte inferior de 2b) Moxi Fit Pro (Tempus). Los resultados se muestran de izquierda a derecha en cada figura, ya que la relación señal/ruido (SNR) se desplaza de muy difícil (–3 dB) a muy fácil (+6 dB). La precisión se muestra en porcentaje del 0 % (0) al 100 % (1).

Hay tres tendencias visibles en las Figuras 2a y 2b. Primero, debería ser obvio que el Moxi Fit Pro (Tempus) más reciente arrojó resultados de detección mucho más precisos que el Quantum2 Pro (North) anterior. La precisión de detección del Quantum2 Pro osciló entre un poco menos del 30 % en la SNR de –3 dB hasta un poco menos del 70 % en una SNR de +6 dB. Mientras tanto, las puntuaciones de precisión de Moxi Fit Pro oscilaron entre aproximadamente el 70 % en el peor de los casos para la condición de una SNR de –3 dB hasta casi el 90 % correcto en la condición de una SNR de +6 dB. Por lo tanto, hubo una gran mejora en la precisión de detección asociada con el cambio a la nueva plataforma Tempus. Además, en el rango de la SNR (+3 dB a +6 dB) donde la mayoría de los usuarios de audífonos optaría por escuchar el habla en ruido, la precisión de detección de Moxi Fit Pro fue consistentemente superior al 80 % correcto.

En segundo lugar, aparte de la gran diferencia de rendimiento entre las dos plataformas, hubo un impacto general de la SNR en ambos conjuntos de audífonos. A medida que la SNR se volvió más favorable, de izquierda a derecha en cada gráfica, la precisión de detección también aumentó. Hubo un efecto de retardo de compensación. Dar al audífono unos segundos más para monitorear la dirección del habla también mejoró la precisión cuando los factores de la SNR y la plataforma eran constantes. En otras palabras, ignorar los primeros cinco segundos de cada ciclo de detección de 40 segundos y promediar solo los últimos 35 segundos arrojó una precisión de detección mejorada de la compensación intermedia frente a la medida instantánea de ambas plataformas. Esperar la mejor compensación proporciona resultados de detección aún más precisos. Este efecto fue más pronunciado con los dispositivos Quantum2 Pro. Pero, obtener la mejor compensación con el Quantum2 Pro requirió que los investigadores ignoraran los primeros 17 segundos completos de las muestras de detección. Mientras tanto, el Moxi Fit Pro convergió en la mejor compensación en solo 6.2 segundos, eso es tres veces más rápido.

Tercero, el Moxi Fit Pro superó al Quantum2 Pro tan rotundamente que la precisión de detección de la medición instantánea del Moxi Fit Pro a una SNR de –3 dB (el peor de los escenarios) fue igual a la mejor medición de compensación del Quantum2 Pro a una SNR de +6 dB (el mejor de los escenarios). Ese es un gran aumento de rendimiento.

Así que creamos un mejor detector del habla para nuestros audífonos y obtuvimos un gran aumento en la precisión de detección. Tener un audífono que pueda detectar con precisión la dirección del habla más del 80 % del tiempo con una SNR positiva suena bastante bien. Pero, ¿qué significa?

Si bien no tenemos datos de precisión de detección humana como parte de este estudio para comparar nuestros resultados, podemos consultar la literatura de otro estudio donde se midió la detección de acimut en personas con pérdida auditiva. Entonces podemos determinar qué tan emocionados deberíamos estar con estos resultados.

Al resumir los datos de Moxi Fit Pro en una sola tabla de direcciones de acimut por las SNR, podemos hacer una comparación aceptable con otra tabla en un estudio de Keidser et.al. (2009).2 Consulte la Tabla 1 a continuación para obtener los datos de detección de Moxi Fit Pro.

Tabla 1. Porcentaje de detecciones correctas de todas las mediciones en cada SNR y en cada dirección. La columna General es el porcentaje de todas las detecciones correctas por la SNR promediada en los cuatro acimutes probados.

El Moxi Fit Pro demostró una precisión casi perfecta al detectar el habla en los cuatro tipos de ruido de fondo cuando el habla provenía del frente. Sin embargo, la precisión disminuye gradualmente a medida que avanza y baja en la Tabla 1. La precisión promedio general contraída en las cuatro direcciones que se probaron es más alta en la SNR más favorable, 88.4 % (+6 dB) y más baja en la SNR de 0 dB. La caída a una SNR de 0 dB con respecto una SNR de –3 dB parece deberse a un aumento en las confusiones del habla proveniente de la parte posterior a una SNR de 0 dB.

Estos resultados se pueden comparar con los datos de confusión de la parte frontal y posterior de Keidser et.al. como se muestra en la
Tabla 2.

Tabla 2. El porcentaje promedio de reversiones de 40 respuestas producidas en la dimensión frontal y posterior (F/B)

Keidser et. al. observó las confusiones de la parte frontal y posterior de los 51 participantes en su estudio. Como en la mayoría de los estudios de localización, las personas tuvieron la mayor dificultad al determinar correctamente si la señal de la prueba provenía del frente o de atrás. Los investigadores encontraron que las confusiones entre la parte izquierda y la derecha eran mucho menos comunes. Las confusiones en la parte frontal y posterior son el tipo más común de error de localización, incluso entre las personas con audición normal. Las confusiones de la parte izquierda y derecha son mucho menos comunes debido a las diferencias relativamente mayores en el nivel interaural, el tiempo, la frecuencia y la fase que resultan de la función de transferencia relacionada con la cabeza (HRTF) de un lado de la cabeza al otro. La HRTF tiene un impacto mínimo al escuchar señales dirigidas directamente desde el frente o atrás. Son sobre todo los efectos del oído externo, principalmente los espectrales, los que contribuyen a la localización de la parte frontal o posterior3. Esos efectos son muy pequeños en relación con el impacto mucho mayor de la HRTF de la izquierda y derecha.

Tabla 2, de Keidser at. el. (2009), muestra el porcentaje de reversiones de la parte frontal y posterior de 40 ensayos en las respuestas de 30 personas con audición normal (NH) y 21 personas con pérdida auditiva (HI). Las desviaciones estándar también se muestran entre paréntesis. En este estudio, a los participantes se les presentaron los cinco objetivos diferentes de habla o ruido desde cualquiera de las 20 bocinas espaciadas alrededor de ellos en un círculo a intervalos de 20°. La comparación más directa entre los resultados humanos en este estudio y la precisión de detección del audífono arriba es el porcentaje de confusión de la parte frontal y posterior de la señal del habla. A los participantes con audición normal les fue bastante bien, promediando entre un 1 % y 6 % incorrectos con desviaciones estándar que van desde 1.8 % a 8.1 % en todas las señales de prueba. Sin embargo, las respuestas sin audífonos del grupo con pérdida auditiva no fueron tan buenas. Sus tasas de error oscilaron entre un 33 % y 38 % incorrecto con desviaciones estándar del 8 % al 13.2 % en las señales de prueba.

Estos participantes sin audífonos ubicaron correctamente el habla de la parte frontal y posterior el 67 % del tiempo sin ruido presente. Podemos comparar eso con las condiciones de prueba más similares del rendimiento de los detectores de los audífonos en las dos SNR más positivas, +3 dB y +6 dB. En la SNR de +6 dB, los audífonos detectaron correctamente la ubicación del habla el 99.1 % del tiempo desde el frente y el 85.6 % del tiempo desde la parte posterior. Los resultados fueron similares en el nivel de la SNR de +3 dB, 100 % correcto desde el frente y 82.8 % correcto desde atrás. Para ser justos, comparamos un prototipo del habla en silencio con un prototipo del habla en ruido, por lo que la comparación no es ideal. Sin embargo, puede proporcionar un marco de referencia del desempeño de la detección del audífono frente a la capacidad conocida de los usuarios de audífonos para ubicar el habla en el caso de la prueba más difícil (parte frontal/posterior). No es ilógico decir que los resultados del audífono son al menos comparables y tal vez representan una mejora sobre lo que una persona con pérdida auditiva puede detectar.

Podemos hacer algunas observaciones con base en los resultados que se presentaron aquí. Debe quedar claro que el cambio de la plataforma North a la plataforma Tempus genera un aumento considerable en la velocidad y precisión de la detección. Esta velocidad y precisión mejoran continuamente con cada nueva iteración de la plataforma que evoluciona de North a Tempus y ahora Discover y Discover Next. La precisión de la plataforma North osciló entre aproximadamente el 30 % y casi el 70 % en las condiciones más favorables, incluyendo un tiempo de retardo de 17 segundos para mejorar la precisión. Mientras tanto, los resultados de la plataforma Tempus oscilaron entre aproximadamente 70 % y casi 90 % de precisión con un retardo de medición de 6.2 segundos como máximo para el procesamiento. También se puede observar que la precisión de la detección de Tempus sigue siendo muy alta en casi el 70 %, incluso a una SNR de –3 dB con una medición instantánea. Finalmente, observamos que la precisión de la parte frontal y posterior de los detectores Tempus es al menos comparable a la de un grupo de oyentes con pérdida auditiva y, en algunos casos, mucho mejor (de habla desde el frente). Afortunadamente, este documento demuestra parte del valor del procesamiento de señales binaurales que permite a los audífonos determinar con precisión la ubicación del habla incluso en un entorno de escucha muy ruidoso.

Me gustaría reconocer los aportes del Dr. Ozmeral y el Dr. Eddins, quienes trabajaron estrechamente con nosotros para desarrollar el parkour de sonido y recopilaron los datos en su laboratorio de la Universidad de South Florida.

Referencias

1Walden, B.E., et al., Predicting Hearing Aid Microphone Preference in Everyday Listening. Journal American Academy of Audiology, 2004. 15: p. 365-396.
2Keidser, G., et al., The effect of frequency-dependent microphone directionality on horizontal localization performance in hearingaid users. International Journal of Audiology, 2009. 48(11): p. 789-803.
3Van Den Bogaert, T., E. Carette y J. Wouters, Sound localization with and without hearing aids. 2009.

Lleve la evaluación auditiva más allá de su consultorio, al mundo real. Sus clientes pueden experimentar el uso de los audífonos en casa, en el trabajo o donde sea que estén.