Como há aparelhos auditivos com microfones direcionais, espera-se que os usuários de aparelhos auditivos olhem para a pessoa que está falando. Essa teoria é interessante, difundida, razoável e, muitas vezes, incorreta. Por exemplo, você está sentado na terceira fila de uma palestra sobre aparelhos auditivos. O palestrante está em um palco aproximadamente 60° à sua esquerda, falando com você sobre o desempenho do microfone direcional enquanto explica a imagem de um gráfico polar com um apontador de laser em uma tela à sua frente. Você olhará para o palestrante ou para a tela?

Esse não é um caso isolado. Quando um garçom fala com você ao seu lado, em um restaurante, “você deseja peixe ou carne?” Quando seus filhos conversam com você do banco de trás do carro no caminho para a escola. Você olha para eles ou para a rua? Quando alguém do seu lado se aproxima e sussurra algo em seu ouvido. Não olhamos para a pessoa que está falando em grande parte do tempo.

Com que frequência os sinais de interesse estão localizados em algum lugar que não seja diretamente à nossa frente? Walden et.al. (2004)1 pediram a 17 usuários de aparelhos auditivos que monitorassem vários aspectos dos ruídos e sinais desejados por sete dias durante um período de quatro semanas. Os participantes relataram 1.586 experiências auditivas em que a fala estava presente. Eles indicaram que a fala vinha da frente em 1.268 dessas instâncias e de outras direções 318 vezes. No entanto, os ouvintes relataram que a fala vinha da frente em cerca de 80% do tempo, e os outros 20% de alguma outra direção. Portanto, a fala não costuma vir da frente em uma parte substancial do tempo. Ao presumir que as pessoas olham para a pessoa que está falando, você acertaria apenas 80% das vezes.

Então, por que as empresas de aparelhos auditivos estão presas nessa ideia? Em parte, o motivo é histórico. Não tínhamos escolha. Os aparelhos auditivos ainda não eram capazes de determinar de qual direção a fala estava vindo. No entanto, essa situação mudou com a introdução do SpeechPro nos aparelhos auditivos da Unitron. O SpeechPro utiliza o processamento de sinal acústico binaural para determinar se a fala está vindo da frente, da direita, da esquerda ou de trás, a cada momento. Utilizando as entradas para ambos os microfones em cada aparelho auditivo e utilizando uma comunicação colaborativa entre ambos os aparelhos, o sistema binaural converge, em sua totalidade, para a localização da fala com grande precisão.

Há vantagens substanciais em saber a direção da fala desejada em relação ao ruído de fundo. É possível se posicionar de forma a apontar os microfones direcionais em direção à fala e longe do ruído de fundo e também fazer ajustes específicos de outra direção (azimute) para melhorar o desempenho do aparelho auditivo. Por exemplo, o efeito de localização do microfone (MLE) para aparelhos do tipo receptor no canal (RIC) com microfones na parte superior do pavilhão auricular é diferente na parte frontal em relação à parte posterior ou lateral. A função de transferência para contabilizar o MLE sempre assumiu um sinal frontal, porque precisávamos escolher uma direção e essa era a escolha óbvia. No entanto, se os aparelhos auditivos agora podem determinar a direção da fala, podemos alterar dinamicamente o MLE para os melhores valores possíveis para a orientação conhecida do sinal de fala no momento. Esse ajuste pode melhorar a qualidade do som e a percepção natural da direção. A eficácia desses ajustes dinâmicos depende do quão bem o sistema realmente funciona.

Recorremos à University of South Florida para nos ajudar a avaliar a precisão dos nossos detectores azimute de fala. A proficiência em detecção digital de qualquer tipo depende de um equilíbrio entre os fatores velocidade, certeza e capacidade de processamento. Em essência, quanto menos amostras forem coletadas para tomar uma decisão sobre um ambiente de audição, mais rápida será a detecção. No entanto, quanto mais amostras forem coletadas do ambiente, maior será a certeza de que a detecção está correta. Em outras palavras, quanto mais rápido, maior a probabilidade de ocorrer erros. Quanto mais devagar, mais demoradas serão as decisões e menor sincronia elas terão com o ambiente de audição dinâmico. O equilíbrio ideal é ir rápido o suficiente para que as decisões ainda sejam relevantes para o ambiente de audição dinâmico, mas lento o suficiente para não cometer muitos erros.

Uma ressalva importante a essa regra é a capacidade de processamento do dispositivo que faz a amostragem. Assim como os computadores pessoais, cada geração de chip de processamento de sinal em nossos aparelhos auditivos é progressivamente mais rápida e mais poderosa do que as anteriores. Por isso, avaliamos a nossa plataforma Tempus mais recente, bem como a versão anterior da plataforma North. Veja as Figuras 2a e 2b na próxima página.

O desempenho dessas duas gerações de dispositivos Unitron foi testado no Auditory & Speech Sciences Laboratory da University of South Florida (USF). As passagens de fala e ruído foram apresentadas em uma sala acusticamente tratada contendo um conjunto de 24 alto-falantes com apresentações de quatro azimutes (veja a Figura 1). Os investigadores monitoraram a detecção por quatro horas de amostragem em intervalos de 40 segundos. As amostras de fala e ruído eram compostas por combinações de:

  • Quatro passagens de fala: homem, mulher e ambos intercambiando
  • Cinco tipos diferentes de ruído de fundo difuso
  • Quatro SNRs: –3, 0, 3 e 6 dB
  • Quatro azimutes: 0°, 90°, 180° e 270°

Figura 1. Fala (homem, mulher ou intercambiados) de qualquer um dos alto-falantes com uma marca + verde a qualquer momento. Um dos quatro tipos de ruído de todos os quatro alto-falantes com um sinal — vermelho o tempo todo.

A precisão foi calculada como a porcentagem de detecções corretas para cada um dos três tempos de início em um intervalo de 40 segundos completos. Os tempos de início foram:

  • Atraso de 0 segundo = “Medida Instantânea”, que ocorre imediatamente após uma mudança de direção
  • Atraso de 5 segundos = “Compensação intermediária”
  • O intervalo restante após o tempo médio de troca = “Melhor compensação” para cada dispositivo
  • Plataforma North (Q2 Pro) = 17 segundos
  • Plataforma Tempus (Moxi Fit Pro) = 6,2 segundos

Observe na Figura 2a que Quantum2 Pro demorou até 17 segundos para alcançar a melhor compensação, mas Moxi Fit Pro (Figura 2b) demorou apenas 6,2 segundos. O tempo reduzido necessário para convergir em uma detecção confiável para o Moxi Fit Pro é devido às capacidades de processamento aprimoradas da plataforma Tempus em relação à plataforma North.

Figuras 2a e 2b — Precisão de detecção de duas gerações de produtos da Unitron com SpeechPro. Resultados de precisão na parte superior usando 2a) dispositivo Quantum2 Pro (North) e na parte inferior 2b) Moxi Fit Pro (Tempus). Os resultados são exibidos da esquerda para a direita em cada figura, conforme a relação sinal-ruído (SNR) varia de muito difícil (–3 dB) para muito fácil (+6 dB). A precisão é mostrada por porcentagem, de 0% (0) a 100% (1).

Há três tendências visíveis nas Figuras 2a e 2b. A primeira tendência é que deve ser óbvio que a plataforma Moxi Fit Pro (Tempus) posterior produziu resultados de detecção muito mais precisos do que a plataforma Quantum2 Pro (North) anterior. A precisão de detecção do Quantum2 Pro variou de pouco menos de 30% com SNR de –3 dB a quase 70% com SNR de +6 dB. Enquanto isso, as pontuações de precisão do Moxi Fit Pro variaram de aproximadamente 70% no pior cenário para a condição de SNR –3 dB até quase 90% correta na condição de SNR +6 dB. Portanto, houve uma grande melhoria na precisão da detecção associada à mudança para a plataforma Tempus mais recente. Além disso, na faixa de SNR (+3 dB a +6 dB) onde a maioria dos usuários de aparelhos auditivos escolheria ouvir fala no ruído, a precisão de detecção do Moxi Fit Pro foi consistentemente acima de 80% correta.

A segunda tendência é que, além da grande diferença de desempenho entre as duas plataformas, houve um impacto geral da SNR em ambos os conjuntos de aparelhos auditivos. À medida que a SNR se tornava mais favorável, da esquerda para a direita em cada gráfico, a precisão da detecção também aumentava. Houve um efeito de atraso de compensação. Dar ao aparelho auditivo mais alguns segundos para monitorar a direção da fala também melhorou a precisão quando ambos os fatores plataforma e SNR eram constantes. Em outras palavras, ignorar os primeiros cinco segundos de cada ciclo de detecção de 40 segundos e calcular a média apenas dos últimos 35 segundos resultou, de forma consistente, na precisão de detecção aprimorada para a compensação intermediária em relação à medida instantânea para ambas as plataformas. Esperar a melhor compensação rendeu resultados de detecção ainda mais precisos. Esse efeito foi mais pronunciado com os dispositivos Quantum2 Pro. Porém, a obtenção da melhor compensação com o Quantum2 Pro exigiu que os investigadores ignorassem os primeiros 17 segundos de todas as amostras de detecção. Enquanto isso, o Moxi Fit Pro convergiu para a melhor compensação em apenas 6,2 segundos — três vezes mais rápido.

E a terceira tendência é que o Moxi Fit Pro superou o Quantum2 Pro em sua totalidade, de forma que a precisão de detecção da medida instantânea do Moxi Fit Pro à SNR de –3 dB (o pior cenário) foi igual à melhor medição de compensação do Quantum2 Pro à SNR de +6 dB (o melhor cenário). Isso é um grande salto de desempenho.

Portanto, desenvolvemos um melhor detector de fala para nossos aparelhos auditivos e obtivemos grande aumento na precisão da detecção. Ter um aparelho auditivo que pode detectar com precisão a direção da fala mais de 80% do tempo com uma SNR positiva parece ser muito bom. Mas o que isso significa?

Embora não tenhamos dados de precisão de detecção humana como parte deste estudo para comparar nossos resultados, é possível analisar a literatura de outros estudos onde a detecção de azimute foi medida em portadores de deficiência auditiva. Dessa forma, podemos decidir o quão animadores esses resultados são.

Ao coletar dados do Moxi Fit Pro em uma única tabela de direções de azimute por SNRs, podemos fazer uma comparação aceitável com outra tabela em um estudo de Keidser et.al. (2009). 2 Consulte a Tabela 1 abaixo para os dados de detecção do Moxi Fit Pro.

Tabela 1. Porcentagem de detecções corretas para todas as medições em cada SNR e para cada direção. A coluna Geral é a porcentagem de todas as detecções corretas por SNR em média em todos os quatro azimutes testados.

O Moxi Fit Pro demonstrou uma precisão quase perfeita ao detectar a fala em todos os quatro tipos de ruído de fundo quando a fala vinha da frente. No entanto, a precisão diminui gradualmente na direção transversal descendente da Tabela 1. A precisão média geral colapsada em todas as quatro direções que foram testadas é mais alta na SNR mais favorável, 88,4% (+6 dB) e menor na SNR de nível 0 dB. A queda na SNR de 0 dB em relação à SNR de –3 dB parece ser devido a um aumento nas confusões para fala vindo de trás na SNR de 0 dB.

Esses resultados podem ser comparados aos dados de confusão de fala vindo da frente/de trás de Keidser et.al., como mostrado na
Tabela 2.

Tabela 2. A porcentagem média de reversões de 40 respostas produzidas na dimensão frontal/traseira (F/B)

Keidser et. al. analisou as confusões de fala vindo da frente/de trás para os 51 participantes do seu estudo. Assim como a maioria dos estudos de localização, os participantes humanos tiveram mais dificuldade em determinar corretamente se o sinal de teste vinha da frente ou de trás. Os pesquisadores descobriram que as confusões de esquerda/direita eram muito menos comuns. As confusões de fala vindo da frente/de trás são o tipo mais comum de erro de localização, mesmo entre pessoas com audição normal. As confusões de esquerda/direita são menos comuns devido às diferenças relativamente maiores no nível interaural, tempo, frequência e fase resultante da função de transferência relacionada à cabeça (HRTF) de um lado da cabeça para o outro. A HRTF tem impacto mínimo durante a audição de sinais alvo diretamente da frente ou de trás. São principalmente os efeitos da orelha externa, principalmente espectrais, que contribuem para a localização frontal/traseira3. Esses efeitos são muito pequenos em relação ao impacto muito maior da HRTF com fala vindo da esquerda/direita.

A Tabela 2, de Keidser em. el. (2009), mostra a porcentagem de reversões frontais/traseiras em 40 tentativas em respostas de 30 participantes com audição normal (NH) e 21 deficientes auditivos (HI). Os desvios padrão também são mostrados entre parênteses. Neste estudo, os participantes foram apresentados a cinco alvos diferentes de fala ou ruído de qualquer um dos 20 alto-falantes posicionados em torno deles em um círculo em intervalos de 20°. A comparação mais direta entre os resultados humanos neste estudo e a precisão de detecção do aparelho auditivo acima é a porcentagem de confusões frontais/traseiras para o sinal de fala. Os participantes com audição normal se saíram muito bem, com média de 1% a 6% de erros, com desvios padrão variando de 1,8% a 8,1% em todos os sinais de teste. No entanto, as respostas do grupo de pessoas com perda auditiva sem o uso do aparelho auditivo não foram tão boas. Suas taxas de erro variaram de 33% a 38%, com desvios padrão de 8% a 13,2% nos sinais de teste.

Esses participantes sem o uso de aparelhos auditivos localizaram corretamente a fala vindo da frente/de atrás 67% do tempo sem nenhum ruído competitivo presente. Isso é comparável às condições de teste mais semelhantes para o desempenho dos detectores dos aparelhos auditivos nas duas SNRs mais positivas, +3 dB e +6 dB. Na SNR de +6 dB, os aparelhos auditivos detectaram corretamente a localização da fala 99,1% das vezes vindo da frente e 85,6% vindo de trás. Os resultados foram semelhantes no nível de SNR +3 dB, 100% corretos vindo da frente e 82,8% corretos vindo de trás. Para ser justo, estamos comparando um paradigma de fala em silêncio a um paradigma de fala no ruído, então a comparação não é ideal. No entanto, isso pode fornecer uma referência para o desempenho de detecção do aparelho auditivo em comparação com a capacidade conhecida dos usuários de aparelho auditivo em localizar a fala no caso de teste mais difícil (frente/atrás). É possível afirmar que os resultados do aparelho auditivo são pelo menos comparáveis e, talvez, uma melhoria em relação ao que um portador de deficiência auditiva pode ouvir.

Podemos fazer algumas observações com base nos resultados apresentados aqui. Deve ficar claro que a mudança da plataforma North para a plataforma Tempus produz um aumento considerável na velocidade e precisão de detecção. A velocidade e precisão melhoram continuamente com cada nova iteração da plataforma, avançando da North à Tempus e agora da Discover à Discover Next. A precisão da plataforma North variou de cerca de 30% a quase 70% na condição mais favorável, incluindo um tempo de atraso de 17 segundos para melhorar a precisão. Enquanto isso, os resultados da plataforma Tempus variaram de aproximadamente 70% a quase 90% de precisão com no máximo 6,2 segundos de atraso de medição para processamento. Também pode ser observado que a precisão de detecção de Tempus permanece muito alta, aproximadamente 70%, mesmo à SNR de –3 dB com medição instantânea. Por último, observamos que a precisão da fala vinda da frente/de trás dos detectores Tempus é pelo menos comparável à de um grupo de pessoas com perda auditiva e, em alguns casos, muito melhor (para a fala vindo da frente). Felizmente, esse artigo demonstra alguns dos valores do processamento de sinal binaural que permite aos aparelhos auditivos determinarem com precisão a localização da fala, mesmo em um ambiente auditivo barulhento.

Gostaria de agradecer as contribuições do Dr. Ozmeral e do Dr. Eddins que trabalharam de perto conosco para desenvolver o parkour de sons e realizar a coleta de dados em seu laboratório na University of South Florida.

Referências

1Walden, B.E., et al., Predicting Hearing Aid Microphone Preference in Everyday Listening. Journal American Academy of Audiology, 2004. 15: p. 365–396.
2Keidser, G., et al., The effect of frequency-dependent microphone directionality on horizontal localization performance in hearingaid users. International Journal of Audiology, 2009. 48(11): p. 789–803.
3Van Den Bogaert, T., E. Carette, and J. Wouters, Sound localization with and without hearing aids. 2009.

Amplie a avaliação auditiva, além do consultório, para o mundo real. Seus pacientes podem testar os aparelhos auditivos em casa, no trabalho ou onde costumam passar o tempo.