Sistemas Sensoriais/Sistema Auditivo/Processamento Timbre: diferenças entre revisões

[edição não verificada][edição não verificada]
Conteúdo apagado Conteúdo adicionado
Add references link
m Fix spelling errors
Linha 8:
A pesquisa sobre a codificação da altura no sistema auditivo está em grande parte focada em identificar os processos neurais que refletem estes processos de extração, ou em encontrar o ‘ponto final’ desse processo: uma representação explícita e robusta da altura como o ouvinte o percepciona. Ambas as abordagens têm tido algum sucesso, com resultados indicando a existência de ‘Neurónios sensíveis a alturas específicas’ nas consideradas ‘áreas da altura’. No entanto, ainda é discutível se a atividade destas áreas está realmente relacionada com a altura ou se elas simplesmente exibem uma representação seletiva dos parâmetros relacionados com a altura. Por um lado, a demonstração da ativação dos neurónios ou áreas neuronais específicas como resposta a vários sons semelhantes que apenas diferem na altura, mesmo que apresentem diferenças substanciais nas suas características físicas, providencia uma evidência correlativa convincente de que estas regiões estão envolvidas na codificação da altura. Por outro lado, é difícil provar com evidências causais que estes neurónios representam a altura, sendo necessário uma combinação de abordagens de gravação in vivo de forma a demonstrar uma correspondência entre estas respostas e a identificação da altura (por exemplo: [[wikipedia:Psychophysics|respostas psicofisiológicas]], e não apenas a periodicidade do estímulo), e a manipulação directa da actividade nestas células para demonstrar desequilíbrios previsíveis ou dificuldade na percepção da altura.
 
Devido à sua natureza abstrata, a altura constitui uma área de pesquisa ativa por resolver. Por essa razão, a discussão incidirá sobre os aspectos mais físicos da percepção da altura, isto é, a frequência de som (para tons puros) e, de forma mais geral, a periodicidade do estímulo. Especificamente, irá ser feita a distinção e definição concreta entre os conceitos de periodicidade e altura. De seguida, será feita uma descrição breve dos principais mecanismos computacionais que podem ser implementados pelo sistema auditivo para extrair informações relacionadas com a altura dos estímulos sonoros. Posteriormente, será delineado a representação e o processamento dos parâmetros da altura na [[Sensory Systems/Auditory System#Anatomy of the Auditory System|cóclea]], na [[Sensory Systems/Auditory System#Anatomy of the Auditory System|via auditiva ascendente sub-cortical]] e, por fim, serão apresentadas perspectivas mais controversas em torno do [[Sensory Systems/Auditory System#Anatomy of the Auditory System|córtex auditivo primário]] e outros, e serão avaliadas as evidências de ‘neurónios da altura' ou ‘áreas da altura' nestas regiões corticais.
 
== Periodicidade e altura ==
Linha 34:
[[File:BMResolved.jpg|thumb|413x413px|'''Harmónicos resolvidos e não resolvidos.''' Esquema de um espectro, padrão de excitação e simulação da vibração da membrana basilar (MB) para uma nota complexa com uma F0 de 100 Hz e frequências harmónicas de igual amplitude. Como pode ser visto no padrão de excitação e nas vibrações MB, harmónicos de ordem maior são “não resolvidos”, isto é, não há separação efectiva dos harmónicos individuais. '' (Descrição adaptada do autor original. Disponível em :'' http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html'')'']]
 
Estas duas indicações (espectrais e temporais) são as bases de duas classes principais de modelos de extração da altura<ref name=":0" />. O primeiro destes são os métodos no domínio temporal, que utilizam indicações temporais para avaliar se um som é composto por segmentos repetidos e, em caso afirmativo, a taxa de repetição. Um método geralmente proposto para aplicar esta técnica é a [[wikipedia:Autocorrelation|autocorrelação]]. Uma função de autocorrelação envolve essencialmente encontrar os atrasos de tempo entre dois pontos de amostragem que darão a correlação máxima: por exemplo, uma onda de som com uma frequência de 100''Hz'' (ou período, T=10 milissegundo smilissegundos) teria uma correlação máxima se as amostras forem tiradas em intervalos de 10 milissegundos. Para uma onda de 200''Hz'', o atraso que gera uma correlação máxima seria de 5 milissegundos, mas também a 10 milissegundos, 15 milissegundos, e assim por diante. Assim, se esta função for realizada em todas as frequências que compõem um complexo harmónico com F0=100''Hz'' (tendo assim sobre-tons harmónicos a 200''Hz'', 300''Hz'', 400''Hz'', e assim por diante), e os intervalos de tempo resultantes que dão uma correlação máxima forem somados, eles iriam ‘votar’ coletivamente em 10 milissegundos - a periodicidade do som. A segunda classe de estratégias de extracção da altura são os métodos no domínio da frequência, nos quais a altura é extraída através da análise do espectro de frequências de um som para calcular F0. Por exemplo, o processo de ‘Corresponência de modelos padrão’ - como ‘[https://www.researchgate.net/figure/270665432_fig4_Figure-4-Harmonic-sieve-with-four-different-pitch-values-f-0-up-to-the-fourth-harmonic | REVER SE O LINK FUNCIONA o filtro de harmónicos]’ - propõem que o espectro de frequência de um som seja simplesmente comparado com modelos harmónicos padrão - sendo que a melhor correspondência representa o F0 correcto <ref>Gerlach, S., Bitzer, J., Goetze, S. & Doclo, S. Joint estimation of pitch and direction of arrival: improving robustness and accuracy for multi-speaker scenarios. ''EURASIP Journal on Audio, Speech, and Music Processing'' '''2014,''' 1 (2014).
</ref>.
 
Existem limitações em ambas as classes de explicações. Os métodos no domínio da frequência exigem que as frequências harmónicas sejam resolvidas - ou seja, cada harmónico deve ser representado como uma banda de frequência distinta (ver a figura à direita). No entanto, harmónicos de ordem superior, que não são resolvidos devido à maior largura de banda na representação fisiológica de frequências mais elevadas (consequência da organização logarítmica [[wikipedia:Tonotopy|Organizaçãoorganização tonotópica logarítmica]] da membrana basilar) conseguem evocar uma altura correspondente a F0. Os modelos temporais não têm este problema, uma vez que a função de autocorrelação deve produzir a mesma periodicidade, independentemente da função ser executada em um ou mais canais de frequência. Contudo, é difícil atribuir os limites inferiores das frequências evocadoras da altura à autocorrelação: estudos psicofísicos demonstram que é possível percepcionar a altura de complexos harmónicos com frequências fundamentais ausentes tão baixas quanto 30Hz; o que corresponde a um atraso de amostragem superior a 33 milissegundos - muito maior do que o atraso de ~10 milissegundos geralmente observado na sinalização neural <ref name=":0" />.
 
[[File:Sine_Phase_Alternating_Phase.jpg|thumb|354x354px|'''Harmónicos da fase sinusoidal''' (esquerda) '''e da fase alternada''' (direita). Estes complexos têm a mesma F0 (125 Hz) e os mesmos números harmónicos, mas a altura do complexo à direita é uma oitava maior do que a altura do complexo à esquerda. Ambos os complexos foram filtrados ​​entre 3900 e 5400 Hz. ''(Descrição do autor original. Disponível em:'' http://www.europeanmedical.info/auditory-nerves/resolved-and-unresolved-harmonics-341-defining-resolvability.html'')'']]
Linha 48:
Experiências eletrofisiológicas identificaram respostas neuronais no sistema auditivo ascendente que são consistentes com esta noção. A partir do nível da cóclea, os movimentos da membrana basilar (MB) mapeados tonopicamente em resposta a estímulos auditivos estabelecem uma [[wikipedia:Place_theory_(hearing)|selectividade espacial]] para a composição da frequência ao longo do eixo da MB. Estas representações são reforçadas por uma [[wikipedia:Volley_theory#Phase-locking|fixação de fase]] das fibras do nervo auditivo (FNA) para os componentes de frequência aos quais ela responde. Este mecanismo para representação temporal da composição da frequência é ainda melhorado de várias formas, tais como a [[wikipedia:Lateral_inhibition|inibição lateral]] na sinapse da célula ciliada / gânglio espiral <ref>Rask-Andersen, H., Tylstedt, S., Kinnefors, A., & Illing, R. B. (2000). Synapses on human spiral ganglion cells: a transmission electron microscopy and immunohistochemical study. ''Hearing research'', ''141''(1), 1-11.</ref>, suportando a noção de que esta representação precisa é essencial para a codificação da altura.
 
Assim, nesta fase, os padrões dos picos temporais de fase fixa das FNA contêm provavelmente uma representação implícita da periodicidade. Esta hipótese foi testada por Cariani e Delgutte em <ref>Cariani, P. A., & Delgutte, B. (1996). Neural correlates of the pitch of complex tones. I. Pitch and pitch salience. ''Journal of Neurophysiology'', ''76''(3), 1698-1716.</ref>. Ao analisar a distribuição dos intervalos inter-picos de todas as ordens (IIP) nanas FNA de gatos, foi mostrado que o IIP mais comum era a periodicidade do estímulo, e o rácio de Pico-Média destas distribuições aumentava para estímulos complexos que evocavam percepções da altura mais salientes. Com base nestes resultados, os autores propuseram a “hipótese do intervalo predominante”, na qual um grupo com o código dos IIP de todas as ordens ‘vota’ na periodicidade - embora, esta descoberta seja uma consequência inevitável das respostas de fase fixa das FNA. Além disso, existem evidências de que a selectividade espacial para os componentes de frequência também é crítica. Ao cruzar um estímulo de baixa frequência com um transportador de alta frequência, Oxenham et al transpuseram a estrutura fina temporal da sinusóide de baixa frequência para as regiões de maior frequência ao longo da MB.<ref>Oxenham, A. J., Bernstein, J. G., & Penagos, H. (2004). Correct tonotopic representation is necessary for complex pitch perception. ''Proceedings of the National Academy of Sciences of the United States of America'', ''101''(5), 1421-1425. </ref>. Isto levou a uma deficiência nas capacidades de discriminação da altura. Assim, tanto a codificação espacial e temporal representam informações relacionadas com altura nas FNA.
 
 
Linha 61:
De facto, estudos relativos a lesões auditivas demonstraram a importância do córtex auditivo para a percepção da altura. Obviamente, a incapacidade na detecção da altura do som no seguimento de lesões no córtex auditivo pode simplesmente refletir uma função passiva de transmissão para o córtex: por onde a informação subcortical tem de passar para afetar o comportamento. Ainda assim, estudos como os desenvolvidos por Whitfield demonstraram que, provavelmente, tal não será o que se verifica na realidade: enquanto gatos aos quais fora removido o córtex auditivo (por ablação) podiam ser re-treinados para reconhecer tons complexos formados por três frequências distintas, os animais perderam seletivamente a habilidade de generalizar estes tons para outros sons complexos com a mesma altura<ref>Whitfield IC (1980). "Auditory cortex and the pitch of complex tones." J Acoust Soc Am. 67(2):644-7.</ref>. Por outras palavras, enquanto a composição harmónica podia influenciar o comportamento, relações harmónicas (tais como sugestões relativas à altura do som) não tinham esta capacidade. Por exemplo, o animal lesionado conseguia responder corretamente a um tom puro de 100Hz, mas não a um tom complexo composto pelos seus sobre-tons harmónicos (a 200Hz, 300Hz, e assim sucessivamente). Esta observação sugere que o córtex auditivo tem um papel fundamental na extração de informação relativa à altura do som.
 
Estudos primários com Magnetoencefalografia (MEG) sugeriram que A1 continha um mapa da altura. Esta conclusão baseou-se nas observações de que um tom puro e o seu complexo harmónico com a frequência fundamental ausente (FFA) produzia uma excitação resultante de estímulo externo (chamada [[wikipedia:N100|N100m]]) no mesmo local, enquanto que as componentes das frequências do FFA apresentadas individualmente produziam excitações em locais distintos<ref>Pantev, C., Hoke, M., Lutkenhoner, B., & Lehnertz, K. (1989). Tonotopic organization of the auditory cortex: pitch versus frequency representation.''Science'', ''246''(4929), 486-488.</ref>. Ainda assim, estas noções foram encobertas por resultados experimentais que recorreram a técnicas com maior resolução espacial: [[wikipedia:Local_field_potential| Potencial de campo local (PCL)]] e [[wikipedia:Electrophysiology#Multi-unit_recording|Registo de Multi-Unidades (RMU)]] demonstraram que o mapeamento de A1 era tonotópico - isto é, baseado na melhor frequência dos neurónios (MFN), em vez da melhor ‘altura’<ref>Fishman YI, Reser DH, Arezzo JC, Steinschneider M (1998). "Pitch vs. spectral encoding of harmonic complex tones in primary auditory cortex of the awake monkey," Brain Res 786:18-30.</ref>. Ainda assim, estas técnicas demonstram a emergência de mecanismos de codificação distintos para a extração de sugestões temporais e espaciais: a representação de fase fixa da taxa de repetição do envelope temporal era registada nas regiões de MFN superiores do mapa tonotópico, enquanto a estrutura harmónica da sequência de cliques era representada em regiões de MFN inferiores<ref>Steinschneider M, Reser DH, Fishman YI, Schroeder CE, Arezzo JC (1998) Click train encoding in primary auditory cortex of the awake monkey: evidence for two mechanisms subserving pitch perception. J Acoust Soc Am 104:2935–2955.</ref>. Assim, as sugestões para a extração da altura do som podem ser potenciadas a este nível.
 
[[File:Mutlipeaked2.jpg|thumb|510x510px|'''Ilustração esquemática de neurónios com multi-picos neurons.''' A linha ponteada azul mostra a curva do tom genérica para uma frequência com um neurónio específico de uma frequência ‘mono-pico’ com a melhor frequência (MFN) a aproximadamente 500Hz, como ilustrado pela resposta máxima do neurónio para frequências em torno deste valor. A linha vermelha mostra uma resposta esquemática de um neurónio que responde a várias frequências (‘multi-pico’) identificado por Kadia e Wang (2003). Além da MFN a 300Hz, este neurónio também é estimulado por tons a 600Hz e 900Hz - ou seja, frequências em relação harmónica à MFN principal. Embora não seja ilustrado aqui, as respostas deste tipo de neurónios a harmónicos complexos (neste caso, compostos pelas frequências 300, 600 e 900Hz) têm usualmente um efeito aditivo, gerando respostas mais intensas do que para um tom puro à frequência correspondente a MFN (neste caso, 300 Hz), isoladamente. Ver referência [18]]]
Linha 82:
Ainda assim, existem algumas evidências que sugerem que estas regiões são efetivamente responsáveis por codificar a altura e não apenas F0. Por exemplo, investigações mais detalhadas das unidades selectivas da altura do som em Saguis realizadas por Bendor e os seus colegas demonstraram que a atividade nestes neurónios corresponde fielmente às respostas psicofísicas dos animais<ref name=":1" />. Estes autores testaram as habilidades dos animais para detectar um complexo harmónico de fase alternada entre a apresentação de harmónicos com a mesma fase à mesma frequência F0, a fim de distinguir em que situações os animais recorriam às sugestões dos envelopes temporais para a percepção da altura, em vez de sugestões espectrais. De acordo com experiências psicofísicas em humanos, os saguis usavam primariamente sugestões de envelopes temporais de ordem superior, harmónicos não resolvidos de frequência F0 baixa, enquanto sugestões espectrais eram usadas para extrair a altura de harmónicos de ordem inferior de complexos de F0 elevada. Registos destes neurónios selectivos a altura mostraram que o ajuste de F0 ocorria uma oitava abaixo para harmónicos de fase alternada, em comparação com harmónicos com a mesma fase em neurónios ajustados para frequências F0 baixas. Estes padrões de resposta neuronais são consistentes com os resultados psicofísicos, sugerindo que quer as sugestões temporais e espectrais são integradas nestes neurónios para influenciar a percepção da altura.
 
Ainda assim, de novo, este estudo não conseguiu distinguir definitivamente se estes neurónios que respondem a alturas específicas conseguem representar a altura explicitamente ou simplesmente integram informação sobre F0 que será posteriormente descodificada para percepcionar a altura. Uma abordagem mais direta para analisar este tópico foi apresentada por Bizley et al, que analisaram como medições do córtex auditivo PCL e RMU em furões podiam ser usados independentemente para estimar o estímulo F0 e a percepção da altura<ref name=":2">Bizley JK, Walker KMM, Nodal FR, King AJ, Schnupp JWH (2012). "Auditory Cortex Represents Both Pitch Judgments and the Corresponding Acoustic Cues," Current Biology 23:620-625.</ref>. Enquanto os furões eram envolvidos numa tarefa de discriminação da altura (para indicar se um som de uma vogal artificial era superior ou inferior em altura a uma referência num [[wikipedia:Two-alternative_forced_choice|paradigma de 2-escolhas forçadas]]), uma análise da [[wikipedia:Receiver_operating_characteristic|característica de recepção do receptor (ROC)]] foi usada para estimar a discriminabilidade da atividade neural em prever a alteração de F0 ou a escolha efetiva resultante (como representação da altura percepcionada). Descobriram que as respostas neurais ao longo do córtex auditivo eram informativas em relação a ambos. Inicialmente, a atividade permitia distinguir melhor F0 do que a escolha do animal, mas a informação relativa à escolha do animal aumentava consistentemente ao longo do intervalo pós-estímulo, tornando-se eventualmente mais discriminável que do que a direção da alteração de F0<ref name=":2" />.
 
Comparando as diferenças em ROC entre as áreas corticais estudadas, mostrou-se que campos posteriores de atividade permitiam discriminar melhor a escolha dos furões. Este resultado pode ser interpretado de duas formas. Visto que a atividade relacionada com a escolha era superior nos campos posteriores (que se encontram na borda inferior MFN de A1), em comparação com os campos primários, tal pode ser entendido como uma evidência adicional para a seletividade para a altura perto da borda MFN inferior de A1. Por outro lado, o facto de informação relacionada com a altura também ser observada nos campos auditivos primários pode sugerir que informação suficiente relacionada com a altura esteja já estabelecida neste nível, ou que um código distribuído ao longo de várias áreas auditivas codifiquem a altura. De facto, enquanto neurónios individuais distribuídos ao longo do córtex auditivo são geralmente sensíveis a vários parâmetros acústicos (e, portanto, não respondem especificamente à altura), informação teórica ou análises neurométricas (usando dados neurais para inferir informação relacionada com o estímulo sonoro) indicam que a informação da altura pode ser representada de forma robusta através de [[Sistemas Sensoriais/Introdução#Codificação de população|codificação de populações]], ou até por neurónios individuais através de multiplexação temporal (isto é, representando várias características do som em diferentes janelas temporais)<ref>Walker KMM, Bizley JK, King AJ, and Schnupp JWH. (2011).Multiplexed and robust representations of sound features in auditory cortex. Journal of Neurosci 31(41): 14565-76 </ref><ref>Bizley JK, Walker KM, King AJ, and Schnupp JW. (2010). "Neural ensemble codes for stimulus periodicity in auditory cortex." J Neurosci 30(14): 5078-91. </ref>. Assim, na ausência de estimulação ou desativação destas potenciais áreas ou neurónios específicos para altura do som para demonstrar que tais intervenções produzem desequilíbrios previsíveis ou enfraquecimentos na altura, pode supor-se que a altura seja representada temporalmente e espacialmente através de códigos distribuídos ao longo do córtex, em vez de recorrer a representações locais especializadas.
 
Assim, quer registos electrofisiológicos quer estudos de neuro-imagiologia sugerem que exista um código neural explícito para a altura que se encontra perto da borda MFN inferior de A1. Definitivamente, as respostas seletivas e consistentes a uma larga gama de estímulos que induzem uma resposta à altura sugerem que estas potenciais áreas e neurónios específicos para a altura não estão simplesmente a reflectir qualquer característica física do sinal acústico que está disponível de imediato. Além disso, existe evidência que estes potenciais neurónios que respondem à altura são capazes de extrair informação de sugestões espectrais e temporais da mesma forma que os animais. Contudo, por virtude de uma relação abstrata entre a altura e o sinal acústico, esta correlação entre um estímulo e uma resposta neural só pode ser interpretada como evidência de que o sistema auditivo tem a capacidade de formar representações melhoradas de parâmetros relacionados com a altura. Sem uma evidência causal mais direta para estes potenciais neurónios que respondem especificamente à altura e áreas neurais que determinam a percepção à altura, não é possível concluir se os animais recorrem efetivamente a códigos localizados explicitamente para altura, ou se as representações distribuídas e robustas da altura ao longo do córtex auditivo definem a codificação final da altura no sistema auditivo.