O que faz a mesma nota soar como violino, piano, voz ou saxofone? Não é a frequência (todos tocam a mesma nota), não é o volume (estão na mesma intensidade), não é a altura (já vimos que altura é frequência). É timbre — a propriedade que dá identidade sonora a cada fonte.
Timbre tem fama de "subjetivo demais para definir", mas a fama é injusta: o conteúdo do timbre é mensurável. O que é subjetivo é a descrição — chamar um timbre de "quente", "brilhante", "fino" ou "encorpado" depende do ouvinte. O que produz essas sensações, não.
O que é timbre
Tecnicamente, timbre é a combinação de dois conjuntos de características:
- Conteúdo espectral — quais frequências estão presentes em um som, e com que amplitude relativa entre si.
- Evolução temporal — como essas frequências (e a amplitude total) variam no tempo.
A primeira parte responde "quais harmônicos esse som tem?". A segunda responde "como o som começa, sustenta e termina?". Os dois são igualmente importantes — e nenhum dos dois, sozinho, basta para definir um timbre.
A série harmônica
No artigo de frequência ficou estabelecido: um som real quase nunca é uma frequência pura. Quando um violão toca a nota Lá (440 Hz), ele emite a fundamental (440) e uma série de harmônicos em múltiplos inteiros: 880 Hz, 1320 Hz, 1760 Hz, 2200 Hz, e assim por diante.
A fundamental define a nota. Os harmônicos e suas amplitudes relativas definem o timbre. Isso significa que dois instrumentos tocando a mesma nota podem ter:
- A mesma fundamental
- Os mesmos harmônicos, nas mesmas frequências
- Mas amplitudes diferentes em cada harmônico
E essa diferença de "receita de amplitudes" é o que faz o ouvido reconhecer um como violão e outro como piano.
Casos-limite úteis para fixar o conceito:
- Um tom puro (senoide) é o som mais simples possível: só a fundamental, sem nenhum harmônico. Soa "vazio", "eletrônico" — porque praticamente nada na natureza produz isso.
- Uma onda quadrada tem todos os harmônicos ímpares (3º, 5º, 7º…) com amplitudes decrescentes. Soa "oca", "encorpada".
- Uma onda dente-de-serra tem todos os harmônicos, pares e ímpares. Soa "rica", "agressiva".
Harmônicos pares e ímpares
A predominância de harmônicos pares ou ímpares tem consequência perceptiva clara:
- Pares (2º, 4º, 6º…) reforçam a sensação de oitava — o 2º harmônico está exatamente uma oitava acima da fundamental. São percebidos como "musicais", "naturais", "macios".
- Ímpares (3º, 5º, 7º…) introduzem intervalos diferentes: o 3º harmônico está uma oitava e uma quinta acima da fundamental. Em excesso, são percebidos como "ásperos", "metálicos", "agressivos".
Isso explica algumas coisas que voltam em outros artigos:
- Clarineta soa "oca" porque a geometria do tubo cilíndrico fechado em uma das extremidades favorece harmônicos ímpares.
- Distorção valvulada soa "musical" porque válvulas, especialmente em estágios assimétricos single-ended, tendem a gerar predomínio de harmônicos pares (sobretudo 2º).
- Distorção transistorizada soa "agressiva" porque circuitos de transistores em saturação simétrica geram predomínio de ímpares.
Assunto que será detalhado no artigo de distorção e saturação.
Parciais não-harmônicos
Nem todo som obedece à série harmônica perfeita. Sinos, pratos, tam-tams metálicos e percussões em geral produzem parciais inarmônicos — frequências presentes no som que não são múltiplos inteiros de uma fundamental.
Quando os parciais não estão em razão inteira, o ouvido tem dificuldade de identificar uma altura única. Sinos são o caso clássico: parecem ter "duas alturas" porque o ouvido oscila entre escolher a fundamental aparente ou outro parcial forte como referência. Pratos vão ainda mais longe — são quase ruído estruturado, com tantos parciais inarmônicos que praticamente não há altura definida.
Isso tem uma consequência prática importante: nem todo som tem nota. É por isso que pratos, bateria e percussão não-afinada não recebem partitura com notas — só ritmo.
Envelope: ADSR
Conteúdo espectral é metade da história. A outra metade é como o som evolui no tempo. Essa evolução é descrita pelo envelope, e o modelo padrão para descrevê-lo tem quatro fases — ADSR:
- A — Attack (ataque): o tempo entre o início do som e seu pico de amplitude. Um piano percussivo tem ataque muito rápido (5–10 ms). Um violino com arco lento tem ataque longo (centenas de ms).
- D — Decay (decaimento): a queda do pico até o nível de sustentação. Em instrumentos percussivos sem sustain (piano, harpa, marimba), o decay é praticamente toda a parte audível da nota.
- S — Sustain (sustentação): o nível mantido enquanto a nota está sendo "segurada". Um violino com arco continua excitando a corda — sustain alto. Um piano, ao contrário, não sustenta — o som vai caindo continuamente após o ataque, mesmo com a tecla pressionada.
- R — Release (relaxamento): o tempo entre a liberação da nota e o som desaparecer por completo. O pedal sustain de um piano aumenta o release. Tocar em staccato o encurta drasticamente.
O ponto crucial sobre envelope é este: ele é tão definidor da identidade de um som quanto o conteúdo espectral. Um experimento clássico de psicoacústica: pegue uma gravação de piano e remova os primeiros 50 ms da nota (o ataque). O som resultante se torna quase irreconhecível — soa como um órgão. O conteúdo harmônico não mudou; só o envelope. E isso já basta para desfazer a identidade do instrumento.
Por isso a síntese sonora moderna trata envelope como cidadão de primeira classe: junto com filtros e osciladores, o controle de envelope é uma das ferramentas mais poderosas para moldar um timbre.
Componente de ruído
Muitos timbres "musicais" incluem componentes que são, tecnicamente, ruído — som sem altura definida, com energia distribuída por uma larga faixa de frequências:
- O sopro em flautas e instrumentos de palheta.
- A fricção do arco em violino, viola, violoncelo.
- O ar soprado em saxofone e clarinete.
- A baqueta batendo em peles e madeiras de percussão.
- O arranhão dos dedos deslizando em cordas de violão.
- As consoantes da fala humana — "s", "ch", "f" — são essencialmente ruído filtrado.
Esses ruídos não são defeitos a serem eliminados. Eles são parte essencial do reconhecimento do instrumento. Uma flauta sem som de sopro soa sintética. Um violino sem fricção de arco soa eletrônico. Uma voz sem consoantes é incompreensível.
A síntese aditiva (que constrói sons a partir do somatório de senoides puras) historicamente teve dificuldade exatamente nesse ponto: produzir timbres acústicos convincentes exige modelar não só os harmônicos, mas também o ruído associado a eles.
Formantes
Há um detalhe adicional do conteúdo espectral que merece ser separado: o som de um instrumento (ou de uma voz) não é apenas uma série harmônica "livre" — ele atravessa um corpo físico (caixa de violão, tubo de saxofone, trato vocal) que tem suas próprias ressonâncias. Essas ressonâncias amplificam certas faixas de frequência e atenuam outras, independentemente da nota tocada.
Os picos dessa ressonância são chamados de formantes. Eles ficam fixos no espectro — não acompanham a fundamental quando ela muda.
O exemplo mais limpo é a voz humana. As vogais "a", "e", "i", "o", "u" são distinguidas pelos formantes do trato vocal, não pela frequência fundamental:
| Vogal | Formante 1 (Hz, aprox.) | Formante 2 (Hz, aprox.) |
|---|---|---|
| i | 270 | 2300 |
| e | 400 | 2000 |
| a | 700 | 1100 |
| o | 500 | 850 |
| u | 350 | 800 |
É possível cantar "iiii", "eeee", "aaaa" todas na mesma nota — a fundamental não muda. O que muda são os formantes produzidos pelo trato vocal, e o ouvido reconhece a vogal a partir disso.
Instrumentos acústicos também têm formantes, definidos pelo corpo. A caixa do violão ressoa em torno de 100 Hz e 200 Hz, principalmente. O corpo do violino, em torno de 280 Hz e 460 Hz. Essas formantes são parte da "assinatura" do instrumento e ajudam a dar personalidade a cada exemplar — dois violinos do mesmo modelo nunca têm exatamente as mesmas formantes.
O conceito de formante vai retornar em vários contextos: equalização (para reforçar ou atenuar formantes existentes), microfone (cada modelo realça regiões específicas do espectro), síntese (formant synthesis) e processamento de voz (auto-tune e manipulação vocal mexem em formantes).
Onde o timbre aparece na prática
Timbre não é conceito acadêmico — está no centro de quase toda decisão técnica de áudio:
- Síntese sonora — independentemente da técnica (subtrativa, aditiva, FM, wavetable, granular, modelagem física), o objetivo final é sempre construir ou imitar timbres. Cada técnica é uma estratégia diferente para controlar harmônicos e envelope.
- Equalização (EQ) — mexer em uma faixa de frequência altera a relação entre fundamental, harmônicos e formantes. Reduzir 200–500 Hz tira o "encorpamento". Realçar 3–5 kHz aumenta "presença" e ataque percebido. Tudo isso é manipulação de timbre.
- Distorção, saturação, exciter — todos adicionam harmônicos novos ao sinal original. Saturação suave acrescenta principalmente harmônicos pares; distorção dura acrescenta uma série rica e, em casos extremos, até parciais inarmônicos.
- Mixagem — instrumentos diferentes em uma mixagem competem pelo espectro. "Esculpir" cada timbre com EQ (cortar onde o instrumento não precisa, realçar onde ele tem assinatura própria) é o que permite que tudo coexista no mesmo arranjo.
- Reconhecimento auditivo — o ouvido humano identifica instrumentos, vozes e até pessoas conhecidas principalmente por timbre. A frequência apenas diz qual nota está sendo tocada; o timbre diz por quem.
Timbre é a propriedade mais rica do som — e a mais difícil de descrever sem ambiguidade. Mas sob a aparência subjetiva existe uma anatomia objetiva: espectro de harmônicos, parciais inarmônicos, envelope no tempo, ruído estrutural, formantes do corpo. Manipular áudio é, em grande medida, manipular esses cinco componentes de forma consciente.