Quando as pessoas começam a produzir música, começam por aprender a utilizar o DAW, os diferentes efeitos como equalizador ou compressor, gravar, escrever MIDI... Mas apenas alguns lidam com os termos taxa de amostragem e profundidade de bits.
E, no entanto, estes são dois aspectos tão importantes no mundo do áudio digital que não são realmente difíceis de compreender - e uma vez que os tenha compreendido, a vida ser-lhe-á muito mais fácil, o mais tardar quando exportar os seus projectos. Ou quando importar amostras para o seu projecto.
Parte da culpa é dos modernos DAWs como o Ableton Live, que tornam o conceito de sample rate (taxa de amostragem) e bit depth (profundidade de bits) tão simples que os produtores nem sequer têm de lidar com isso - porque o Live converte automaticamente os ficheiros de áudio para a taxa de amostragem do projecto sem o apontar. Com o Pro Tools, por exemplo, é necessário converter activamente as amostras antes de as poder importar.
Para compreender o conceito, temos de começar por analisar o processo de conversão de sinais de áudio analógicos em sinais de áudio digitais.
O que é o áudio digital?
O áudio digital é o som que foi gravado num formato digital. Isto significa que o sinal de áudio é representado por uma sequência de números que podem ser armazenados e processados por dispositivos digitais, como computadores, leitores de áudio digital e estações de trabalho de áudio digital.
Com o áudio digital, a onda sonora do sinal de áudio é amostrada (registada) a intervalos regulares e é atribuído um valor digital a cada amostra. Este processo é designado por conversão analógico-digital (ADC).
A qualidade dos sinais de áudio digital é determinada por dois factores: a taxa de amostragem (quantas amostras são gravadas por segundo) e a profundidade de bits (quanta informação é armazenada em cada amostra).
Correspondência: ADAT - Tudo sobre a interface em dispositivos de áudio digital
O que é exactamente a taxa de amostragem?
A taxa de amostragem digital (taxa de amostragem) indica o número de vezes por segundo que o sinal analógico é registado para criar um sinal digital. Quanto mais elevada for a taxa de amostragem, mais "preciso" (ou seja, mais vezes) é o sinal gravado. No entanto, também é necessário mais espaço de armazenamento porque é armazenada mais informação.
A taxa de amostragem é especificada em kHz e pode ser definida na DAW. Se ligar várias interfaces ou outros dispositivos de áudio digital em conjunto, terá de definir todos os dispositivos para a mesma taxa de amostragem - mas a maioria das interfaces de áudio USB e Thunderbolt ajustará automaticamente a sua taxa de amostragem para corresponder à da DAW.
Regra geral, estão disponíveis as seguintes taxas de amostragem: 44.1 kHz, 48 kHz, 96 kHz, 192 kHz. Estes números não são escolhidos ao acaso, mas têm uma razão de ser.
44,1 kHz
Esta taxa de amostragem foi escolhida para o formato de disco compacto (CD) no final da década de 1970. A razão para esta escolha é um pouco complicada. Está relacionada com a frequência mais elevada que pode ser reproduzida com precisão (a frequência de Nyquist, que é metade da taxa de amostragem).
A frequência mais alta que a maioria das pessoas consegue ouvir é de cerca de 20 kHz, pelo que uma taxa de amostragem de 40 kHz seria teoricamente suficiente. No entanto, é utilizado um filtro para evitar o aliasing, e este filtro não é perfeito - necessita de uma largura de banda de transição. Por conseguinte, é escolhida a frequência de 44,1 kHz em vez de 40 kHz, para que haja alguma margem de manobra para o filtro.
A tecnologia de vídeo da época (utilizada no processo de masterização de CDs) tinha um padrão de 13,5 MHz, e 44,1 kHz é 1/294 dessa frequência, o que a tornou uma escolha prática que satisfazia os requisitos técnicos.
48 kHz
Essa taxa de amostragem se tornou o padrão para áudio em produções de vídeo profissionais, incluindo televisão digital, vídeo digital, DVDs e som de filme digital. A razão exacta para a escolha de 48 kHz não é totalmente clara, mas é provável que seja uma frequência mais elevada que ainda permite uma quantidade razoável de armazenamento de dados e poder de processamento, e proporciona um pouco mais de espaço para filtros anti-aliasing do que 44,1 kHz.
96 kHz e 192 kHz
Estes são simplesmente múltiplos de 48 kHz e são utilizados em formatos de áudio de alta resolução. A ideia é que taxas de amostragem mais elevadas podem reproduzir frequências mais altas e fornecer uma representação mais exacta do sinal analógico original. No entanto, é discutível se estas frequências mais elevadas são efectivamente audíveis para os seres humanos.
Também interessante: Os 8 melhores microfones para rappers e cantores em 2023
Qual é a taxa de amostragem mais adequada para mim?
A escolha da taxa de amostragem correcta depende de vários factores:
- 44,1 kHz: Se estiver a produzir música para CDs ou se as suas gravações se destinarem principalmente a streaming na Internet, 44,1 kHz é uma boa escolha. Esta é a taxa de amostragem padrão para CDs e para a maioria das plataformas de distribuição de música online.
- 48 kHz: Se estiver a produzir áudio para vídeo, 48 kHz é a taxa de amostragem predefinida. Esta é também uma taxa de amostragem comum para podcasts e livros áudio.
- 96 kHz ou 192 kHz: Se estiver a produzir áudio de alta resolução, por exemplo para Blu-ray ou lançamentos especiais de áudio topo de gama, pode considerar uma destas taxas de amostragem mais elevadas. No entanto, a gravação em tais formatos requer tanta memória e poder de processamento que não vale a pena para a maioria das aplicações.
44,1 kHz | 48 kHz | 96 kHz | 192 kHz |
---|---|---|---|
100 MB | 109 MB | 218 MB | 436 MB |
500 MB | 545 MB | 1,09 GB | 2,18 GB |
1 GB | 1,09 GB | 2,18 GB | 4,36 GB |
Recomendo a todos os produtores musicais e engenheiros de som que trabalhem sempre em 48kHz, porque é um bom compromisso entre qualidade e potência de computação. Teoricamente, 44.1kHz é completamente suficiente porque o CD e o Spotify & Co. funcionam em 44.1kHz de qualquer forma, mas é simplesmente mais flexível porque pode sempre fazer downsample de 48kHz para 44.1kHz mais tarde - o inverso não é possível.
Consegue ouvir a diferença em taxas de amostragem mais elevadas?
Este é um tópico muito controverso no mundo do áudio - o facto é que a nossa audição humana só ouve até 20 kHz e 44,1 kHz é perfeitamente adequado para isso. Taxas de amostragem mais elevadas podem ser uma vantagem no processamento de áudio em alguns casos, mas na mistura final não há qualquer diferença audível em relação aos 44,1 kHz.
Vale a pena utilizar taxas de amostragem mais elevadas?
Em certos casos, pode valer a pena, mas eu não recomendaria a ninguém que gravasse um projecto completo e grande em 192 kHz, uma vez que os requisitos de armazenamento seriam enormes. Mas há certos casos em que pode ser efectivamente vantajoso.
Normalmente, ao reduzir uma amostra de 44,1 kHz, a maioria das frequências altas da amostra perde-se, uma vez que, acima de 22,1 kHz, não existe informação para reduzir e preencher o novo espaço nos agudos.
No entanto, se a amostra tiver uma taxa de amostragem de 96 kHz, contém informações até 48 kHz - e são preservadas muito mais frequências altas quando a amostra é reduzida, uma vez que estas frequências "ultra-altas" preenchem a gama de 15-20 kHz.
Qual é a profundidade de bits?
A profundidade de bits indica o número de valores dinâmicos possíveis que cada uma das amostras pode registar. Quanto mais elevada for a taxa de bits, mais precisamente é registada a dinâmica da música. É uma medida da resolução ou precisão com que o sinal de áudio analógico original é digitalizado.
Na prática, as profundidades de bits mais comuns na gravação de áudio digital são 16 bits e 24 bits.
- 16 bits (65.536 valores): Esta é a profundidade de bits padrão para CDs e muitos formatos de áudio digital. Uma profundidade de bits de 16 bits permite uma gama dinâmica teórica de cerca de 96 decibéis (dB). Isto significa que o sinal mais forte que pode ser gravado é cerca de 96 dB mais forte do que o sinal audível mais suave.
- 24 bits (16.777.216 valores): Esta é a profundidade de bits padrão para gravações de áudio profissionais e alguns formatos de áudio de alta resolução. Uma profundidade de bits de 24 bits permite uma gama dinâmica teórica de cerca de 144 dB, que é muito superior à gama dinâmica que o ouvido humano consegue percepcionar na prática. Isto significa que podem ser preservados mais detalhes nas partes mais calmas da gravação, que podem não ser ouvidas directamente, mas apenas quando se aumenta o volume. Isto dá-lhe mais margem de manobra quando edita e mistura a gravação - não tem de gravar "alto" como costumava fazer porque o ruído é muito baixo.
O problema, no entanto, é que a onda digital nunca pode ter 100 % a forma da onda analógica, independentemente da profundidade dos bits. Quando convertemos sons reais para um formato digital, tentamos captar uma onda sonora suave e fluida com uma série de valores individuais. Mas, por vezes, o valor exacto de que necessitamos não está disponível, pelo que temos de arredondar para o valor mais próximo. Este processo é designado por quantização.
Este arredondamento introduz um pouco de aleatoriedade no som digital. Ouvimos esta aleatoriedade como um ruído de fundo muito suave, semelhante ao assobio suave que se ouve numa sala silenciosa. A isto chama-se ruído de fundo.
Por vezes, a forma como recolhemos amostras do som pode criar padrões de repetição nesse ruído que o tornam mais perceptível em determinadas frequências. A isto chama-se ruído correlacionado.
Para evitar estes padrões, podemos acrescentar uma variável aleatória adicional ao arredondar os valores. Este processo chama-se dithering e ajuda a distribuir o ruído de forma mais homogénea e a torná-lo menos perceptível.
O nível deste ruído de fundo determina o som mais silencioso que podemos gravar - porque o nosso sinal tem de ser sempre mais alto do que este ruído de fundo para o manter limpo.
Por outro lado, existe um limite para o som mais alto que podemos gravar antes de começar a distorcer. Este intervalo entre o som mais suave e o mais alto é o intervalo dinâmico mencionado anteriormente.
Quando é que precisa de que profundidade de bits?
Os 24 bits são muito práticos para gravar porque não tem de se preocupar com os níveis. A gama dinâmica é tão grande e o nível de ruído tão baixo que se pode gravar facilmente com -15dB, porque se pode acrescentar muito volume mais tarde. E certifica-se de que o sinal não é distorcido.
No passado, com os dispositivos de gravação de 16 bits, tinha sempre de se certificar de que gravava o mais alto possível, para que o ruído de fundo não fosse audível - e depois havia sempre o perigo de recorte. Com 24 bits, este problema já não existe.
Por isso, deve sempre gravar e trabalhar em 24 bits, mas quando a música terminar a masterização, deve exportar a masterização final em 16 bits, uma vez que esta é a norma para CDs e serviços de streaming.
Consegue ouvir a diferença entre 16 bits e 24 bits?
Não, não se consegue ouvir a diferença quando se ouve uma peça masterizada acabada. Quase não existem peças de música com uma gama dinâmica superior a 96 dB (talvez clássica), pelo que não faz sentido oferecer uma gama dinâmica superior.
A música pop, rock, R&B, hip-hop e country pronta a usar tem normalmente uma gama dinâmica relativamente modesta - normalmente cerca de 10 dB - pelo que, teoricamente, 8 bits também seriam suficientes. Isto deve-se em parte ao facto de a música ser fortemente comprimida durante a produção (com compressores ou limitadores), o que reduz a gama dinâmica da canção.
É por isso que todos os serviços de streaming ainda funcionam com 16 bits - e, claro, por razões de espaço. A única vantagem dos 24 bits em relação aos 16 bits é a maior gama dinâmica e, por conseguinte, um nível de ruído mais baixo durante a gravação.
Então, qual é a melhor combinação de taxa de amostragem e profundidade de bits?
Para produções musicais, recomenda-se uma taxa de amostragem de 48 kHz com uma profundidade de bits de 24 bits, uma vez que representa um bom compromisso entre qualidade e tamanho do ficheiro. Isto dá-lhe uma gama dinâmica muito ampla com que trabalhar e uma gama de frequências praticamente ilimitada até 24 kHz - muito mais do que podemos ouvir.
E com isso, temos todas as possibilidades de exportar depois para todos os suportes - e o nosso ficheiro de áudio final, que depois levamos para as plataformas de streaming, deve ter 44,1 kHz a 16 bits. Esse é o formato que os serviços de streaming e os CDs esperam.