Cuando la gente empieza a producir música, primero se ocupa de aprender el DAW, los diferentes efectos como ecualizador o compresor, grabar, escribir MIDI... Pero sólo unos pocos se ocupan de los términos frecuencia de muestreo y profundidad de bits.
Y, sin embargo, se trata de dos aspectos tan importantes en el mundo del audio digital que no son realmente difíciles de entender - y una vez que los hayas comprendido, la vida te resultará mucho más fácil, como muy tarde a la hora de exportar tus proyectos. O al importar samples a tu proyecto.
Parte de la culpa la tienen los modernos DAWs como Ableton Live, que simplifican tanto el concepto de frecuencia de muestreo (sample rate) y profundidad de bits que los productores ni siquiera tienen que ocuparse de ello, porque Live convierte automáticamente los archivos de audio a la frecuencia de muestreo del proyecto sin señalarlo. Con Pro Tools, por ejemplo, tienes que convertir activamente los samples antes de poder siquiera importarlos.
Para entender el concepto, primero tenemos que ver el proceso de conversión de señales de audio analógicas a señales de audio digitales.
¿Qué es el audio digital?
El audio digital es sonido grabado en formato digital. Esto significa que la señal de audio está representada por una secuencia de números que pueden ser almacenados y procesados por dispositivos digitales como ordenadores, reproductores de audio digital y estaciones de trabajo de audio digital.
Con el audio digital, la onda sonora de la señal de audio se muestrea (graba) a intervalos regulares y se asigna un valor digital a cada muestra. Este proceso se denomina conversión analógico-digital (ADC).
La calidad de las señales de audio digital viene determinada por dos factores: la frecuencia de muestreo (cuántas muestras se graban por segundo) y la profundidad de bits (cuánta información se almacena en cada muestra).
Sigue leyendo: ADAT - Todo sobre la interfaz en dispositivos de audio digital
¿Qué es exactamente la frecuencia de muestreo?
La frecuencia de muestreo digital (frecuencia de muestreo) indica cuántas veces por segundo se registra la señal analógica para crear una señal digital. Cuanto mayor es la frecuencia de muestreo, más "precisa" (es decir, más a menudo) se muestrea la señal. Sin embargo, también se necesita más espacio de almacenamiento porque se almacena más información.
La frecuencia de muestreo se especifica en kHz y puede ajustarse en la DAW. Si conectas varias interfaces u otros dispositivos de audio digital, tendrás que ajustar todos los dispositivos a la misma frecuencia de muestreo, pero la mayoría de las interfaces de audio USB y Thunderbolt ajustan automáticamente su frecuencia de muestreo para que coincida con la de la DAW.
Por regla general, se dispone de las siguientes frecuencias de muestreo: 44,1 kHz, 48 kHz, 96 kHz, 192 kHz. Estos números no se eligen al azar, sino que tienen una razón de ser.
44,1 kHz
Esta frecuencia de muestreo se eligió para el formato de disco compacto (CD) a finales de la década de 1970. La razón de esta elección es algo complicada. Está relacionada con la frecuencia más alta que se puede reproducir con precisión (la frecuencia de Nyquist, que es la mitad de la frecuencia de muestreo).
La frecuencia más alta que puede oír la mayoría de la gente ronda los 20 kHz, por lo que una frecuencia de muestreo de 40 kHz sería teóricamente suficiente. Sin embargo, se utiliza un filtro para evitar el aliasing, y este filtro no es perfecto: necesita un ancho de banda de transición. Por eso se ha optado por 44,1 kHz en lugar de 40 kHz, para dejar algo de margen al filtro.
La tecnología de vídeo de la época (utilizada en el proceso de masterización de los CD) tenía un estándar de 13,5 MHz, y 44,1 kHz es 1/294 de esa frecuencia, lo que la convertía en una opción práctica que cumplía los requisitos técnicos.
48 kHz
Esta frecuencia de muestreo se ha convertido en el estándar de audio en las producciones profesionales de vídeo, incluida la televisión digital, el vídeo digital, los DVD y el sonido de películas digitales. La razón exacta para elegir 48 kHz no está del todo clara, pero es probable que se trate de una frecuencia más alta que sigue permitiendo una cantidad razonable de almacenamiento de datos y potencia de procesamiento, y proporciona algo más de espacio para los filtros antialiasing que 44,1 kHz.
96 kHz y 192 kHz
Son simplemente múltiplos de 48 kHz y se utilizan en formatos de audio de alta resolución. La idea es que las frecuencias de muestreo más altas pueden reproducir frecuencias más altas y proporcionar una representación más exacta de la señal analógica original. Sin embargo, es discutible que estas frecuencias más altas sean realmente audibles para el ser humano.
Esto también podría interesarte: Los 8 mejores micrófonos para raperos y cantantes en 2023
¿Qué frecuencia de muestreo me conviene?
La elección de la frecuencia de muestreo correcta depende de varios factores:
- 44,1 kHz: Si produces música para CD o tus grabaciones son principalmente para streaming en Internet, 44,1 kHz es una buena opción. Es la frecuencia de muestreo estándar de los CD y de la mayoría de plataformas de distribución de música por Internet.
- 48 kHz: Si estás produciendo audio para vídeo, 48 kHz es la frecuencia de muestreo por defecto. También es la frecuencia de muestreo habitual en podcasts y audiolibros.
- 96 kHz o 192 kHz: Si estás produciendo audio de alta resolución, por ejemplo para Blu-ray o lanzamientos especiales de audio de alta gama, podrías considerar una de estas frecuencias de muestreo más altas. Sin embargo, la grabación en estos formatos requiere tanta memoria y capacidad de procesamiento que no merece la pena para la mayoría de las aplicaciones.
44,1 kHz | 48 kHz | 96 kHz | 192 kHz |
---|---|---|---|
100 MB | 109 MB | 218 MB | 436 MB |
500 MB | 545 MB | 1,09 GB | 2,18 GB |
1 GB | 1,09 GB | 2,18 GB | 4,36 GB |
Recomiendo a todos los productores musicales e ingenieros de sonido que trabajen siempre en 48 kHz, porque es un buen compromiso entre calidad y tamaño. Teóricamente, 44,1 kHz es completamente suficiente porque el CD y Spotify & Co. funcionan en 44,1 kHz de todos modos, pero simplemente eres más flexible porque siempre puedes reducir la frecuencia de 48 kHz a 44,1 kHz más tarde; al contrario no es posible.
¿Puedes oír la diferencia con frecuencias de muestreo más altas?
Esto es un tema muy controvertido en el mundo del audio. El hecho es que nuestro oído humano solo oye hasta 20 kHz y 44,1 kHz es perfectamente adecuado para ello. Las frecuencias de muestreo más altas pueden ser una ventaja en el procesamiento de audio en algunos casos, pero en la mezcla final no hay ninguna diferencia audible frente a 44,1 kHz.
¿Merece la pena utilizar frecuencias de muestreo más altas?
En algunos casos puede merecer la pena, pero yo no recomendaría a nadie que grabara un proyecto completo de gran envergadura en 192 kHz, ya que los requisitos de almacenamiento serían enormes. Pero hay casos en los que puede resultar ventajoso.
Normalmente, al reducir el pitch de un sample de 44,1 kHz, se pierde la mayor parte de las frecuencias altas del sample, ya que por encima de 22,1 kHz no queda información que rebajar para rellenar el nuevo hueco en los agudos.
Sin embargo, si el sample tiene una frecuencia de muestreo de 96 kHz, contiene información de hasta 48 kHz - y se conservan muchas más frecuencias altas cuando se baja el tono de la muestra, ya que estas frecuencias "ultraaltas" llenan entonces el rango de 15-20 kHz.
¿Cuál es la profundidad de bits?
La profundidad de bits indica cuántos valores dinámicos posibles puede grabar cada una de las muestras. Cuanto mayor sea la tasa de bits, con mayor precisión se registrará la dinámica de la canción. Es una medida de la resolución o precisión con la que se digitaliza la señal de audio analógica original.
En la práctica, las profundidades de bits más habituales en la grabación de audio digital son 16 y 24 bits.
- 16 bits (65.536 valores): Esta es la profundidad de bits estándar para CD y muchos formatos de audio digital. Una profundidad de bits de 16 bits permite un rango dinámico teórico de unos 96 decibelios (dB). Esto significa que la señal más fuerte que se puede grabar es unos 96 dB más fuerte que la señal audible con menos volumen.
- 24 bits (16.777.216 valores): Es la profundidad de bits estándar para grabaciones de audio profesionales y algunos formatos de audio de alta resolución. Una profundidad de bits de 24 bits permite un rango dinámico teórico de unos 144 dB, que está muy por encima del rango dinámico que el oído humano puede percibir en la práctica. Esto significa que se pueden conservar más detalles en las partes silenciosas de la grabación que quizá no se oigan directamente, pero sí al subir el volumen. Esto te da más margen a la hora de editar y mezclar la grabación: no tienes que grabar "alto" como antes porque el ruido de fondo es muy bajo.
El problema, sin embargo, es que la onda digital nunca puede tener 100 % la forma de la onda analógica, independientemente de la profundidad de bits. Cuando convertimos sonidos reales a un formato digital, intentamos capturar una onda sonora suave y fluida con una serie de valores individuales. Pero a veces no disponemos del valor exacto que necesitamos, así que tenemos que redondear al valor más cercano. Este proceso se llama cuantificación.
Este redondeo introduce un poco de aleatoriedad en el sonido digital. Oímos esta aleatoriedad como un ruido muy suave, similar al silbido suave que se oye en una habitación silenciosa. Es lo que se llama ruido de fondo.
A veces, la forma en que muestreamos el sonido puede crear patrones de repetición en ese ruido que lo hacen más perceptible en determinadas frecuencias. Es lo que se denomina ruido correlacionado.
Para evitar estos patrones, podemos añadir una variable aleatoria adicional al redondear los valores. Este proceso se denomina dithering y ayuda a distribuir el ruido de forma más uniforme y hacerlo menos perceptible.
El nivel de este ruido de fondo determina el sonido más bajo que podemos grabar, porque nuestra señal siempre debe ser más alta que este ruido de fondo para mantenerse limpia.
Por otro lado, existe un límite para el sonido más alto que podemos grabar antes de que empiece a distorsionarse. Este intervalo entre el sonido más suave y el más fuerte es el rango dinámico mencionado anteriormente.
¿Cuándo necesitas qué profundidad de bits?
24 bits es muy práctico para grabar porque no tienes que preocuparte por los niveles. El rango dinámico es tan grande y el ruido de fondo tan bajo que puedes grabar fácilmente con -15dB porque luego puedes añadir mucho volumen. Y te aseguras de que la señal no esté distorsionada.
Antes, con los dispositivos de grabación de 16 bits, siempre había que asegurarse de grabar lo más alto posible para que no se oyera el ruido de fondo, y además siempre existía el peligro de clipping. Con 24 bits, este problema ya no existe.
Así que siempre debes grabar y trabajar en 24 bits, pero cuando la canción esté terminada de masterizar, debes exportar el master final en 16 bits, ya que es el estándar para CD y servicios de streaming.
¿Es audible la diferencia entre 16 y 24 bits?
No, no se nota la diferencia cuando escuchas una pieza acabada de masterizar. Apenas hay piezas musicales que tengan un rango dinámico superior a 96 dB (quizá las clásicas), así que no tiene sentido ofrecer un rango dinámico mayor.
La música pop, rock, R&B, hip-hop y country ya producida suele tener un rango dinámico relativamente modesto - normalmente unos 10 dB - por lo que teóricamente 8 bits también serían suficientes. Esto se debe en parte a que la música se comprime mucho durante la producción (con compresores o limitadores), lo que reduce el rango dinámico de la canción.
Por eso todos los servicios de streaming siguen funcionando con 16 bits y, por supuesto, por razones de espacio. La única ventaja de 24 bits sobre 16 es el mayor rango dinámico y, por tanto, un ruido de fondo menor durante la grabación.
¿Qué combinación de frecuencia de muestreo y profundidad de bits es la mejor?
Para producciones musicales, se recomienda una frecuencia de muestreo de 48 kHz a una profundidad de bits de 24 bits, ya que representa un buen compromiso entre calidad y tamaño de archivo. Así se dispone de un rango dinámico muy amplio con el que trabajar y una gama de frecuencias prácticamente ilimitada hasta 24 kHz, mucho más de lo que podemos llegar a oír.
Y con eso, tenemos todas las posibilidades para exportar después para todos los medios - y nuestro archivo de audio final, que luego llevamos a las plataformas de streaming, debe tener 44,1 kHz a 16 bits. Ese es el formato que esperan los servicios de streaming y los CDs.