Formatos, compresión y conectividad en audio digital
Fecha 30 Abril 2014 Autor Juan Tags Teoría y Tecnología

Continuamos nuestra pequeña crónica/guía sobre el renovado audio digital allí donde nos quedamos la semana pasada: en la llegada de Internet. La popularización de la red de redes lo cambió todo, para mal al principio (por lo menos si lo que nos interesa es la calidad) y para bien después. Pero al comienzo los daños fueron catastróficos, una auténtica involución. ¿Por qué? Por la compresión de datos, materializada en formatos como el MP3. Muchos aficionados se preguntarán sin duda el por qué de la palabra compresión, su significado y lo que comportó. 


 

Dejando de lado los juicios de valor sobre la componente ético-moral de las descargas gratuitas masivas, nos concentraremos en la parte técnica de la cuestión. Y la realidad es que antes del advenimiento de la banda ancha, el ADSL en sus diferentes variables, el no va más del que disponíamos para descargar contenidos de Internet eran los módem con velocidad de transferencia binaria de 56 kb/s. Sí, nada de esos megabits por segundo por lo que ahora mismo compiten empresas y consumidores: 56.000 bits por segundo era lo más. No hay que ser un ingenieros informático para darse cuenta de que con tal cifra la descarga de una sencilla canción de un CD (y no digamos ya de una película en resolución VHS… como máximo) era un auténtico drama. El procesado digital de señal (DSP) acudió en ayuda de tal situación aportando una técnica conceptualmente muy brillante que ya se había experimentado décadas atrás en el ámbito de las comunicaciones y a principios de la década de los noventa en el mismísimo sector el audio doméstico (formatos DCC y MiniDisc).

 

Compresión de datos o la técnica que lo cambió todo

 

Sin pretender extendernos en la descripción de este crítico concepto, es importante saber que por compresión se entiende un esquema que permite, mediante un algoritmo “de decisión” a su vez basado en una serie de “normas” (que en el caso del audio son el enmascaramiento y el umbral de audibilidad) reducir la cantidad de datos para transmitir un determinado mensaje. Dicho de otro modo: si la canción “x” ocupa, en el formato empleado para codificar el sonido de un CD, 1 millón de bits, la compresión de datos permite que dicha canción se pueda reproducir con la máxima inteligibilidad utilizando sólo 50.000 de esos bits.
 
 
De este modo, la descarga de un CD completo desde un determinado sitio web se podía llevar a cabo en un plazo de tiempo razonable. Pero, claro, el precio a pagar era elevado en términos de calidad porque tal “castración” del mensaje original (que a su vez tampoco era “continuo”, analógico, sino también digital, aunque “lineal”, sin compresión) implicaba suprimir muchos matices de la música, desastre que en realidad traía sin cuidado a muchos consumidores pero sí preocupó, y mucho, a quienes apostaban por esa Alta Fidelidad en la reproducción del sonido que tanto nos apasiona y que recibió una herida que a punto estuvo de resultar mortal. En este sentido, vale la pena saber que las claves “filosóficas” de la compresión de datos se resumen en dos términos: redundancia e irrelevancia. En el primer caso, se trata de reordenar los datos disponibles para eliminar los que se repiten (por el motivo que sea: seguridad, etc.), un poco a la manera de un archivo informático “zip”. Se trata de una remodelación formal que no afecta en absoluto al mensaje sonoro (pero sí permite ahorrar espacio para transmitir/guardar datos, por lo que resulta muy práctica), por lo que, en este caso, hablamos de compresión sin pérdidas o “lossless”. Es el segundo término el que tiene mayor alcance en términos de calidad sonora porque la idea de irrelevancia implica suprimir datos irrelevantes de un determinado mensaje. Y, claro, ¿quién decide lo que es relevante o no? Pues un algoritmo, un programa que, obviamente, puede ser  más o menos sofisticado pero aún así toma decisiones con las que todo el mundo estará de acuerdo. Resulta fácil entenderlo: lo que pueda ser irrelevante para la persona tal y/o el equipo puede no serlo por otro. El caso es que aquí se suprime información musical que, tema fundamental, luego ya no se podrá recuperar. Pues bien: a los algoritmos que en los que hay pérdidas de información musical se los conoce con el nombre de “lossy” o algoritmos de codificación sin pérdidas. De lo dicho se deduce fácilmente que la diferencia entre los conceptos “lossless” y “lossy” es la que marca la frontera entre el audio digital de alta y baja calidad, entre la alta resolución (con los formatos con calidad de estudio de grabación o “Studio Master” en la cúspide) y ese sonido “práctico” (en principio para reproductores portátiles y automóviles) y muy a menudo poco natural de formatos como el en su momento omnipresente MP3, que, insistimos, a punto estuvo de dar al traste con las mejoras aportadas por el CD.

 

ADSL, la clave del acceso al audio High End vía Internet

En el fondo era un progreso puramente técnico que, por lógica, tenía que llegar. Un progreso que permitiera romper las limitaciones que impedían descargar una canción grabada en PCM a 16 bits/44’1 kHz y, con el tiempo, los archivos de resolución mucho mayor que desde hace ya una buena década y media son los habituales en los estudios de grabación. Así que, gracias al ADSL, el High End en audio vía Internet, y, por tanto, “sin soporte físico” está a alcance de todos. Llegados a este punto, bien estará repasar brevemente la pequeña “sopa” de siglas con la que nos podemos encontrar, por lo demás fruto de la disponibilidad de entornos abiertos y “cerrados” (Windows, Mac), en lo que a CODEC’s (algoritmos que comprimen y descomprimen datos, en este caso de música) se refiere por cuanto la compresión es la norma.

 

  • AAC (Advanced Audio Coding):  Fue diseñado para ser el sucesor del MP3 y, aunque se trata de un CODEC con pérdidas, los resultados en términos de calidad sonora son superiores a los del MP3 para una misma velocidad de transferencia binaria. El AAC ha sido adoptado para su empleo una extensa gama de dispositivos portátiles de audio como el iPod y sus derivados.

 

  • AIFF (Audio Interchange File Format):  Es la versión del WAV creada por Apple. Trabaja con archivos sin compresión (es decir, “lossless”) que mantienen la totalidad de la resolución y el tamaño.

 

 

  • ALE (Apple Lossless Encoder), también conocido por ALAC (Apple Lossless Audio Codec): Utiliza compresión sin pérdidas para ahorrar espacio de almacenamiento. Una vez descomprimido para su escucha, el archivo será idéntico bit a bit a uno de tamaño completo codificado en WAV o AIFF. Al igual que en el AIFF o el FLAC, en los archivos ALE/ALAC los metadatos se adjuntan a los mismos.
     
  • DSD (Direct Stream Digital): Al igual que el PCM Lineal, es un formato de codificación digital “en bruto”, y, por lo tanto, sin ningún tipo de compresión. Originariamente desarrollado para el SACD “Super Audio Compact Disc”), es utilizado por estudios de grabación que lo consideran musicalmente superior al citado PCM Lineal, siendo el resultado un número de contenidos creciente codificados en el mismo a los que se puede acceder vía sitios especializados de Internet. En este caso, se dispone de dos opciones: DSD64 y DSD128, que pueden encontrarse, respectivamente, en los formatos de archivo DFF 2.82 MHz y DFF 5.64 MHz.

 

  • FLAC (Free Losssless Audio Codec): Es un formato libre y sin pérdidas, por lo que generará archivos a tamaño completo, como el WAV. Fue desarrollado originariamente para ofrecer compresión de archivos de audio sin pérdidas de información musical, pudiendo comprimir los ficheros hasta el 50% de su tamaño. Al igual que el formato ALE, una vez descomprimido, el archivo es idéntico a uno de tamaño completo. Como consecuencia de esta característica y de lo fácil que resulta añadir metadatos a los archivos (es decir, la información relativa a canción, compositor, álbum, portada, etc.), el FLAC se ha convertido en el estándar de facto para la grabación de música con calidad audiófila.
     
  • LPCM (Linear Pulse-Code Modulation) o PCM Lineal: No es un CODEC, sino un método para codificar digitalmente señales de audio. Es la forma estándar de los datos digitales de audio utilizados en soportes como el CD, el DVD y el Blu-ray Disc. Se trata del formato “bruto” y sin compresión de las señales digitales de audio que son introducidas en los procesadores digitales de audio o DAC’s a través de las entradas S/PDIF (tanto no balanceada como balanceada), TosLink y PC-USB.

 

  • MP3 (MPEG-1/MPEG-2 Audio Layer 3): Sin duda, el más popular de los formatos digitales de audio que estuvo disponible para su empleo en ordenadores y reproductores. De tipo “lossy”, es decir, con pérdidas, ofrece tamaños de archivo pequeños a expensas de la reducción del contenido de los mismos y, por tanto, de la calidad sonora.

 

  • Ogg Vorbis: Es un formato con pérdidas desarrollado como alternativa gratuita al MP3 y el AAC que ofrece opciones similares en términos de reducción del tamaño de los archivos, así como velocidades de transferencia binaria de hasta 500 kHz.

 

 

  • WAV (Waveform Audio File Format) o WAVE: Crea archivos a tamaño completo y con toda la resolución. En este caso, los archivos no son comprimidos, por lo que consumen bastante espacio de almacenamiento pero son transferidos fácilmente a otras plataformas. El único punto débil es que los metadatos no se adjuntan a los archivos de música automáticamente, por lo que si el usuario cambia los archivos de lugar también deberá hacer lo mismo con los metadatos.

 

  • WMA (Windows Media Audio): Fue desarrollado por Microsoft como una alternativa al MP3, l que significa que estamos ante un CODEC con pérdidas (“lossy”). Puede muestrear señales a una frecuencia máxima de 48 kHz y se utiliza mucho en las emisoras de radio de Internet.
     
  • WMA Pro: Es una versión del WMA con el algoritmo de compresión mejorado, aunque sigue siendo de tipo “lossy”.
     
  • WMA Lossless: Versión sin pérdidas del WMA con capacidad multicanal y compatibilidad con señales de hasta 24 bits/96 kHz. Permite realizar copias bit a bit, es decir, con calidad de nivel audiófilo, para entendernos.
     

Señalemos asimismo que cada uno de estos archivos se identifica con una extensión concreta (.aac, .wma, .mp3, .flac, etc.).
 

Las opciones de conectividad

El punto final de nuestra pequeña aventura digital consistirá en enviar nuestros valiosos datos musicales a un procesador digital de audio o DAC (Marantz, Pro-Ject, Primare, Electrocompaniet, Esoteric, por citar unos cuantos nombres “nuestros”), lo que nos lleva al último punto de nuestro Blog de esta semana: la conectividad. Aquí lo más importante es saber que, con la salvedad del formato óptico TosLink, que por configuración física acepta como máximo datos codificados a 24 bits/96 kHz, todas las entradas digitales con las que nos encontraremos aceptan el que ahora mismo es el “estándar” en audio de alta resolución: codificación con palabras digitales de 24 bits y frecuencia de muestreo de 192 kHz (o su equivalente en la codificación monobit DSD). Traducción: calidad idéntica a la que maneja un estudio de grabación y, por tanto, el Santo Grial de la reproducción musical. Un viejo sueño convertido en realidad, para entendernos, aunque no todo es perfecto: la calidad de la toma de sonido sigue marcando la diferencia y a la hora de la verdad los elementos analógicos y digitales de cada procesador/DAC también aportarán su impronta. Pero esto es ya motivo para enfrascarse en otro Blog, por lo que, por el momento, lo dejaremos aquí. Veamos ya esas opciones de conectividad digital que hay que tener en cuenta:

 

  • Formato coaxial S/PDIF: Se trata de una toma coaxial que puede transportar tanto una señal estereofónica (formato CD, es decir PCM), como multicanal (Dolby, DTS). Debería utilizarse un cable diseñado específicamente para el transporte de señales digitales de audio si de verdad se desea lograr la mejor transferencia de señal posible. En otras palabras, habría que utilizar un cable de 75 ohmios de impedancia. Utiliza un conector RCA estándar, que en algunos productos es acompañado por uno de tipo BNC (bayoneta) como consecuencia de su superior precisión.
     
  • Optica TosLink: Los puertos ópticos TosLink aceptan exactamente el mismo formato de datos digitales de audio que las tomas coaxiales RCA, es decir, el S/PDIF, pero utilizan luz pulsante en vez de una corriente eléctrica fluctuante para transportar los datos en cuestión. Las conexiones TosLink emplean cables de fibra óptica especiales como soporte. El formato TosLink se conoce también como EIAJ-TosLink, siendo EIAJ el acrónimo de la “Electronics Industries Association of Japan”; por otro lado, el prefijo “Tos” viene de Toshiba, firma nipona que desarrolló este sistema de conexión.
     
  • AES/EBU (XLR): Es el formato para la conexión de señales digitales de audio adoptado por la Audio Engineering Society (AES) y la European Broadcasting Union (EBU) y utiliza las mismas tomas y clavijas XLR “para micrófono” que se emplean en las conexiones analógicas de audio balanceadas. La conexión AES/EBU (la impedancia característica del cable utilizado debe ser de 110 ohmios si se desea explotar al máximo las posibilidades del formato) es muy corriente en audio profesional y en algunos componentes de muy alto nivel para aplicaciones de Alta Fidelidad y Cine en Casa.
     
  • USB (Universal Serial Bus): Es el último formato de conexión que se ha sumado a la “fiesta” digital y el que más auge está teniendo a ser masivamente utilizado para la conexión desde ordenadores y un número creciente de dispositivos móviles. Creado inicialmente para la transmisión de datos “no musicales”, el formato USB 2.0 Audio de alta velocidad ha conseguido situarse a la misma altura que el resto en lo que a calidad sonora se refiere gracias al desarrollo de esquemas asíncronos de altas prestaciones (nacidos para compensar la condición “informática” original del USB). En algunos productos se requiere la instalación previa de un “driver” o controlador en el ordenador que vayamos a utilizar, lo que se lleva a cabo sin mayores problemas. Hay conectores USB de dos tipos: el A (“rectangular”) y el B (“cuadrado”). En dispositivos móviles también encontramos ambas opciones en su versión “mini” y “micro”. Es importante, en realidad vital, destacar el carácter “asíncrono” de las tomas USB utilizadas para aplicaciones de audio de alta calidad por cuanto se trata de una estrategia de ingeniería destinada a compensar, como indicábamos anteriormente, las carencias del formato USB para esta aplicación concreta. Lo de “asíncrono” viene a cuenta de incorporar una circuitería de reloj dedicada a la toma USB empleada para audio con el fin de desvincular el sincronismo de las señales digitales de la habitualmente menos precisa y, sobre todo, ruidosa señal de sincronismo procedente de un ordenador.

 

  • IEEE1394/FireWire/i.Link: Es un sistema de interconexión que se basa en el empleo de los 4, 6,9 ó 12 conductores de un bus serie que responde a un protocolo inventado por Apple y que también se denomina FireWire. En el IEEE 1394, los datos (que pueden ser tanto de audio como de vídeo) son transmitidos por paquetes a una velocidad de hasta 400 Mbits por segundo. En la actualidad es utilizado, dentro del ámbito del audio High End, en los procesadores digitales de audio de la japonesa Esoteric.

 

  • ES-LINK: Es un formato de interconexión para señales de banda pasante muy amplia 8es decir de muy alta resolución) utilizado por los procesadores digitales de audio de referencia de la firma nipona Esoteric. En su versión ES-LINK3 admite señales PCM de hasta 48 bits/176’4 kHz, a la vez que son compatibles con el estándar profesional “Dual AES 8Fs”, que trabaja con señales digitales de hasta 24 bits/352’8 kHz.
     
  • HDMI (High-Definition Multimedia Interface): Más habitual en los componentes audiovisuales que en los de audio digital “puro”, el HDMI es, no obstante, utilizado en algunos productos de altas prestaciones para el transporte de señales de audio (tanto estereofónicas como multicanal) de alta resolución.