Mostrar/Ocultar TOC

Tabla de Contenidos del Libro
Prefacio
Capítulo 1: Introducción
Capítulo 2: Fundamentos
Capítulo 3: Mapas de Bits
Capítulo 4: Archivos Vectoriales
Capítulo 5: Metaarchivos
Capítulo 6: Dependencias de Plataforma
Capítulo 7: Conversión de Formatos
Capítulo 8: Trabajando con Archivos Gráficos  
Capítulo 9: Compresión
Capítulo 10: Multimedia
Formato: Adobe Illustrator
Formato: Adobe Photoshop
Formato: Atari ST
Formato: AutoCAD DXF
Formato: Autodesk 3D Studio
Formato: BDF
Formato: BRL-CAD
Formato: BUFR
Formato: CALS Raster
Formato: CGM
Formato: CMU
Formato: DKB
Formato: Dore Raster
Formato: DPX
Formato: Dr. Halo
Formato: DVM Movie
Formato: PostScript Encapsulado
Formato: FaceSaver
Formato: FAX
Formato: FITS
Formato: FLI
Formato: GEM Raster
Formato: GEM VDI
Formato: GIF
Texto en Inglés del Capítulo 10
Imagen del CD-ROM de la 2° Edición
Imagen del CD-ROM de la 1° Edición (Torrent y HTTPS)
Versión Hipertexto del CD-ROM de la 2° Edición (En Inglés)
Versión Hipertexto del CD-ROM de la 2° Edición (En Ruso)

Capítulo 10 — Multimedia

Capítulo 10 — Multimedia

La mayoría de este libro describe formatos de archivo de imagen y los tipos de compresión de datos que emplean. Sin embargo, las imágenes estáticas no son el único tipo de datos que puede almacenarse en un archivo. Este capítulo describe los otros tipos de datos gráficos que se están volviendo populares.



Más Allá de los Formatos de Archivo Gráfico Tradicionales

Un tema candente en el mundo de las computadoras personales hoy en día es la multimedia. Las aplicaciones multimedia combinan texto, gráficos, audio, y video en prácticamente la misma manere que un filme de imágenes en movimiento combina sonido y fotografía en movimiento. Pero, a diferencia de las imágenes en movimiento, la multimedia puede ser interactiva a través del uso de un teclado, ratón, joystick, u otro dispositivo de entrada para controlar el comportamiento de la presentación multimedia. La salida de una aplicación multimedia puede ser a través de bocinas convencionales o un sistema estéreo, un sintetizador de música o voz, u otros tipos de dispositivos de salida.

Un sistema convencional estéreo o televeción y una grabadora de cinta de video (VCR) son dispositivos de información pasiva. Puedes subir y bajar el volumen de un estéreo, cambiar el color de una imagen de televisión, o adelantar un VCR, pero este tipo de control es muy limitado en capacidad y se usa solo intermitentemente. Cuando usas un dispositivo de información pasiva, normalmente solo te sientas y miras la images y escuchas el sonido.

Cualquiera que haya jugado un juego de computadora o de consola ha experimentado un dispositivo de información activa. Los juegos en tu consola de video local, o conectadas a la televisión de tu cuarto (y por lo tanto permanentemente conectados permanentemente a las manos de tu hijo de ocho años), requieren entradas constantes a fin de funcionar apropiadamente. Y, si bien las vistas y sonidos de dicho juego pueden ser asombrosos, el control y la utilidad que un usuario gana de un dispositivo de información activa es solo ligeramente mayor que el ganado usando uno pasivo.

Las computadoras personales no son solo dispositivos de información activa, sino también dispositivos interactivos. Una computadora hace muy poco por sí sola a menos que un usuario interactúe con esta. Las computadoras son, como tú esperarías, plataformas excelentes para aplicaciones multimedia interactivas.

La multimedia interactiva provee más que solo la reacción de estímulo-respuesta de un videojuego. También permite que una colección de datos complejos sean manipulados con un control mucho más fino de lo que es posible usando dispositivos no interactivos. Aplicaciones multimedia de muestra en existencia hoy incluyen:

La multimedia computarizada está todavía en su infancia. Actualmente es una herramienta usada para propósitos educacionales y de entretenimiento y se está expandiendo en el mundo comercial. Probablemente no hay un sistema de control computarizado complejo que no sería fácil de aprender o de usar si tuviera una interfaz multimedia estandarizada. Y un día puedes incluso ver aplicaciones multimedia con algoritmos heurísticos que le permitirán a tu computadora aprender tanto de ti como tú lo harás de tu computadora.



Formatos Multimedia

Los datos e información multimedia deben almacenarse en un archivo de disco usando formatos similares a los formatos de archivo de imagen. Los formatos multimedia, sin embargo, son mucho más complejos que la mayoría de otros formatos de archivo a causa de la amplia variedad de datos que deben almacenar. Dichos datos incluyen texto, datos de imagen, datos de audio y video, animaciones de computadora, y otras formas de datos binarios, atles como Musical Instrument Digital Interface (MIDI), información de control, y fuentes gráficas. (Mira la sección del "Estándar MIDI" más adelante en este capítulo.) Los formatos multimedia típicos no definen nuevos métodos de almacenar estos tipos de datos. En su lugar, ofrecen la habilidad de almacenar datos en uno o más formatos de datos existentes que ya están en uso general.

Por ejemplo, un formato multimedia puede permitir que texto se almacene como datos PostScript o Rich Text Format (RTF) en lugar de en formato de texto plano ASCII convencional. Los mapas de bits de imagen estática pueden almacenarse como archivos BMP o TIFF en lugar de como mapas de bits crudos. De manera similar, los datos de audio, video y animación pueden almacenarse usando formatos reconocidos por la industria especificados como formatos soportados por ese formato multimedia.

Los formatos multimedia también están optimizados para los tipos de datos que almacenan y el formato del medio en el que se almacenan. La información multimedia comúnmente se almacena en CD-ROM. A diferencia de los archivos de disco convencionales, los CD-ROM están limitados en la cantidad de información que pueden almacenar. Por lo tanto, un formato multimedia debe hacer el mejor uso de las técnicas de almacenamiento de datos disponibles para almacenar eficientemente los datos en el medio del CD-ROM.

Hay muchos tipos de dispositivos y estándares de CD-ROM que pueden usarse por las aplicaciones multimedia. Si estás interesado en la multimedia, deberías volverte familiar con ellos.

El Compact Disc original introducido por primera vez a inicios de los 1980s se usó para almacenar solamente información de audio usando el estándar CD-DA (Compact Disc-Digital Audio) producido por Phillips y Sony CD-DA (también llamado el Red Book) es un formato de almacenamiento óptico de datos que permite el almacenamiento de hasta 74 minutos de audio (764 minutos de datos) en un CD-ROM convencional.

El estándar CD-DA evolucionó en el estándar CD-XA (Compact Disc-Extended Architecture), o lo que llamamos el CD-ROM (Compact Disc-Read Only Memory). El CD-XA (también llamado el Yellow Book) permite el almacenamiento tanto de audio y datos digitales. El audio puede combinarse con los datos, tales como texto, gráficos, y video, de modo que todos puedan leerse al mismo tiempo. Un sistema de archivos ISO 9660 puede también estar codificado en un CD-ROM, permitiendo que sus archivos sean leídos por una amplia variedad de plataformas de sistemas de computadora diferentes.

El estándar CD-I (Compact Disc-Interactive) define el almacenamiento de datos multimedia interactivos. El CD-I (también llamado el Green Book) describe un sistema de computadora con capacidades de reproducción de audio y video diseñado específicamente para el mercado del consumidor. Las unidades CD-I permiten la integración de aplicaciones multimedia totalmente interactivas en sistemas de computadora del hogar.

Un estándar aún en evolución es el CD-R (Compact Disc-Recordable o Compact Disc-Write Once) el cual especifica un CD-ROM que puede escribirse por una computadora personal de escritorio y ser leído por cualquier reproductor de CD-ROM.

Para información más específica sobre multimedia, refiérete a los artículos sobre los formatos multimedia RIFF, DVI, QuickTime, y MPEG en la Parte Dos de este libro.



Tipos de Datos

Las siguientes secciones describen varios tipos de datos que puedes encontar, además de datos estáticos de gráficos, en archivos multimedia.

Animación

En algún punto entre el mundo inmóvil de las imágenes estáticas y el mundo en tiempo real de las imágenes de video reside el mundo de páginas cambiantes de la animación de computadora. Todas las secuencias animadas vistas en programas educacionales, renderizados CAD en movimiento, y juegos de computadora, son secuencias animadas por computadora (y en muchos casos, generadas por computadora).

La animación tradicional de caricaturas es poco más que una serie de celdas de arte, cada una conteniendo una ligera variación posicional de los sujetos animados. Cuando un gran número de estas celdas se despliega en secuencia y a una tasa rápida, las figuras animadas parecen moverse al ojo humano.

Una secuencia animada por computadora funciona exactamente de la misma manera. Se crea una serie de imágenes de un sujeto; cada imagen contiene una perspectiva ligeramente diferente del sujeto animado. Cuando estas imágenes se despliegan (se reproducen) en la secuencia apropiada y con la velocidad apropiada (tasa de cuadros, o frame rate) el sujeto parece moverse.

La animación computarizada realmente es una combinación tanto de imágenes estáticas y en movimiento. Cada cuadro, o celda de una animación, es una imagen estática que requiere compresión y almacenamiento. Un archivo de animación, sin embargo, debe almacenar los datos de cientos o miles de cuadros de animación y también debe proveer la información necesaria para reproducir los cuadros usando el modo de visualización apropiado así como la tasa de cuadros.

Los formatos de archivo de animación solo son capaces de almacenar imágenes estáticas y no información de video real. Sin embargo, es posible para la mayoría de formatos multimedia el contener información de animación, porque la animación es realmente un tipo de datos mucho más fácil de almacenar que el video.

Los esquemas de compresión de imagen usados en los archivos de animación son también usualmente mucho más simples que la mayoría de los usados en la compresión de video. La mayoría de archivos de animación usan un esquema de compresión delta, el cual es una forma de Codificación Run-Length que almacena y comprime solo la información que es diferente entre dos imágenes (en lugar de comprimir cada cuadro de imagen completamente). El RLE es relativamente fácil de descomprimir en tiempo real. (Mira el Capítulo 9, Compresión de Datos, para una descripción de la compresión RLE.)

Almacenar animaciones usando un formato multimedia también produce el beneficio de agregar sonido a la animación (¿qué es una caricatura sin sonido?). La mayoría de formatos de animación no pueden almacenar sonido directamente en sus archivos y deben depender de un archivo separado de sonido en disco el cual se lee por la aplicación que está reproduciendo la animación.

Las animaciones no solo son para entretener niños y adultos. Las secuencias animadas se usan por programadores CAD para rotar objetos 3D para que se puedan observar desde diferentes perspectivas; los datos matemáticos recolectados por una aeronave o satélite pueden renderizarse a una secuencia de sobrevuelo animada. Los efectos especiales de película se benefician grandemente de la animación por computadora.

Para información más específica sobre la animación, refiérete a los artículos sobre los formatos de animación FLI y GRASP en la Parte Dos de este libro.

Video Digital

Un paso más allá de la animación es la emisión de video. Tu televisión y grabadora de cinta de video son mucho más complejos que un proyectos de 8mm casero y que tu pared de la cocina. Hay muchas señales complejas y estándares complicados que están involucrados en la transmisión de esas repeticiones de media noche a través de las ondas de señal abierta y el cable. Solo en los últimos años ha sido siquiera capaz la computadora personal de trabajar con datos de video.

Los datos de video ocurren normalmente como señales analógicas continuas. A fin de que una computadora procese estos datos de video, debemos convertir las señales analógicas a un formato digital no continuo. En un formato digital, los datos de video pueden almacenarse como una serie de bits en un disco duro o en la memoria de la computadora.

El proceso de convertir una señal de video a un flujo de bits digitales es llamado conversión analógica a digital (conversión A/D), o digitalización. La conversión A/D ocurre en dos pasos:

  1. El muestreo captura datos del flujo de video.

  2. La cuantización convierte cada muestra capturada en un formato digital.

Cada muestra capturada desde el flujo de video se almacena típicamente como un entero de 16 bits. La tasa a la cual las muestras se recolectan es llamada la tasa de muestreo (sampling rate). La tasa de muestreo se mide en el número de muestras capturadas por segundo (muestras/segundo). Para el video digital, es necesario capturar millones de muestras por segundo.

La cuantización convierte el nivel de una muestra de señal de video en un valor binario discreto. Este valor aproxima el nivel de la muestra de la señal de video original. El valor se selecciona al comparar la muestra de video a una serie de valores de umbral predefinidos. El valor del umbral (threshold) más cercano a la amplitud de la señal muestreada se usa como el valor digital.

Una señal de video contiene varios componentes diferentes que están mezclados entre sí en la misma señal. Este tipo de señal es llamada una señal de video compuesta (composite) y no es realmente útil en el video de computadora de alta calidad. Por lo tanto, una señal estándar de video compuesto se separa en sus componentes básicos antes de digitalizarse.

El formato de señal de video compuesta definido por el sistem a de televisión a color de NTSC (National Television Standards Committee) se usa en los Estados Unidos. Los sistemas de televisión a color PAL (Phase Alternation Line) y SECAM (Sequential Coleur Avec Memoire) se usan en Europa y no son compatibles con NTSC. La mayoría de equipos de video de computadora soportan uno o más de estos estándares de sistema.

Los componentes de una señal de video compuesta normalmente se decodifican en tres señales separadas que representan los tres canales de un modelo de espacio de color, tales como RGB, YUV, o YIQ. Si bien el modelo de color RGB es usado muy comúnmente en las imágenes estáticas, los modelos YUV, YIQ o YCbCr se usan más a menudo en imágenes de video en movimiento. La práctica de la TV usa modelos de color YUV o similares porque los canales U y V pueden ser submuestreados para reducir el volumen de los datos sin degradar materialmente la calidad de la imagen.

Los tres canales compuestos mencionados aquí son los mismos canales usados en la etapa de submuestreo (downsampling) de la compresión JPEG; para más información, mira la sección llamada "Compresión JPEG" del Capítulo 9.

Una vez que la señal de video se convierte a un formato digital, los valores resultantes pueden representarseen un dispositivo de visualización como pixeles. Cada pixel es un punto de color en el display de video, y los pixeles se arreglan en filas y columnas tal como en un mapa de bits. Sin embargo, a diferencia de un mapa de bits estático, los pixeles en una imagen de video están siendo actualizados constantemente por cambios de intensidad y color. Esta actualización es llamada escaneo, y ocurre 60 veces por segundo en las señales de video NTSC (50 veces por segundo para PAL y SECAM).

Una secuencia de video se despliega como una serie de cuadros. Cada cuadro es una instantánea de un momento en el tiempo de los datos de video en movimiento, y es muy similar a una imagen estática. Cuando los cuadros se reproducen en secuencia en un dispositivo de visualización, se crea una renderización de los datos de video originales. En el video de tiempo real, la tasa de reproducción es de 30 cuadros por segundo. Esta es la tasa mínima necesariaz para que el ojo humano mezcle con éxito cada cuadro de video en una imagen continua, con movimiento suave.

Un cuadro individual de datos de video puede ser muy grande en tamaño. Un cuadro de video con una resolución de 512x482 contendrá 246,784 pixeles. Si cada pixel contiene 24 bits de información de color, el cuadro requerirá 740,352 bytes de espacio de memoria o de disco para almacenarlo. Asumiendo que hay 30 cuadros por segundo para el video en tiempo real, ¡una secuencia de video de 10 segundos tendría más de 222 megabytes de tamaño! Es claro que no puede haber video en la computadora sin al menos un método eficiente de compresión de datos de video.

Hay muchos métodos de codificación disponibles que comprimirán datos de video. La mayoría de estos métodos involucra el uso de un esquema de codificación de transformada, que usualmente emplea una Transformada Discreta de Coseno de Fourier (DCT). Estas transformadas reducen físicamente el tamaño de los datos de video al descartar selectivamente partes innecesarias de la información digitalizada. Los esquemas de compresión de transformadas usualmente descartan de 10 a 25 por ciento o más de los datos de video originales, dependiendo en gran medida del contenido de los datos de video y hasta en el que la calidad de los datos de imagen se considere aceptable.

Usualmente una transformada se efectúa en un cuadro de video original. La transformada misma no produce datos comprimidos. Solamente descarta datos que no se usan por el ojo humano. A los datos transformados, llamados coeficientes, debe aplicárseles compresión para reducir el tamaño de los datos aún más. Cada cuadro de datos puede comprimirse usando un algoritmo de codificación aritmética, o incluso un esquema de compresión más complejo tal como JPEG. (Mira el Capítulo 9 para una discusión sobre estos métodos de compresión.) Este tipo de codificación entre cuadros usualmente resulta en tasas de compresión entre 20:1 a 40:1 dependiendo de los datos en el cuadro. Sin embargo, incluso tasas de compresión mayores pueden resultar si, en lugar de mirar a cuadros individuales como si fueran imágenes estáticas, miramos a los múltiples cuadros como imágenes temporales.

En una secuencia de video típica, muy pocos datos cambian entre uno y otro cuadro. Si solo codificamos los pixeles que cambian entre cuadros, la cantidad de datos requerida para almacenar un único cuadro de video cae significativamente. Este tipo de compresión se conoce como compresión delta entre cuadros, o en el caso del video, compensación de movimiento (motion compensation). Los esquemas típicos de compensación de movimiento que solo codifican deltas de cuadros (datos que han cambiado entre cuadros) pueden, dependiendo de los datos, lograr tasas de compresión de hasta 200:1.

Este es solo un tipo posible de método de compresión de video. Hay muchos otros tipos de esquemas de compresión de video, algunos de los cuales son similares y algunos de los cuales son diferentes. Para mayor información sobre los métodos de compresión, refiérete al Capítulo 9 y a los artículos en la Parte Dos que describen los formatos de archivo multimedia.

Audio Digital

Todos los formatos de archivo multimedia son capaces, por definición, de almacenar información de sonido. Los datos de sonido, tal como los datos gráficos y de video, tienen sus propios requerimientos especiales cuando se están leyendo, escribiendo, interpretando, y comprimiendo. Antes de mirar cómo se almacena el sonido en un formato multimedia, debemos mirar a cómo el sonido en cuestión se almacena como datos digitales.

Todos los sonidos que escuchamos ocurren en la forma de señales analógicas. Un sistema analógico de grabación de sonido, tal como una grabadora convencional de cinta, captura la forma completa de la onda de sonido y la almacena en un formato analógico en un medio tal como cinta magnética.

Ya que las computadoras son ahora dispositivos digitales, es necesario almacenar información de sonido en un formato digitalizado que las computadoras puedan usar directamente. Un sistema digital de grabación de audio no graba la forma entera de onda como lo hace un sistema analógico (con la excepción de los sistemas de Cinta de Audio Digital [Digital Audio Tape, o DAT]). En su lugar, una grabadora digital captura una forma de onda en intervalos específicos, llamados la tasa de muestreo. Cada instantánea de forma de onda capturada se convierte a un valor entero binario y luego se almacena en una cinta magnética o disco.

Almacenar audio como muestras digitales es conocido como Modulación de Código de Pulso (Pulse Code Modulation, o PCM). PCM es un algoritmo simple de cuantización o digitación (conversión de audio a digital) el cual convierte linearmente todas las señales análogas a muestras digitales. Este proceso es usado comúnmente en todos los CD-ROMs de audio.

La Modulación de Código de Pulso Diferencial (PCM) es un esquema de codificación de audio que cuantiza la diferencia entre muestras en lugar de las muestras en sí. Ya que las diferencias se representan fácilmente por valores más pequeños que aquellos de las muestras mismas, se pueden usar menos bits para codificar el mismo sonido (por ejemplo, la diferencia entre dos muestras de 16 bits puede tener solo cuatro bits de tamaño). Por esta razón, DPCM también se considera un esquema de compresión de audio.

Otro esquema de compresión de audio, el cual usa cuantización de diferencia, es la Modulación Adaptiva de Código de Pulso Diferencial (ADPCM). DPCM es un algoritmo no adaptivo. Es decir, este no cambia la manera en la que codifica los datos basándose en el contenido de los datos. DPCM usa el número de bits de la muestra y cambia su esquema de codificación basándose en los datos que está codificando. ADPCM se adapta específicamente al usar menos bits para representar señales de menor nivel de lo que lo hace para representar señales de mayor nivel. Muchos de los esquemas de compresión de audio más comúnmente usados están basados en ADPCM. Adaptiva Adaptiva Los datos de audio digital simplemente son una representación digital de un sonido. Estos datos pueden escribirse a un archivo binario usando un formato de archivo de audio para su almacenamiento permanente prácticamente de la misma manera que los datos de mapa de bits se preservan en un formato de archivo de imagen. Los datos pueden leerse por una aplicación de software, pueden enviarse como datos en un dispositivo de hardware, e incluso pueden almacenarse como un CD-ROM.

La calidad de una muestra de audio se determina al compararlo al sonido original del cual fue muestreado. Entre más idéntica sea la muestra al sonido original, mayor es la calidad de la muestra. Esto es similar a comparar una imagen al documento o fotografía original del cual fue escaneado.

La calidad de los datos de audio se determina por tres parámetros:

La resolución de la muestra se determina por el número de bits por muestra. Entre mayor sea el tamaño de la muestra, más alta será la calidad de la muestra. Tal como la calidad aparente (resolución) de una imagen se reduce al almacenar menos bits de datos por pixel, también la calidad de la grabación del audio digital se reduce al almacenar menos bits por muestra. Los tamaños de muestra típicos son 8 bits y 16 bits.

La tasa de muestreo (sampling rate) es el número de veces por segundo que la forma de onda análoga se leyó para recolectar los datos. Entre mayor la tasa de muestreo, mayor la calidad del audio. Una tasa de muestreo alta recolecta más datos por segundo que una tasa de muestreo menor, requiriendo por lo tanto más espacio de memoria y de disco para almacenarse. Las tasas de compresión comunes son 44.100 kHz (calidad más alta), 22.254 kHz (calidad media), y 11.025 kHz (menor calidad). Las tasas de muestreo se miden usualmente en términos de señal de procesamiento de hertz (Hz) o kilohertz (kHz), pero el término muestras por segundo (muestras/segundo) es más apropiado para este tipo de medidas.

Una fuente de sonido puede muestrearse usando un canal (muestreo monoaural) o dos canales (muestreo estéreo). El muestreo de dos canales proporciona mayor calidad que el muestreo mono y, como puede que hayas adivinado, produce dos veces más datos al duplicar el número de muestras capturadas. Muestrear un canal por un segundo a 11,000 muestras/segundo produce 11,000 muestras. Muestrear dos canales a la misma tasa, sin embargo, produce 22,000 muestras/segundo.

La cantidad de datos binarios producidos al muestrear incluso unos pocos segundos de audio es bastante grande. Diez segundos de datos muestreados a una baja calidad (un canal, resolución de muestra de 8 bits, tasa de muestreo 11.025 muestras/segundo) produce aproximadamente 108K de datos (88.2 Kbits/segundo). Agregar un segundo canal duplica la cantidad de datos para producir un archivo de casi 215K (176 Kbits/segundo). Si incrementamos la resolución de la muestra a 16 bits, el tamaño de los datos se duplica nuevamente a 430K (352 Kbits/segundo). Si ahora incrementamos la tasa de muestreo a 22.05 Kmuestras/segundo, la cantidad de datos producidos se duplica nuevamente a 860K (705.6 Kbits/segundo). En la calidad más alta usada generalmente (dos canales, resolución de muestra de 16 bits, tasa de muestreo de 44.1 Kmuestras/segundo), nuestros 10 segundos de audio ahora requieren 1.72 megabytes (1411.2 Kbits/segundo) de espacio en disco para almacenarse.

Considera cuán poca información puede realmente almacenarse en 10 segundos de sonido. La canción musical típica tiene por lo menos tres minutos de duración. Los videos musicales tienen de 5 a 15 minutos de duración. Un programa de televisión típico tiene de 30 a 60 minutos de duración. Los videos de películas pueden tener tres horas o más de duración. Estamos hablando de una gran cantidad de espacio en disco aquí.

Una solución a los requerimientos de almacenamiento masivo de datos de audio de alta calidad es la compresión de datos. Por ejemplo, el estándar CD-DA (Compact Disc-Digital Audio) lleva a cabo muestreo mono o estéreo usando una resolución de muestra de 16 bits y una tasa de muestreo de 44.1 muestras/segundo, haciéndolo un formato de muy alta calidad tanto para música como para aplicaciones de idiomas. Almacenar cinco minutos de información CD-DA requiere aproximadamente 25 megabytes de espacio en disco — solo la mitad de la cantidad de espacio que se requeriría si los datos de audio estuvieran descomprimidos.

Los datos de audio, en común con la mayoría de datos binarios, contienen una moderada cantidad de redundancia que puede eliminarse con la compresión de datos. Los métodos de compresión convencionales usados en muchos programas de archivamiento (zoo y pkzip, por ejemplo) y lo formatos de archivo de imagen no hacen un muy buen trabajo en comprimir datos de audio (típicamente 10 a 20 por ciento). Esto es porque los datos de audio están organizados de forma muy diferente que los datos ASCII o datos binarios normalmente manejados por estos tipos de algoritmos.

Los algoritmos de compresión de audio, tal como los algoritmos de compresión de imagen, pueden categorizarse como con pérdida y sin pérdida. Los métodos de compresión con pérdida no descartan ningún dato. El paso de descompresión produce exactamente los mismos datos que los que se leyeron por el proceso de compresión. Una forma simple de compresión de audio sin pérdida es codificar con Huffman las diferencias entre cada muestra sucesiva de 8 bits. La codificación Huffman es un algoritmo de compresión sin pérdida y por lo tanto los datos de audio se preservan en su totalidad.

Los esquemas de compresión con pérdida descartan datos basándose en la percepción del sistema psicoacústico del cerebro humano. El ojo es muy indulgente con la pérdida de un cuadro de video casual o la reducción del número de colores por ahí. Sin embargo, el oído nota cambios incluso ligeros en los sonidos, especialmente cuando se entrena específicamente para reconocer infidelidades auditivas y discrepancias. No obstante, entre mayor sea la calidad de una muestra de audio, más datos se requerirán para almacenarla. Tal como con los esquemas de compresión con pérdida de imagen, a veces necesitas hacer una decisión subjetiva entre la calidad y el tamaño de los datos.

Audio

Actualmente no hay un "formato de archivo de intercambio de audio" que se use ampliamente en la industria de audio de computadora. Dicho formato permitiría que una amplia variedad de datos de audio fuera fácilmente escrita, leída y transportada entre diferentes plataformas de hardware y sistemas operativos.

Sin embargo, la mayoría de formatos de archivo de audio son muy específicos a una máquina y no se prestan muy bien para el intercambio. Varios formatos multimedia son capaces de encapsular una amplia variedad de formatos de audio, pero no describen ningún formato de audio nuevo en sí mismos.

Muchos formatos de archivo de audio tienen cabeceras tal como los archivos de imagen. La información de sus cabeceras incluye parámetros particulares a datos de audio, incluyendo tasa de muestreo, número de canales, resolución de muestra, tipo de compresión, y así sucesivamente. Un campo de identificación (número "mágico") también se incluye en varios formatos de archivo de audio.

Varios formatos solo contienen datos de audio crudos y no tienen cabecera de archivo. Cualquier parámetro que estos formatos usen tienen un valor fijo y por lo tanto sería redundante almacenarlos en una cabecera de archivo. Formatos orientados a flujos contienen paquetes (porciones) de información anidadas en puntos estratégicos dentro de los datos crudos de audio mismos. Tales formatos son muy dependientes de plataforma y requerirían un lector o conversor de formato de archivo de audio para tener conocimiento previo sobre lo que son estos valores de parámetros.

La mayoría de formatos de archivo de audio pueden identificarse por sus tipos de archivo o extensiones. Algunos formatos de sonido comunes son:

.AU
.SND
HCOM
.VOC
.WAV
AIFF
8SVX
Sun Microsystems
NeXT
Apple Macintosh
SoundBlaster
Microsoft Waveform
Apple/SGI
Apple/SGI


Un formato multimedia puede elegir ya sea definir sus propio formato de datos de audio internos o simplemente encapsular un formato de archivo de audio existente. Los archivos de Microsoft Weveorm son archivos RIFF con un componente individual de archivo de audio Waveform mientras que los archivos de Apple QuickTime contienen sus propias estructuras de datos únicas de los archivos QuickTime. Para mayor información sobre audio, mira la sección llamada "Formatos de Audio" en el Capítulo 1, Introducción.

Estándar MIDI

El Musical Instrument Digital Interface (MIDI) es un estándar de la industria para representar sonido en formato binario. Sin embargo, MIDI no es un formato de audio. No almacena sonidos digitalmente muestreados en cuestión. En su lugar, MIDI almacena una descripción de sonidos, de la misma manera que un formato de imagen vectorial almacena una descripción de una imagen y no datos de imagen en sí.

Los sonidos en los datos MIDI se almacenan como una serie de mensajes de control. Cada mensaje describe un evento de sonido usando términos tales como tono (pitch), duración, y volumen. Cuando estos mensajes de control se envían a un dispositivo compatible con MIDI (el estándar MIDI también define el hardware de interconexión usado por dispositivos MIDI y el protocolo de comunicación usado para intercambiar la información de control) la información en el mensaje se interpreta y se reproduce por el dispositivo.

Los datos MIDI pueden estar comprimidos, tal como cualquier otro dato binario, y no requiere algoritmos especiales de compresión en la manera en que los datos de audio lo necesitan.



Para Mayor Información

Información sobre productos multimedia de Microsoft puede obtenerse desde la siguiente dirección:

Microsoft Corporation
Multimedia Systems Group
Product Marketing
One Microsoft Way
Redmond, WA 98052-6399

Los siguientes documentos, muchos de los cuales están incluidos en el Kit de Desarrollo Multimedia de Microsoft (MDK), contienen información sobre aplicaciones y formatos de archivo multimedia:

Microsoft Windows Multimedia Development Kit (MDK) 1.0 Programmers Reference

Microsoft Windows 3.1 Software Development Kit (SDK) Multimedia Programmer's Reference

Microsoft Windows Multimedia Programmer's Guide

Microsoft Windows Multimedia Programmer's Reference

Multimedia Developer Registration Kit (MDRK)

Multimedia Programming Interface and Data Specification 1.0, August 1991

Microsoft Multimedia Standards Update March 13, 1993, 2.0.0

Una gran cantidad de información útil sobre archivos y aplicaciones multimedia puede encontrarse en el siguiente sitio FTP:

   ftp://ftp.microsoft.com/developer/drg/Multimedia/

Mira estas páginas para información multimedia:

http://www.microsoft.com
   Página de inicio de Microsoft

http://ac.dal.ca/~dong/contents.html
   Formatos de archivo multimedia en Internet

http://vizwiz.gmd.de/MultimediaInfo/
   Índice de recursos de información multimedia

http://www.yahoo.com/Computers_and_Internet/Multimedia
   Recursos multimedia de Yahoo

La especificación MIDI puede obtenerse desde:

International MIDI Association (IMA)
5316 West 57th Street
Los Angles, CA 90056
213-649-6434

Refiérete a los artículos sobre Microsoft RIFF, Intel DVI, MPEG y QuickTime en la Parte Dos de este libro para información específica sobre formatos de archivo multimedia.

 n0HCo(-JT' &N5i5詗7c'wOưQ|c!@|%A"@[0d1̖Y'zb,5͔Ow( 2+FcI`Fqlzv(7LX rfYvNzzYOA#.E-94Zn!S 52@K9my;.}U݀r&jn2WWHJ`Q}u_tro {rWL;=_ؼ