Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas...

65
Tema 6.- Vídeo. Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 1/65 Tema 6.- Vídeo.

Transcript of Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas...

Page 1: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 1/65

Tema 6.- Vídeo.

Page 2: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65

Índice ÍNDICE........................................................................................................................................................................ 2

VÍDEO. ........................................................................................................................................................................ 3 6.1. INTRODUCCIÓN. ............................................................................................................................................. 3 6.2. BREVE HISTORIA DEL VÍDEO DOMÉSTICO....................................................................................................... 3 6.3. VÍDEO ANALÓGICO. ....................................................................................................................................... 4

6.3.1. Señal de vídeo analógico. ..................................................................................................................... 4 6.3.2. Estándares de Vídeo Analógico. ........................................................................................................... 8

6.4. VÍDEO DIGITAL.............................................................................................................................................. 9 6.4.1. Señal de vídeo digital. ......................................................................................................................... 10 6.4.2. Estándares de vídeo digital. ................................................................................................................ 10

6.5. FORMATOS ESTÁNDARES DE VIDEO DIGITAL................................................................................................ 11 6.5.1. Vídeo CD............................................................................................................................................. 11 6.5.2. Super Vídeo CD .................................................................................................................................. 13 6.5.3. DVD .................................................................................................................................................... 14 6.5.4. DV ....................................................................................................................................................... 22

6.6. COMPRESIÓN DE VÍDEO................................................................................................................................ 23 6.6.1. Estándares para compresión de vídeo. ............................................................................................... 24 6.6.1.1. MJPEG............................................................................................................................................ 24 6.6.1.2. H.261............................................................................................................................................... 24 6.6.1.3. MPEG. ............................................................................................................................................ 25 6.6.1.3.1. MPEG-4. ......................................................................................................................................... 28 6.6.1.4. Cinepak ........................................................................................................................................... 29 6.6.1.5. Sorenson Video ............................................................................................................................... 29 6.6.1.6. Indeo ............................................................................................................................................... 30 6.6.1.7. QuickTime ....................................................................................................................................... 30 6.6.1.8. Animation........................................................................................................................................ 30 6.6.2. Nuevos formatos de compresión de vídeo ........................................................................................... 30 6.6.2.1. DIVX/XVID ..................................................................................................................................... 30 6.6.2.2. xVCD............................................................................................................................................... 33 6.6.3. Contenedores de vídeo ........................................................................................................................ 34 6.6.3.1. AVI .................................................................................................................................................. 34 6.6.3.2. OGM ............................................................................................................................................... 37 6.6.3.3. Matroska ......................................................................................................................................... 37

6.7. HARDWARE PARA EDITAR VÍDEO ................................................................................................................. 41 6.7.1. Tarjetas firewire.................................................................................................................................. 43 6.7.2. Videocámaras digitales....................................................................................................................... 45

6.8. PROCESO DE CREACIÓN DE VÍDEO EN MULTIMEDIA...................................................................................... 54 6.8.1. Diseño (guión)..................................................................................................................................... 54 6.8.2. Filmación/obtención de los cortes de vídeo y audio ........................................................................... 55 6.8.3. Revisión y digitalización ..................................................................................................................... 55 6.8.4. Edición/montaje .................................................................................................................................. 55 6.8.5. Integración.......................................................................................................................................... 55

6.9. EDICIÓN DE VÍDEO ....................................................................................................................................... 56 6.9.1. Edición lineal y no lineal .................................................................................................................... 56 6.9.2. Efecto croma ....................................................................................................................................... 56

6.10. VÍDEO EN INTERNET ................................................................................................................................ 56 6.10.1. Soporte de vídeo para Web ................................................................................................................. 57 6.10.2. Insertar clips en páginas Web............................................................................................................. 58 6.10.3. Vídeo Conferencia en Web.................................................................................................................. 58 6.10.4. Real Audio & Vídeo ............................................................................................................................ 60 6.10.5. Vídeo Streaming.................................................................................................................................. 60

6.11. HERRAMIENTAS PARA EL TRATAMIENTO DE VÍDEO.................................................................................. 63

Page 3: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 3/65

Vídeo.

6.1. Introducción. Una imagen se puede ver como una distribución espacial de intensidad que es constante con

respecto al tiempo. Si consideramos que una imagen puede mostrar una variación con este parámetro, se estará haciendo mención a un vídeo o secuencia de imágenes, en la que esa variación temporal se expresa en forma de una secuencia de imágenes. Así se habla de señal de vídeo para formalizar el hecho de referirse a una representación analógica o digital que varía en el tiempo y en la que la información espaciotemporal se ordena de acuerdo a una convención predefinida de muestreo (scanning).

Podemos considerar la animación como una secuencia de imágenes caracterizadas por su

resolución, número de colores y, un factor distintivo con respecto a la imagen estática que es el número de imágenes que se muestra por unidad de tiempo (FRAME RATE), de forma que la impresión obtenida es que existe movimiento. Para dar una sensación de movimiento continuo, el valor del frame rate debe estar alrededor de las 25 imágenes por segundo.

Como es obvio, nos encontramos nuevamente con el problema de las altas necesidades de espacio

de almacenamiento necesarias para poder tratar adecuadamente este medio. Sin embargo, existen técnicas de compresión basadas en los cambios que se producen entre imágenes consecutivas que pueden reducir considerablemente el tamaño final del fichero generado (Ej: Persona hablando con el mismo fondo y la cámara fija).

Es útil que la secuencia de imágenes incluya información de sonido en el mismo conjunto. Para

obtener la correcta sincronización entre sonidos e imágenes, se suelen mezclar dichas informaciones y a este fenómeno se le llama interleaving: “una pequeña cantidad de imágenes se alterna con la información de audio asociada, después de la cual se dispone otra pieza de vídeo con su correspondiente información de sonido, etc.”.

Veamos la terminología que se emplea en este campo a partir de la representación analógica que

es la forma tradicional de abordar este tema, para pasar después a la representación digital de la misma.

“Video or motion video arrives originally through some type of camera, which records what it sees as a sequence of images”.

6.2. Breve historia del vídeo doméstico La historia del vídeo doméstico es más larga de lo que parece:

• En 1927, John Logie Baird inventó la "fonovisión", para grabar imágenes de televisión en

discos de fonógrafo. La calidad era horrible, pero para empezar... • En 1951, Bing Crosby Enterprises construyó el primer magnetoscopio en b/n, grabador

de cinta de vídeo magnética. Al año siguiente RCA desarrolló un prototipo en color. • En los sesenta se intentaron cientos de formatos y tipos distintos (Sony, Panasonic,

Philips, General Electric...), fundamentalmente para grabación y redifusión de programas de TV. La cinta era bastante ancha, de dos pulgadas.

• En los setenta empezaron a aparecer aparatos domésticos (CBS, Philips...) reduciendo el ancho de la cinta (a 3/4 de pulgada, sistema U-matic).

• En 1975 apareció el sistema Betamax de media pulgada, diseñado por Sony. • En 1977 JVC comercializó el VHS. • En 1979 Philips y Grundig sacaron el Vídeo 2000. • La política de VHS, mucho más abierta que la de Sony, junto a la mayor duración de las

cintas, provocaron que el mercado se inclinara significativamente por el VHS que, como sabemos, es el sistema que finalmente se ha impuesto en el mercado doméstico.

Page 4: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 4/65

• En los noventa está surgiendo la siguiente generación de vídeo: el digital, DV. Y con él el DVD. El vídeo digital de consumo es de calidad similar al vídeo de estudio, con 500 líneas de resolución.

La grabación de las señales de vídeo primero se intentó de modo longitudinal en la cinta (como

en audio), lo que obligaba a una gran velocidad de arrastre y una enorme longitud de cinta.

Para evitar esto se buscaron otros sistemas (helicoidal, transversal...) con más fotogramas por metro de cinta, y moviendo las cabezas de l/e además de la cinta, lo que solucionaba en gran medida los problemas anteriores.

Además de estos formatos mentados hay muchos otros que han ido existiendo a lo largo de estos

años. Los más utilizados pueden ser los siguientes: • En vídeo doméstico, VHS y Super-VHS • En cámaras de vídeo domésticas, 8mm (Vídeo-8) y Hi-8 • En vídeo profesional, Betacam, U-Matic, D1/D2 • En radiodifusión de vídeo: tipo B, tipo C

6.3. Vídeo analógico. Es el que nos encontramos en televisión: transmitido a través del aire después de haber sido

codificado (por algún esquema de modulación típicamente) o almacenado en una cinta magnética. Y en la proyección de películas en formato analógico y reproducidas a partir de medios magnéticos (cinematografía) o con medios ópticos (laser disc).

6.3.1. Señal de vídeo analógico. La señal de vídeo analógica es una señal eléctrica que varía con el tiempo y que se obtiene a partir

de muestrear, de forma periódica, la información que llega a una cámara: un patrón de distribución espacial de intensidad luminosa cambiante con el tiempo. Este proceso se conoce como barrido scanning). De esta forma se recoge la información acerca de la distribución luminosa a través de unas líneas predefinidas de muestreo, así como la información de control (sincronismos) acerca de la posición horizontal y vertical del punto de barrido en cada momento. El punto de reconocimiento de la imagen va trazando líneas casi horizontales de izquierda a derecha, volviendo a la izquierda y así sucesivamente hasta completar la pantalla.

Los métodos de barrido más comúnmente usados son: el progresivo y el entrelazado. El modo

progresivo recorre (obtiene) una imagen, que se denomina un cuadro o frame cada T segundos. En el campo de los computadores este valor es de 1/72 para monitores de alta resolución. Por otro lado, en el campo de la televisión, se utiliza un modo entrelazado de 2:1 donde se dibujan primero las líneas pares y después las impares, por esto se distingue entre el campo (field) par e impar de una imagen. De forma esquemática se muestra este proceso en la Figura 1. En la misma se puede observar que ha de existir una indicación para el final de cada línea, denominado sincronismo horizontal. También existirá una marca de final de campo o sincronismo vertical. Durante el tiempo en que el punto de barrido se desplaza de una línea a la siguiente es necesario apagar el rayo de electrones (blanking intervals) y se denomina horizontal blanking. Así también se define un vertical blanking como el que se produce desde que se termina de barrer la última línea hasta que el punto de barrido vuelve a la primera. Esto se muestra en la Figura 2.

Page 5: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 5/65

Figura 1. Esquema de barrido de un monitor.

Figura 2. Formato de raster.

A partir de este recorrido se obtiene una señal, que para el caso monocromático, toma la forma

que indica la Figura 3 donde se puede observar la parte correspondiente al recorrido sobre una de las líneas comentadas.

Figura 3. Señal de vídeo analógica B/N.

A la relación entre la anchura de la imagen respecto a su altura se la denomina relación de

aspecto (Aspect ratio) que en la televisión convencional es de 4:3 y que en la de alta definición es de 16:9. En el cine se suelen utilizar relaciones del orden de 1,85:1 y 2,35:1. Por este motivo existen diferentes configuraciones en los diferentes estándares de vídeo, como se muestra en la Figura 4.

Page 6: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 6/65

Figura 4. Tamaño de formatos de vídeo.

Por tanto, los parámetros a contemplar en la señal de vídeo analógico son los siguientes:

Intervalo en blanco horizontal: Durante la vuelta al principio de la línea hay un pequeño espacio de tiempo en que el sensor se

apaga y se envía un nivel en blanco (cero), con lo que la señal completa de un fotograma es una serie de líneas de señal separadas por intervalos de espacio horizontal (horizontal blanking intervals).

Relación de aspecto (aspect ratio):

Un parámetro importante del proceso de captación de la imagen es la relación entre la distancia horizontal y la vertical de recorrido del punto de rastreo, la relación horizontal/vertical de la imagen. La televisión se estandarizó desde el principio en 4:3 y las películas de cine se acercan más a 2:1 (el compromiso de tv de calidad actual es 16:9).

Sincronización:

Si el haz de luz que en el tubo de imagen de la TV se modula con la señal de vídeo obtenida de esta forma, la imagen original se podrá reproducir. Pero para ello tiene que haber una perfecta sincronización con el barrido horizontal y vertical de la toma inicial. Para ello se envía una señal adicional a la propia de vídeo, la señal de sincronización (sync information) que no es más que una marca de temporización horizontal y vertical.

Resolución horizontal:

Según se recorre la imagen, la señal eléctrica que produce el sensor cambia de forma contínua de acuerdo al nivel de luz y color que se ve. La resolución horizontal de la imagen corresponde al área que el sensor es capaz de detectar, que es fácil de comprobar situando líneas verticales en la filmación. Si están demasiado próximas de acuerdo a la resolución del sensor, no se apreciará su separación o las propias líneas en la reproducción. La resolución horizontal está limitada por el ancho de banda de la señal, ya que la variación de la señal eléctrica tiene que ser capaz de variar con la suficiente velocidad para reflejar los cambios que se encuentran en cada uno de los puntos sucesivos de la línea horizontal.

Resolución vertical:

También en vertical el número de líneas determinan la resolución de la imagen. Un pequeño número de líneas de cada fotograma se dejan blancas para retornar de nuevo a la línea inicial, marcando el intervalo de separación vertical (vertical blanking interval). Originalmente los intervalos horizontal y vertical daban tiempo a que el recorrido se reiniciara en los sistemas antiguos. Actualmente ese espacio en blanco es el que suele usarse para transmitir otra información mezclada con la señal de vídeo, como el teletexto o subtítulos.

Velocidad de cuadro y entrelazado:

Para que el ojo humano no perciba que hay parpadeo en una serie de imágenes mostradas de forma consecutiva ésta debe refrescarse al menos 50 veces por segundo. Para no necesitar actualizar la imagen completa tan rápido, se suele usar un truco que es refrescar en ese período sólo la mitad de la imagen, de modo que la imagen completa se refresca 25 veces (60 / 30 en otros sistemas). Si se hiciera con mitades completas de pantalla el ojo humano notaría el parpadeo (flicker), pero si se hace con líneas

Page 7: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 7/65

consecutivas es imperceptible en objetos tan limitados en altura, por lo que se suele emplear entrelazado de líneas (en un rastreo se muestran las líneas impares y en el siguiente las pares, y así sucesivamente). B/N y Color:

La señal en blanco y negro puede representarse eléctricamente sólo como un valor lineal de brillo. Para el color se necesitan tres señales independientes que representen el brillo de cada punto filtrado con un color primario: RGB, igual (lógicamente) que en el proceso de imagen fija. Debido a la complejidad de distribuir tres señales en sincronismo perfecto, la mayoría de los sistemas de vídeo no gestionan RGB (tres cables), sino que las tres señales se codifican en un formato compuesto que puede ser distribuido en un único cable (o transmitido por radiodifusión). Hay distintos tipos de composición, que son los distintos sistemas que conocemos estandarizados en el mundo: PAL, NTSC, SECAM...

Para el caso de una señal de color, se puede obtener mediante una superposición de las

distribuciones correspondientes a las componentes de las bases de un cierto espacio de representación de color. Existen diferentes estándares de señal de vídeo que difieren en los parámetros de la imagen (como la resolución espacial y temporal) y en la forma en que describen el color. Lo que hace posible clasificarlos en:

• Composite video o Vídeo Compuesto: mezcla la información de color y luminosidad en una sóla señal, lo que hace que se puedan comenter pequeñas imprecisiones a la hora de extraer la información de la misma.

• S-Video: que es un compromiso entre el estándar de componente analógica y el de vídeo compuesto. Utiliza dos líneas: una para la información de luminosidad y en la otra de forma combinada la de crominancia (Y/C).

• Component analog video: a cada componente se le asigna una señal. Estas componentes pueden ser las del espacio RGB o una transformación del estilo luminancia y crominancia (como por ejemplo YIQ, YUV, YCrCb, ...).

En el estándar de componentes de vídeo, las tres componentes que representan el color son

tratadas de forma individual. Esta descripción del color puede reducirse en base a la relativamente baja precisión de discriminación del color de la visión humana, manteniendo toda la información relativa a la luminosidad. Para ello se utiliza una técnica que se conoce como codificación de las diferencias de color. En ésta, se obtienen dos señales que son la diferencia entre la componente de azul y la de luminosidad (Cb), así como con la componente de rojo y la de luminosidad (Cr). Esta transformación se puede llevar a cabo mediante una operación de multiplicación de matrices entre los valores de RGB y los coeficientes de la matriz de transformación.

En esta nueva representación del color es posible reducir los valores que representan la

información de color, manteniendo la de luminosidad. Así es posible encontrar que se utilizan diferentes esquemas de reducción de información o subsampling, en función de la calidad de la señal que se quiere obtener y que se muestra en la Figura 5.

Figura 4. Señal de vídeo analógica color.

Page 8: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 8/65

Figura 5. Muestreo de la cromaticidad.

6.3.2. Estándares de Vídeo Analógico. Bajo este epígrafe se realiza un breve repaso de los estándares más difundidos en el campo de la

difusión televisiva y que pertenecen al grupo de estándares de vídeo que se han denominado de Vídeo Compuesto y que han inspirado los trabajos sobre estándares digitales que se abordan en el punto siguiente. Estos estándares son:

• NTSC: National Television Systems Commitee definido en el 1952 se utiliza principalmente en Norte América y Japón.

• PAL: Phase Alternation Line se desarrolló en 1960 y se utiliza mayormente en Europa. • SECAM: Systeme Electronique Color Avec Memoire, utilizado en Francia y Rusia. • HDTV:High-definition television se define como dos veces mayor en resolución que la

televisión convencional, con una relación 16:9 de aspecto, una frecuencia de barrido de cuadro de 24 Hz. O mayor y, por lo menos, dos canales de audio de calidad CD.

Es usual encontrar los sistemas anteriores descritos como combinación de sus características de

líneas, frecuencia y modo de barrido, como:

Page 9: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 9/65

Figura 6. Comparación de estándares de vídeo analógico.

Para terminar este punto señalar que existen otros estándares, quizás tan conocidos (o incluso

más para el gran público y que son: • Componente de vídeo: RGB, YCrCb, YUC, YIQ, ... • S-Vídeo: SVHS y Hi8mm.

También hay diferencia a la hora de elegir el cableado. Así:

• El cable de vídeo compuesto (por ejemplo, conector RCA) transmite únicamente una señal compuesta.

• El cable de S-vídeo (super-vídeo) separa la luminancia de la crominancia. • El cable de RGB (como el euroconector) transmite las 3 señales de color original

independientes.

6.4. Vídeo Digital. La revolución digital de las últimas dos décadas ha impulsado la tecnología existente hasta el

punto de que es posible realizar sonido e imagen de alta calidad en computadores personales, hasta el punto de que se puede considerar el vídeo (digital) como una forma más de información (datos) que es capaz de manejar el computador.

Tomando la idea del vídeo analógico, lo único que tiene que añadir el digital es la conversión de

la señal eléctrica a bits, mediante el proceso de digitalización o muestreo, que consiste en discretizar primero el tiempo (sampling) y después representar la amplitud con un valor discreto (quantizing), en lo que se denomina conversión analógico-digital (A/D).

Esto produce una aproximación a la señal original, pero a partir de ahí (si la digitalización tiene la

precisión suficiente) se puede simplemente copiar cuantas veces sea necesario los valores originales sin perder calidad (cosa que ocurre con cada copia analógica). Para ello es necesario que la frecuencia de muestreo sea al menos el doble que la mayor frecuencia posible que la onda original (teorema de Nyquist), y que el número de bits utilizado para cada valor sea suficiente para la calidad deseada.

Las ventajas de realizar el tratamiento en formato digital son:

• Robustez de la señal, es menos sensible a interferencias y errores en la transmisión. También admite procesos de comprobación de la integridad de la señal.

• Es posible el acceso aleatorio a los contenidos de la secuencia, facilitando la edición y/o impresión de imágenes individuales de la secuencia grabada.

• Es posible realizar la captura (grabación) al tiempo que otros procesos de tratamiento de la imagen.

• No hay necesidad de pulsos de sincronismo y apagado del haz en los mismos, puesto que se conoce la longitud de cada línea y dónde empieza y termina.

Page 10: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 10/65

6.4.1. Señal de vídeo digital. Casi todos los sistemas de vídeo digital se ajustan al estándar de componentes de vídeo para

representar la señal de color (o niveles de gris). La mayoría de cámaras de vídeo proporcionan salidas RGB que se digitalizan de forma individual. En los casos en que se necesita transmitir la señal a cierta distancia de su origen esta se realiza en modo de vídeo compuesto, como es el caso de los equipos de reproducción de vídeo y cámaras analógicas. En estos casos, se convierte primero la señal de vídeo compuesto a componentes de vídeo que después de digitalizan de forma individual.

Las áreas de ajuste horizontal y vertical de la señal de vídeo analógico desaparecen y ahora nos

referiremos al número de pixels por línea y el número de líneas por cuadro. La pérdida de resolución espacial en el caso analógico comporta un efecto de desenfoque o emborronamiento en el sentido que se produzca esa pérdida de resolución. En el caso digital el efecto que se produce es el de aliasing. Este consiste en que se hace visible la naturaleza "pixelada" de una imagen, fundamentalmente en los bordes de los objetos: en lugar de verlos de forma continua, se aprecia un efecto de escalera. En función de las características del monitor y la distancia del usuario este efecto se aprecia en mayor o menor medida.

La calidad de color deseable se alcanzaría con 24 bits de color (8 bits de cada canal RGB), aunque

a menudo se usa una solución de compromiso para disminuir los requisitos de tamaño de 16 bits (5 bits R, 6 bits G, 5 bits B, ya que el ojo humano parece ser más receptivo al verde), o bien se define el color mediante paleta.

El cuadro de trabajo de vídeo digital en PAL es de 768 x 576. El hecho de que sea tan habitual

trabajar en 320 x 240 o 160 x 120 es que son divisores directos de 640 x 480, que es la resolución NTSC.

El problema con el vídeo digital es el requerimiento de memoria que impone al sistema, tanto para su almacenamiento como para su transmisión. Por esto, la viabilidad del vídeo digital está en función del uso de los métodos de compresión. En lo que sigue se va a describir una serie de estándares de formato de vídeo digital y de estándares de técnicas de compresión utilizadas en este campo.

6.4.2. Estándares de vídeo digital. CCIR Estándares para Vídeo Digital, hace referencia a los siguientes estándares:

• CCIR 601 (ITU R. 601) que utiliza un barrido entrelazado. • CIF (Common Intermediate Format) que es aproximadamente de la calidad de un VHS, pero

con un barrido progresivo. • QCIF (Quarter-CIF).

Figura 7. Comparación de estándares de vídeo digital.

Page 11: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 11/65

ATSC Digital Television Standard es lanzado en Noviembre de 1995 y cubre el estándar de HDTV. Soporta diferentes formatos de barrido, que se listan a continuación:

Figura 8. Formatos de barrido soportados por ATSC.

Donde “I” significa modo de barrido entrelazado y “P” modo progresivo.

Aunque la calidad de imagen es alta en estos sistemas, no pueden competir con la de la película

de 35 mm. por lo que respecta a resolución espacial. En este sentido existen desarrollos encaminados a realizar un estándar denominado superhigh-definition (SHD), que permita mostrar imágenes en tiempo real de 2000 x 2000 pixels con una frecuencia de cuadro de 60 Hz. Para llevarlo a la práctica se requiere de nuevas técnicas de compresión.

6.5. Formatos estándares de video digital

6.5.1. Vídeo CD La especificación del Vídeo CD, anunciada por JVC, Philips, SONY y Matsushita en Julio 1993, es una implementación especial de CD-ROM/XA diseñada para almacenar vídeo MPEG-1. MPEG significa Motion Picture Experts Group, que es un comité de la International Standards Organization (ISO) y la International Electrochemical Commission (IEC). Esta especificación define un disco Mode 2 Form 2 que puede contener hasta 74 minutos de calidad VHS a pantalla completa. Hay dos problemas importantes al almacenar datos de vídeo en CD: demasiados datos y bajo ratio de salida. Un segundo de vídeo en calidad VHS sin comprimir requiere 5 megabytes de espacio. Un CD de 680 MB contendría 2 minutos de vídeo. Obviamente, se puede comprimir los datos a almacenar, descomprimiendo en tiempo real. MPEG-1 usa varias técnicas para comprimir vídeo con un factor de compresión de 200:1. Al ser MPEG un estándar internacional, cualquier fabricante puede hacer hardware capaz de grabar, comprimir y reproducir vídeo MPEG. Además, al no estar limitado a una plataforma, se puede grabar y reproducir CDs que sigan las especificaciones de los libros rojo y amarillo. Las tasas de compresión de audio y vídeo pueden variar según la aplicación. Sin embargo, VideoCD extiende la utilidad de MPEG codificando el vídeo de bitrates estándares en un formato que elimina la información de vídeo redundante y añade una aplicación en tiempo de ejecución CDi para ser usada en reproductores CDi, DVD o VideoCD.

El libro blanco, desde su concepción original como versión 1.1, ha sido aumentada a través de los años con VideoCD 2.0 (1995), VCD-ROM (1997), VCD-Internet (1997) y SuperVCD (1998). VideoCD 2.0 es para video interactivo PAL y NTSC, incluyendo capacidades de pausado de alta resolución y rebobinar y pasar hacia delante. VCD-ROM permite crea discos CD-ROM y VideoCD híbridos. VCD-Internet es una manera estandarizada de enlazar video y páginas web contenidas en el disco u online. SuperVCD es un MPEG1 de alto bitrate o MPEG2 de bitrate variable.

Page 12: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 12/65

Características principales del VideoCD

Parámetro Valor Tiempo dereproducción 74 minutos

Video: MPEG-1 Resolución: 352 x 240 a 30 fps (NTSC) o 352 x 280 a 25 fps (PAL/SECAM) Audio: MPEG-1 stereo y pistas de audio opcionales Imágenes: MPEG-1 de hasta 720 x 480/576 (uso para menús) Interacción: Menús para seleccionar. Listas de reproducción para secuencias predeterminadas de

audio/vídeo/imágenes. Movimiento hacia adelanta y hacia atrás. Subtítulos Sí Puntos deentrada Hasta 98 por pista (500 en total por disco)

Los Video CD se caracterizan por el uso de múltiples pistas. La pista 1 contiene el programa CD-i, la información para Karaoke o videos musicales (opcional), las direcciones de puntos de entrada, las listas de reproducción y las imágenes MPEG. Las siguientes pistas se usan para el vídeo MPEG (opcionalmente seguidas por pistas de audio). Pueden contener información adicional. Un Video CD debe tener al menos 2 pistas. Los archivos de vídeo MPEGS están en Mode 2 Form 2. Se pueden añadir pistas adicionales de audio CD tras la última pista MPEG.

La mayor parte de los archivos en un disco Video CD tienen nombres predefinidos y se localizan en directorios específicos, tal y como mostramos a continuación.

Directorio Archivos Comentarios

VCD INFO.VCD ENTRIES.VCD PSD.VCD LOT.VCD

Identificación de álbum y discoLista de puntos de entrada (máx 500)Descriptor de secuencia de reproducción Archivo de desplazamiento de lista de IDs

MPEGAV AVSEQnn.DAT Archivos MPEG (uno por pista) CDDA AUDIOnn.DAT Archivos CD Audio files (uno por pista) SEGMENT ITEMnnn.DAT Items de reproducción (uno por segmento) KARAOKE KARINFO.xxx Archivos opcionales de información para karaokeEXT PSD_X.VCD

LOT_X.VCD SCANDATA.DAT CAPTnn.DAT

Versión opcional extendida de PSD.VCDVersión opcional extendida de LOT.VCDLista opcional de direcciones de I-frame Datos opcionales (uno por pista)

CDI (undefined) Archivos de datos y programa CD-i

Page 13: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 13/65

Especificaciones técnicas de VideoCD 2.0

Características Descripción

Resolución Vídeo SIF (352 x 288 PAL, 352x240 NTSC)

Compresión Vídeo MPEG-1

Bitrate Vídeo Hasta 1151 kbps (CBR)

Compresión Audio MPEG-1 layer 2

Bitrate Audio 224kbps

Sonido Surround Dolby ProLogic (analógico)

Flujos máximos de audio

1 estéreo o 2 mono

Otras características Menús, control de reproducción e ítems de reproducción de segmentos MPEG

Resolución de imágenes

480 x 480, 480 x 576, 704x480 or 704x576

6.5.2. Super Vídeo CD

Super Video CD es un estándar de 1998 construido sobre el estándar VCD. Ofrece calidad de vídeo entre el VCD y el DVD, usando una mejor resolución de vídeo, codificación con bitrate variable y el estándar MPEG-2 para compresión de audio y vídeo. MPEG-2 introduce varias ventajas con respecto a MPEG-1 como son un incremento de resolución, vídeo entrelazado y mejor resolución en componente DC. Permite un bitrate variable en flujos audio y video, lo que permite que el codificador pueda mantener una calidad más constante al reducir el número de bits asignados para secciones de menor detalle e incrementar el número de bits asignados a las secciones de mayor detalle. También se puede doblar el bitate con respecto al ofrecido por VCD. Se puede incluir un segundo flujo de audio MPEG, por lo que se puede añadir un segundo idioma. La codificación de audio MPEG-2.5.1 permite añadir sonido digital surround a las películas.

Parámetro Video CD v 2.0 SVCD

Tiempo de reproducción: 74 minutos 35 a 70 mins+ Ratio datos: 150 kBps 300 kBps

Vídeo: MPEG-1 1.15 Mbps CBR

MPEG-2 2.6 Mbps VBR medio

Resolución: 352 x 240 (NTSC)352 x 280 (PAL/SECAM)

480 x 480 (NTSC)480 x 576 (PAL/SECAM)

Audio: MPEG-1 stereo CBRpistas CD audio opcionales

2 flujos MPEG-1 stereo VBRcanal 5.1 opcional

Imágenes: MPEG-1 MPEG-2 Interacción: Menús, Lista de reproducción,

FF/FR Mayor interactividad

Subtítulos: Leyendas Gráficos superponibles

Puntos de entrada: Hasta 98 por pista(500 por disco).

Page 14: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 14/65

Especificaciones técnicas de Super Video CD 1.0

Característica Descripción

Resolución Vídeo

2/3 D1 (480x576 PAL, 480x480 NTSC)

Compresión Vídeo

MPEG-2

Bitrate video Variable hasta 2600 kbps

Compresión Audio

MPEG-1 layer 2

Bitrate Audio Variable entre 32 kbps y 384 kbps

Sonido Surround

MPEG-2 5+1 (digital) o Dolby ProLogic (analógico)

Máximo flujos audio

2 stereo o 4 mono

Otras características

Overlay gráfico para OSD, 4 flujos de subtítulos o letras, interactividad extendida con instrucciones variables y condicionales

Imágenes 480 x 480, 480 x 576, 704x480, 704x576

6.5.3. DVD

DVD-Video fue diseñado originalmente para ajustarse a las necesidades de la industria cinematográfica, especialmente para contener una película completa en un CD. Se ha demostrado que el uso de la compresión de vídeo MPEG-2 ofrece mejores resultados que VHS y Laserdisc. DVD-Video también ofrece sonido surround, subtítulos, elección de formatos de visualización e interacción con el usuario para aplicaciones de vídeo no lineales. La especificación DVD-Video fue escrita y ahora mantenida por el grupo de trabajo WG1 del DVD Forum. El DVD-Video está reemplazando al VHS como formato base para la distribución de contenidos en vídeo. Requerimientos para el formato DVD-Video:

• 133 minutos en una cara de un disco (99% de las películas) de vídeo comprimido MPEG-2 con audio multicanal surround.

• Mejor resolución de vídeo que el Laserdisc. • Sonido surround calidad CD (calidad home cinema) • Audio hasta en 8 idiomas • Subtítulos hasta en 32 idiomas • Formatos Pan-scan, letterbox y panorámico • Control de contenidos • Protección de copia • Compatibilidad con CDs • División y acceso por capítulos • Hasta 9 ángulos de cámara para dar mayores posibilidades al usuario

Page 15: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 15/65

La mayoría de DVD-Video incluye extras que no pueden ser incluidos en un VHS, tales como biografías, comentarios del director, el “making of” de la película, etc. La especificación DVD-Video está basada en un DVD-ROM con el sistema de ficheros UDF Bridge. Dependiendo del tiempo de reproducción requerido y de otros factores, un DVD-Video puede ser DVD-5, DVD-10, DVD-9. Para reproducciones mayores de 133 minutos (incluyendo contenido adicional), la capa dual DVD-9 es una solución. Un DVD-10 es más útil para versiones panorámicas y pan & scan en el mismo disco. No se recomienda el uso del formato DVD-10 para reproducciones de mayor duración pues necesitaremos cambiar el disco de cara.

Tiempos de reproducción Los tiempos de reproducción del DVD-Video no son fijos pero dependen del bitrate de vídeo, del formato de disco y de otros factores.

• Un DVD-5 (cara simple) puede contener 133 minutos de vídeo codificado con MPEG-2, 3 canales de audio surround y 4 canales de subtítulos (sin compresión de vídeo un DVD-5 podría tener alrededor de 3 minutos de vídeo).

• En un DVD-9 (capa dual) tenemos hasta 240 minutos de vídeo. • En un DVD-10 (doble cara) tenemos 133 minutos por cara, pero hay que darle la vuelta al disco. • Un DVD-18 (capa dual, doble cara) puede tener 240 minutos por cara, necesitando cambiar de

cara. A diferencia de los Audio CD, el tiempo de reproducción no es fijo, sino que puede variar. Mayores tiempos de reproducción implica menores bitrates y menor calidad de vídeo y viceversa. El uso de MPEG-1 en vez de MPEG-2 permite mayor tiempo de reproducción a costa de menor calidad. Tener más o menos canales de audio o bitrates de audio diferentes también afecta el bitrate de vídeo y el tiempo de reproducción. El bitrate máximo es 9’8 Mb/s para vídeo, audio e imágenes (10’08 incluyendo la información de control). Para 133 minutos, el bitrate medio es 4’7 Mb/s. El bitrate medio de vídeo disponible depende del número de flujos de audio y la codificación usada y debería ser al menos 4 Mb/s para obtener resultados de alta calidad. El gráfico que mostramos a continuación muestra el bitrate de vídeo para varios tiempos de reproducción. Se asume que el vídeo se acompaña de 3 flujos de audio Dolby Digital a 448 kbps y 4 de subimágenes a 10 kbps. Para un DVD-5 el bitrate de vídeo es una media de 3’1 Mbps, 240 minutos en un DVD-9 permite el mismo bitrate, pero los DVD-9 se usan para tiempos de reproducción más cortos para conseguir mayor bitrate y mayor calidad. Para reproducir 133 minutos en un DVD-5, el bitrate medio de vídeo ha de ser 3’1 Mbps. Si reducimos el número de canales de audio podremos aumentarlo. Debemos tener en cuenta que el bitrate de vídeo máximo para este ejemplo es 8’4 Mbps, quedando el restante 1’4 Mbps para audio e imágenes.

Page 16: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 16/65

Tiempos de reproducción de audio Se puede usar un DVD-Video como audio exclusivamente, pero la calidad no será como la de un DVD-Audio usando los 6 canales. A continuación mostramos ejemplos de tiempos aproximados:

Tiempo de reproducción (hrs)Ejemplo Codificación

DVD-5 DVD-9 Audio calidad CD stereo LPCM 7.4 13.4 Audio Stereo (@192kb/s) DolbyDigital 54 98 5.1 (@448kb/s) DolbyDigital 23.3 42.3 5.1 (@1.536Mb/s) DTS 6.8 12.3 5.1 (@768kb/s) DTS 13.6 24.7 5.1 (48kHz/16b) LPCM 2.2 4.1

Estructura de archivos DVD-Video Un DVD-Video contiene video, audio y otros datos usando una estructura de disco y archivos específica, donde los datos se organizan como flujos de datos. Los títulos DVD-Video poseen una estructura jerárquica como se muestra en la ilustración. Está dividido en Video Title Sets o títulos. Como mínimo debe haber un VideoManager (VMG) y un VTS. Un disco que contenga una película más el making of probablemente se divida en dos títulos. Un disco conteniendo 6 episodios de un programa debería estar dividido en 6 títulos, aunque sería posible tener sólo un título.

Cada Video Title Set Information (VTSI) contiene datos de control y objetos de vídeo (VOBs) para menús (si los hay) y títulos (imágenes y vídeo). Cada VOB incluye vídeo, audio, imágenes y datos de navegación. Al reproducir un VOB, el reproductor no sólo muestra el vídeo secuencialmente sino que obedece las instrucciones de navegación para mostrar menús, obtener decisiones del usuario, etc. Cada VOB contiene celdas individuales enlazadas con Program Chains (PGCs), que proporcionan la interactividad necesaria usando un simple lenguaje de programación creado para DVD-Video. Existen 3 tipos de PGC: reproducción secuencial, aleatoria con celdas repetidas y aleatoria sin celdas repetidas. Los VOBs y otros datos se encuentran en archivos en el directorio VIDEO_TS. La tabla inferior muestra un ejemplo de estos ficheros para un disco de un único título. El audio, vídeo e imágenes para la película están contenidas en 9 VOBs, donde cada fichero ocupa menos de 1 GB. Para en DVD-5 no podrá haber más de 5 VOBs, y 9 para un DVD-9.

Page 17: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 17/65

Archivo Descripción

VIDEO_TS.IFO VIDEO_TS.VOBVIDEO_TS.BUP

Archivo VMGI (Video Manager Information)Archivo VOB para Menú VMG Copia Seguridad VMGI

VTS_01_0.IFO VTS_01_0.VOB VTS_01_0.BUP

Archivo VTSI (VTS Manager Information)Video Object Set para Menú VTSCopia Seguridad VTSI

VTS_01_1.VOB VTS_01_2.VOB . . . . . .VTS_01_n.VOB

Primer Title Video Object Set Segundo Title Video Object Set . . . . . . Último Title Video Object Set (n <=9)

Los archivos VTS*.* pueden ser repetidos para cada VTS y llamarse VTS_02*.*, VTS_03*.* etc. Cada VTS tendrá un .IFO y un .BUP más uno o varios .VOB files. Flujos de datos DVD-Video

Tipo de dato Flujos

Max datos rate

Codificación

Video 1 9.8 Mb/s Vídeo MPEG-1 o MPEG-2

Audio Hasta 8 6.144 Mb/s

Varios formatos de audio en stereo y surround

Imágenes Hasta 32 3.36 Mb/s

2 bits/pixel RLE

Navegación 1 - PGC para obtener interactividad

Protección anticopia DVD-Vídeo Se hace uso del Content Scrambling System (CSS) para proteger los datos audio/vídeo en un DVD-Vídeo. Cada VTS puede ser codificado con una clave única. Cada título único puede tener asociado una clave de disco y hasta 99 clave s de título, que se almacenan de manera encriptada. En el decodificador, las claves originales se obtienen por desencriptación. Sólo se encriptan los datos de vídeo. En unidades DVD-ROM, el decodificador MPEG-2 recibe las llaves necesarias para la desencriptación, lo cual asegura que sólo el hardware/software aprobado puede ser usado.

Page 18: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 18/65

A continuación describiremos algunos métodos de protección de sistemas de vídeo. Analogue Copy Protection (ACP) Es un sistema de protección de copias desarrollado y patentado por Macrovision y se compone de dos elementos: Control de ganancia automática (AGC) y Colorstripe. ACP es soportado por la mayoría de reproductores DVD y produce copias distorsionadas.

Se implementa como 2 bits de control en el flujo MPEG-2 durante el proceso de authoring. Añadir ACP al disco DVD-Video requiere que el propietario obtenga una licencia de Macrovision. ACP proporciona los siguientes beneficios:

• Único sistema de protección analógico que distorsiona completamente el contenido en copias. • Los propietarios de los derechos pueden especificar facilidades de authoring si se activan los bits

de protección. • Ha sido probado como el medio más efectivo de evitar copias no autorizadas.

Copia de DVD Copiando un DVD podemos obtener un clon exacto. Podemos usar CSS y ACP para prevenir estas copias:

• Un grabador de DVD-Video puede detectar la presencia de la marca ACP y no hacer la copia. • Si se usa CSS para proteger digitalmente el contenido, los reproductores DVD deberían mostrar

datos CGMS (sistema de gestión de generación de copias) y no hacer una copia del disco. CSS también prevendría la copia de DVD a través de un PC.

Page 19: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 19/65

Codificación por regiones Los discos DVD-Video protegidos mediante CSS pueden también estar codificados por regiones para prevenir que un disco para los EEUU se reproduzca en Europa y viceversa, lo que permite la distribución independiente en varias zonas del mundo. Existen un total de 6 regiones:

Región Países 1 USA, Canadá 2 Europa, Oriente Medio, Suráfrica, Japón 3 Sureste Asia, Taiwan 4 Centroamérica, Suramérica, México, Australia, Nueva Zelanda 5 Federación Rusa, (parte de) Africa, India, Pakistán 6 China 7 Sin definir 8 Para uso en aerolíneas

Codificación de Vídeo DVD-Video es un estándar flexible que usa MPEG y que proporciona una excelente calidad de imagen para NTSC o PAL/SECAM y largos tiempos de reproducción para cualquier película. El vídeo puede ser codificado en MPEG-2 o en MPEG-1, con la siguiente tabla resumen:

Parámetro MPEG-2 MPEG-1 Resolución NTSC (horizontal x vertical)

720/704 x 480352 x 480/240

352 x 480351 x 240

Resolución PAL/SECAM (horizontal x vertical)

720/704 x 576352 x 576/288

352 x 576352 x 288

VBR o CBR VBR o CBR CBR PAL/SECAM frame rate 25 fps NTSC frame rate (en disco) 24 o 29.97 fps

El VBR permite obtener una mayor calidad de imagen con un mejor bitrate usando más datos para codificar las partes más complejas de una secuencia de vídeo. Con CBR, el bitrate debe ser suficientemente alto como para codificar todo el vídeo bien., es adecuado cuando no tenemos problemas de espacio. La codificación MPEG-2 fue diseñado para codificar la señal digital CCIR 601 a resolución completa (720x480 NTSC; 720x576 PAL/SECAM) proporcionando VBR y entrelazamiento, con una compresión de hasta 40:1. MPEG-1 permite mayor tiempo de reproducción a menor calidad. No permite visualización entrelazada y la resolución de imagen se reduce a 352x240 (NTSC) o 352x288 (PAL/SECAM), así como usa CBR.

Page 20: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 20/65

Calidad de Imagen

Propiedad Laserdisc Video CD SVCD DVD-Video Formato de codificación Composición

analógica MPEG-1 MPEG-2 MPEG-2

CBR/VBR - CBR VBR VBR Píxels 352 480 720 Líneas 240/288 480/576 480/576 Bitrate - 1.15 Mb/s 2.6 Mb/s 3.5 Mb/s Calidad Buena Aceptable Buena Muy buena Canales audio 2 a 5.1 2 4 5.1 Idiomas 1 1 2 st/4 mono Hasta 8 Tiempo dereproducción

60 mins 74 mins max

37 mins bitrate max

~133 mins por capa

Formatos de pantalla El aspect ratio de la TV tradicional es 4:3 (horizontal:vertical) mientras que las películas tienen por lo general un aspect ratio 2.35:1. Existe un formato intermedio 16:9 para TV panorámica. En un DVD-Video podemos usar 3 formatos de pantalla:

Widescreen, 16:9 a pantalla completa. Letterbox, donde una película widescreen se muestra dejando barras arriba y abajo. Pan & Scan, donde una película widescreen se muestra como 4:3 pero más estrecha que la original.

Ángulos de cámara Un disco DVD-Video ofrece la posibilidad de incluir hasta 9 ángulos de cámara diferentes. Estas secuencias son entrepuestas en el disco para permitir un rápido acceso a las mismas, por lo que se reduce el bitrate general para permitir ese tiempo de búsqueda. A continuación mostramos un ejemplo de 3 ángulos entremezclados en el flujo de vídeo.

Page 21: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 21/65

Codificación del Audio Los discos DVD-Video pueden contener hasta 8 flujos de audio usando varios formatos comprimidos y no comprimidos. Cada flujo de datos puede contener entre 2 (stereo) y 6 canales (sonido surround) dependiendo del material disponible, existiendo pequeñas diferencias entre la codificación para PAL y para NTSC. La posibilidad de múltiples flujos permite incluir varios idiomas en un disco. Veamos a continuación los formatos de audio disponibles para un DVD-Video:

• Dolby Digital: (Dolby AC-3) proporciona sonido surround 5.1 y se usa actualmente en reproductores de Laserdisc y DVD-Video. Es un formato con pérdidas que tiene bitrates que van desde 64 kbps (mono) a 448 kbps. El sonido surround 5.1 requiere de un mínimo de 384 kbps, pero Dolby recomienda usar el máximo de 448 kbps. El audio stereo suele requerir 192kbps. Los reproductores de DVD-Video convierten la salida Dolby Digital 5.1 en Dolby Surround (ProLogic) usando las salidas analógicas stereo cuando no se dispone de decodificador Dolby Digital.

• MPEG: También es un formato con pérdida. MPEG-2 proporciona sonido surround 5.1/7.1 con

CBR (32-912 kbps, 384 kbps de media) o VBR. La tasa de muestreo se fija a 48 kHz. La opción 7.1 añade los altavoces centro-izquierda y centro derecha. MPEG-1 layer II se usa como para Video CD.

• LPCM: Formato de audio sin comprimir, similar al Audio CD, pero con mayor frecuencia de

muestreo y cuantización. LPCM ofrece hasta 8 canales de 48/96 kHz de frecuencia de muestreo y 16/20/24 bits por muestra, pero no todos al mismo tiempo. El bitrate máximo es 6144 Mbps, superior al de Dolby Digital o MPEG-2, ofrece una calidad similar al DVD-Audio, pero deja poco ancho de banda para el vídeo.

• DTS (Digital Theater Systems): Es un formato de audio 5.1 con pérdida, frecuencia de muestreo

de 48 kHz y usa hasta 20 bits por muestra. La tasa de datos varía de 64 kbps a 1536 Mbps. La especificación DVD-Video define el uso de diferentes métodos de codificación audio para PAL/SECAM y NTSC, como apreciamos en la siguiente tabla:

Disco Obligatorio Opcional NTSC LPCM ó Dolby Digital LPCM, Dolby Digital, MPEG u otros

PAL/SECAM Linear PCM or MPEG-1 or MPEG-2 or Dolby Digital

Linear PCM, Dolby Digital, MPEG orothers

Page 22: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 22/65

6.5.4. DV

DV es un estándar internacional creado por un consorcio de 10 compañías para obtener un formato de vídeo digital para el consumidor. Las compañías implicadas son Matsushita Electric Industrial Corp (Panasonic), Sony Corp, Victor Corporation of Japan (JVC), Philips Electronics, N.V., Sanyo Electric Co. Ltd, Hitachi, Ltd., Sharp Corporation, Thomson Multimedia, Mitsubishi Electric Corporation, y Toshiba Corporation. Desde entonces se han unido más compañías, sobrepasando las 60 en el consorcio DV. DV, originalmente DVC (Digital Video Cassette), usa una cinta de ¼ de pulgada (6.35 mm) para grabar vídeo digital de muy alta calidad. Se muestrea el vídeo con el mismo ratio que D-1, D-5 o el vídeo digital Betacam (720 píxels por línea de escaneo). El vídeo muestreado se comprime usando la DCT tal y como sucede en M-JPEG, aunque aquí se permite una mayor optimización local de tablas de cuantización que la realizada por compresores JPEG, superando el factor de compresión nominal 5:1 de un frame JPEG. DV usa compresión intraframe: cada frame comprimida depende completamente de sí misma y no de datos provenientes de otras frames. Sin embargo, también usa compresión adaptativa entre frames; si el compresor encuentra poca diferencia entre los campos entrelazados de un frame, los comprimirá juntos. La información de vídeo DV se introduce en un flujo de datos de 25 Mbps que, añadiendo el audio y la corrección de errores se forma un flujo total de 36 Mbps.

Los formatos DV están reconocidos como de mayor calidad de imagen que Betacam SP y MII, estando por debajo de otros formatos como Digital-S y DVCPRO50. En una escala de 1(mínimo) a 10 (máximo), obtendríamos la siguiente calificación de formatos:

D-5 (10-bit uncompressed digital) 10 D-1 (8-bit uncompressed digital) 9.9 Digital Betacam, Ampex DCT 9.7 D-9 (Digital-S), DVCPRO50 9.6 DV, DVCAM, D-7 (DVCPRO) 9 MII, Betacam SP 8.9 1" Type C 8.7 3/4" SP 6.5 3/4", Hi8, SVHS 5 Video 8, Betamax 4 VHS 3 EIAJ Type 1, Fisher-Price Pixelvision 1

Transferencia del vídeo digital al ordenador

IEEE-1394 es un protocolo de comunicaciones estándar para transferencias de datos de alta calidad y pequeña distancia, desarrollado originalmente por Apple Computer (Firewire). Sony llama i.LINK a su implementación del 1394. En ocasiones se asocia la aparición del 1394 al desarrollo del DV. Los datos almacenados en una cinta DV reflejan la estructura de paquetes enviados a través de un interfaz 1394. 1394 es actualmente la mejor opción para hacer transferencias de datos de vídeo digital a un ordenador. Existen otras alternativas, como puede ser la transferencia digital en serie SMPTE 259M SDI, pero VTR con SDI es muy caro, mientras que 1394 lo llevan ya incorporado muchas cámaras y el cable de conexión tiene un precio asequible. La transferencia via IEEE1394 es una copia digital de datos ya que no existe ni compresión ni descompresión en la transmisión, mientras que la transmisión sobre SDI está sujeta a degradación debido a la decompresión y recompresión. A continuación presentamos una calificación de diversos métodos de transferencia atendiendo a la calidad de la copia:

IEEE-1394 10 SDI 9.8 Analog Component (Y, R-Y, B-Y) 9 Y/C ("S-video") 8

Page 23: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 23/65

Analog Composite 5 Especificaciones técnicas de DV Cassette

Características Descripción

Resolución de Vídeo D1 (720x576 PAL, 720x480 NTSC)

Compresión de Video DV

Bitrare Video 25 Mbps (CBR)

Audio 2 canales stereo a 32 kHz 12-bit PCM no lineal 1 canal stereo a(48/44.1/32) kHz 16-bit PCM lineal

Bitrate Audio 1000 kbps a 1500 kbps

6.6. Compresión de vídeo. La aproximación básica a la compresión de vídeo es emplear cualquiera de los métodos vistos

para compresión de imágenes aplicado a cada uno de los cuadros o frames que se denominan intraframe. Sin embargo los niveles de compresión que se pueden alcanzar de esta forma son limitados por el tratamiento intrínsecamente diferenciado de cada cuadro. Los métodos de compresión interframe por su parte, tratan de aprovechar las características de redundancia temporal debída a la similaridad entre cuadros vecinos o contiguos, junto a redundancias espaciales, espectrales y “psicovisuales” para obtener unos porcentajes de compresión mayores. Sin embargo hay que hacer notar que algunas aplicaciones pueden tener requerimientos específicos (como por ejemplo, acceso aleatorio a todos los cuadros) que dicten el uso de técnicas intraframe en lugar de interframe.

De forma general, se pueden clasificar los métodos de compresión de vídeo en cuatro clases:

• Basadas en formas de ondas (Waveform). Si se considera el eje temporal como una tercera dimensión, es posible generalizar las técnicas de formas de ondas utilizadas en compresión de imágenes para el caso de señales de vídeo. La idea de estos métodos es estimar los contenidos de un cuadro (o campo) en la siguiente instancia a partir de la información en un punto de la secuencia; esto se lleva a cabo mediante técnicas de motion estimation.

• Basadas en objetos (Object based). Son la generalización de aquellas empleadas para

compresión de imágenes en las que se descomponía la información visual en función de una serie de primitivas (como por ejemplo contornos y texturas) que en este caso incluirán como parámetro el movimiento asociado a las mismas.

• Basadas en modelos (Model based). Hace referencia a la búsqueda de modelos que representen la información en la escena. Pero que, a diferencia de los casos anteriores, los modelos son objetos en 2D, o en 3D, predefinidos cuya proyección o composición caracteriza la información que se quiere codificar. Esta idea se incluye en el estándar MPEG-4 que incluirá modelos de caras y cuerpos.

• Basadas en fractales (fractal coding). Como generalización de las vistas para imágenes estáticas.

Page 24: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 24/65

6.6.1. Estándares para compresión de vídeo. En este punto se desarrolla el apartado dedicado a estándares de compresión de vídeo digital

para facilitar la manipulación y almacenamiento de señales de vídeo como una forma más de información tratable en un computador y su transmisión sobre redes de computadores existentes y futuras y otros canales de difusión terrestres.

Se hará un repaso de los estándares realizados por comisiones internaciones hasta llegar a

formatos propietarios de codificación de vídeo. Así, se aborda un repaso que empezando por MJPEG como representante de los denominados métodos de compresión intraframe; continuará con el H.261 (desarrollado para videoconferencia que admite tanto el método intraframe como interframe) y que termina con un repaso a MPEG que están encaminados a métodos interframe. A continuación haremos mención, de forma muy breve, a los formatos QuickTime, Video for Windows y otros como ejemplos de sistemas propietarios.

6.6.1.1. MJPEG. Básicamente el estándar Motion-JPEG trata cada campo (ó cada cuadro) de una secuencia de vídeo

de forma diferente y le aplica un proceso de compresión totalmente independiente del resto. Por supuesto que este enfoque tiene sus ventajas e inconvenientes que se resumen a continuación:

• Beneficios:

o Al almacenar de forma separada cada cuadro se pueden realizar modificaciones más precisas en un editor de vídeo.

o Es posible empezar a reproducir en cualquier cuadro, puesto que la información está completa para todos.

o Es un formato útil como medio de almacenamiento por la cantidad de información (detalle) que contiene.

• Inconvenientes:

o Puesto que no se utiliza la redundancia Inter-Frame (temporal), la compresión da como resultado un fichero relativamente largo (típicamente es tres veces más grande que el que crearía el estándar MPEG).

o Debído a la carga computacional que supone el proceso JPEG es necesario disponer de hardware que lo realice para obtener buena calidad.

Al igual que en JPEG, se obtienen una reducción de 20:1 en el vídeo MPEG. Hay dos variantes usuales de MJPEG, MJPEG A y MJPEG B, la primera para gestionar ficheros

más pequeños y la segunda de más calidad.

6.6.1.2. H.261. Es el estándar internacional de compresión de vídeo utilizado en videoconferencia. Describe los

métodos de codificación y decodificación para imágenes en movimiento como parte de un servicio audiovisual en múltiplos de p*64 kbps (donde p está en el rango de 1 a 30). Se desarrolló con miras a ser utilizado en redes de computadores.

Fué desarrollado por el ITU (anteriormente CCITT) y aceptado como estándar para vídeo-

telefonía en 1987. Existen implementaciones tanto software como hardware. Opera sobre imágenes no entrelazadas que codifica en modo YCbCr y soporta como resoluciones de los fomatos CIF y QCIF como muestra la figura siguiente.

Page 25: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 25/65

Figura 9. Formatos de entrada para el estándar H.261.

El principio básico de funcionamiento se basa en que las redundancias espaciales se reducen

mediante el empleo de la transfomación basada en DCT y la correlación temporal mediante una codificación predictiva del movimiento. Permite la utilización de métodos de compresión Intraframe, donde se codifican bloques de 8x8 pixels de cada imagen con ellos mismos. O también puede funcionar en modo Interframe donde se codifican los cuadros con respecto a uno de referencia.

Además de servir de base a posteriores estándares de compresión de video (como MPEG-1 y

MPEG-2), este estándar muestra dos características importantes: i. Determina el retraso máximo (150 milisegundos) para que las comunicaciones

bidireccionales de vídeo ofrezcan, de forma efectiva, realimentación visual directa. ii. Es posible realizar implementaciones hardware de bajo coste. Que es un aspecto

importante para comercializar aplicaciones de videoconferencia.

De cara a las futuras aplicaciones de comunicación visual para el gran público, se requerirá de velocidades de transmisión del orden de los 9’6 Kb/s. Para este propósito se han desarrollados nuevas recomendaciones dentro de esta tendencia con el nombre de H.263 y H.263+.

6.6.1.3. MPEG. El Moving Picture Experts Group de ISO/IEC ha dado nombre a una familia de estándares que se

aplica a la codificación de señales de vídeo y en la cual se puede distinguir entre diferentes estándares con rangos de actuación distintos.

El estándar MPEG-1 es capaz de realizar su trabajo sobre medios de almacenamiento como el CD-

ROM, así como canales de comunicación del estilo de las RDSI, LANs y WANs. El principio básico del algoritmo de compresión que utiliza consiste en codificar Macrobloques (de tamaño 16x16) hasta en tres diferentes modos para cada cuadro en la secuencia. Estos bloques, se codifican de forma parecida a como lo hace el estándar JPEG en alguno de los cuadros (intramode), como una especie de intraframe. Los cuadros de los macrobloques se codifican en relación a con los cuadros consecutivos mediante técnicas de compensación del movimiento desde un cuadro anterior (predictive mode) o hacia un próximo cuadro (bidirectional mode). A intervalos regulares, se fuerza a codificar todos los macrobloques en modo intracode frame para evitar la propagación de errores y permitir un rápido acceso a cualquier cuadro decodificado en una secuencia de imágenes.

La forma de funcionamiento de MPEG-1 es similar al del estándar H.261 con algunas

características adicionales. La calidad del vídeo (tanto para compresión como descompresión) para un tamaño CIF, constituye un valor similar (sino superior) al estándar VHS de vídeo analógico. Fue aceptado como estándar internacional en 1992.

MPEG-1 considera únicamente vídeo en formato de barrido progresivo. Y para alcanzar los 1’5

Mbps de velocidad de generación de información codificada, usualmente se recorre a convertir la señal de vídeo de entrada al fomato SIF (Standard Input Format). El espacio de representación de color es el YCrCb de la recomendación 601 del CCIR.

MPEG-1 es un estándar genérico que define la “sintaxis 8 ” para la representación al nivel de bits

de la información codificada, así como un método de decodificación. A diferencia del estándar JPEG, no

Page 26: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 26/65

define algoritmos específicos, lo que proporciona gran flexibilidad a la hora del diseño del codificador. De forma similar a como sucede con el estándar H.261, se adjuntan con la información codificada los parámetros que definen los algoritmos utilizados de estimación del movimiento y el criterio de selección del modo de compresión.

Las características distintivas del estándar MPEG-1, respecto a sus predecesores, son:

i. Acceso aleatorio: cualquiera de los cuadros puede ser decodificado en un tiempo máximo conocido. Esto lo hace útil para aplicaciones de almacenamiento de vídeo. Y se consigue mediante la inclusión de puntos de acceso independientes (I-frames) en la secuencia codificada.

ii. Permite operaciones de búsqueda rápida hacia delante/atrás: es posible recorrer la

secuencia codificada y visualizar sólo los cuadros seleccionados mediante esa operación de avance/retroceso rápido. También se permite la reproducción en sentido inverso al de codificación, lo cual es interesante en aplicaciones interactivas.

iii. Retraso “razonable” en el proceso de codificación/decodificación de aproximadamente 1

segundo para dar la impresión de interactividad en acceso unidireccional de vídeo. Respecto a cómo se organiza la codificación en el estándar MPEG-1, hay que decir que de forma

similar a como ocurre como el estándar H.261 se sigue una estructura de datos jerárquica, de forma que se posibilita que el proceso decodificador, por su parte, lleve a cabo la interpretación correcta sin ambigüedades. Esta estructuración consiste en secuencias de encabezamiento (que define de forma unívoca la información que precede) y datos, para cada uno de los seis niveles siguientes que se muestran en las figuras 10 y 11:

i. Secuencias (sequences) formadas por grupos de imágenes (pictures).

ii. Grupos de imágenes (group of pictures, GOP) compuestas por imágenes. iii. Imágenes compuestas por trozos (slices). Existen diferentes tipos de imágenes o cuadros:

I, P y B que indican diferentes grados de compresión. iv. Los trozos están hechos de macrobloques. v. Los macrobloques están comopuestos por un número de bloques.

vi. Los bloques, que son vectores de 8x8 pixels. Estas son las únidades más pequeñas debído a la operación de transformación basada en DCT.

Los cuatro tipos de cuadros o slices de MPEG son:

• Intra-coded (I), son los de referencia que vienen completos, al menos hay uno cada 10 o

15 frames. Están comprimidos con un algoritmo al estilo de JPEG de forma intra-frame con DCT. Se utilizan como puntos de acceso aleatorio en la secuencia. También se llaman cuadros clave (key frames).

• Predictive-coded (P), se codifican con respecto al frame anterior (I o P a su vez), usando

la técnica de predicción compensada de movimiento, con lo que todas las coincidencias no serán indicadas, comprimiéndose potencialmente más que un I. Este tipo de cuadros cuadros hacen uso de codificaciones inter-frame, en las cuales se realiza una estimación del movimiento y se codifican mediante DCT las diferencias obtenidas.

• Bidirectional predictive-coded (B), la predicción puede ser hacia delante, hacia atrás o

bidireccional y relativa a otras de tipo I ó P. No se pueden usar nunca como referencias de otros frames.

• DC-coded (D), se codifica sólo con sus propios datos como las I, y se usa sólo para

compresión sin pérdida y en ese caso sólo hay frames D (o no los hay en absoluto).

Page 27: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 27/65

Olvidando los DC, se forman grupos de cuadros consecutivos que siempre comienzan en un cuadro I, y que contienen I, P y B entremezclados, de modo que los P siempre se refieren al I o P anterior y los B al I o P anterior y siguiente, aunque no sean consecutivos.

El estándar MPEG no especifica cuántos frames P o B debe haber, depende del codificador, que

podría incluso no determinar fotogramas B en absoluto. Por lo general, la compresión es tanto mejor cuanto más cuadros B haya.

Figura 10. Secuencias, GOP, macrobloques y bloques en MPEG.

Figura 11. Tipos de slices o cuadros en MPEG.

En la tabla siguiente podemos ver un resumen de las diferencias básicas entre el estándar H.261

que hemos visto anteriormente y el MPEG-1.

Figura 12. Diferencias entre los estándares H.261 y MPEG-1.

Otra clase de algoritmos (aprobados en 1994): MPEG-2; se han propuesto para métodos de

compresión de vídeo de alta calidad y diferentes velocidades de transmisión. El principio básico es el mismo que el MPEG-1, al que se han añadido características especiales que permiten el paso de codificación dentro de un cuadro o campo en secuencias entrelazadas. Así como la introducción de una codificación escalable que permite la decodificación de una señal de vídeo con menor resolución (temporal ó espacial) ó calidad que aquella con la que se creó. Las velocidades de trabajo están en el orden de 1’5 a 3’5 Mb/s y proporciona mayor calidad de la señal de vídeo a costa de un proceso más complejo que el estándar MPEG-1.

El MPEG-4 introduce como característica más notable sobre los anteriores la facilidad de

interacción con objetos visuales. El algoritmo está basado en técnicas de representación de basadas en objetos. En esta representación, los pixels de un objeto se consideran inseparables en la misma forma que lo son las moléculas en un objeto del mundo real debido a efecto de un campo de fuerza. Ese efecto está

Page 28: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 28/65

en función de una representación que acompaña la descripción de un objeto. En este estándar, la señal de vídeo se descompone en diferentes objetos, cada uno de los cuales tiene su respectiva información de forma, textura y movimiento. Estas entidades se codifican de forma independiente para permitir el acceso directo y la manipulación (es decir operaciones de cortar, pegar, deformar, etc.).

El estándar MPEG-7 pasa por un cambio fundamental en la forma de representación de la

información: la llamada representación semántica.

Figura 13. Pirámide de estándares MPEG.

6.6.1.3.1. MPEG-4. MPEG-4 trata más de agrupar los estándares ya existentes que de crear nuevos formatos (formato

de formatos). Se trata de una especie de meta-formato que engloba tanto la posibilidad de almacenar imágenes y sonidos comprimidos, como la de añadir objetos sintéticos, interpretar (decodificar y renderizar) y representar una composición de escena a partir de múltiples objetos.

Además, describe la forma en que debe transmitirse y sincronizarse el envío de los datos, bien sea

a través de una red o bien en un soporte físico local. También se encarga de la posible interacción del usuario con las escenas descritas.

Dispone de un conjunto de tecnologías para satisfacer las necesidades de los autores de

productos multimedia, los proveedores de servicios de red y los usuarios finales: • AUTORES DE PRODUCTOS MULTIMEDIA:

o Les permite combinar varias tecnologías en una sola con mayor flexibilidad. o Les otorga una mayor reutilización de sus creaciones al trabajar con objetos

• PROVEEDORES DE SERVICIOS DE RED:

o Controlarán mejor el tráfico, puesto que el estándar contempla el envío de señales de control.

o Define unos niveles mínimos de calidad de servicio (QoS) para que cada operador garantice un servicio de calidad según los requerimientos del cliente y del canal a utilizar.

o Se puede optimizar el flujo de datos en función de su tipo y relevancia.

• USUARIO FINAL: o Le ofrece televisión digital, aplicaciones gráficas y multimedia interactivas,

comunicación en tiempo real, vigilancia a distancia, etc.

Las escenas audiovisuales MPEG-4 están compuestas por multitud de objetos multimedia de forma jerárquica. Estandariza el número de objetos multimedia primitivos que pueden ser de dos o tres dimensiones. Por ejemplo: si pensamos en una persona hablando en una clase y queremos transmitir esta información de forma audiovisual, podemos descomponer la escena en varios objetos diferentes, como: imágenes

Page 29: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 29/65

estáticas (pizarra, fondo, etc), objetos de vídeo (la animación de la persona hablando), objetos audio (la voz de esa persona), etc.

Las escenas son agrupaciones de objetos multimedia. Los objetos que componen la escena se

agrupan en árboles y subárboles. Esta idea se basa en el concepto de escena empleado en el lenguaje VRML (Virtual Reality Modeling Language o Lenguaje de Modelado de Realidad Virtual).

La idea básica es que los objetos multimedia primitivos se agrupan para formar objetos

multimedia más complejos de forma jerárquica. De esta manera, el autor puede construir escenas tan complejas como sea necesario y el usuario puede interactuar con un grupo de objetos como si de uno sólo se tratara.

Debido a la presencia de varios objetos es un solo bloque, es necesario tener en cuenta las

necesidades de ancho de banda de cada objeto para no tener que esperar al más lento. Esto se consigue mediante una capa de sincronización (capa de sincronización de flujos) que se dedica exclusivamente a la gestión y control de los objetos que se necesitan representar.

Los objetos multimedia se transmiten en los que llamaremos flujos de datos. Los flujos de datos

se componen de flujos elementales de datos (elementary stream, ES). Así pues, los objetos multimedia pueden necesitar varios flujos de datos, que pueden ser de diferente naturaleza y que son transportados en uno o mas flujos elementales. Un objeto descriptor identificará los flujos asociados a un objeto multimedia. Los descriptores pueden llevar indicaciones del nivel de calidad (QoS) apropiado que se requiere para la transmisión (p.e., la máxima tasa de bit, la tasa de bit de error, la prioridad, etc). La capa de sincronización se encarga de sincronizar los flujos elementales. La sintaxis de esta capa de sincronización es configurable en multitud de modos por lo que se puede usar en distintos tipos de sistemas.

Generalmente, el usuario final verá la escena tal cual el autor la ha creado, aunque este pueda

permitir cierto grado de interacción con la escena si la diseña de este modo. Entre otras cosas, el usuario podrá:

• Cambiar los puntos de vista o audición (navegar por la escena). • Mover objetos de la escena a distintas posiciones. • Arrancar y detener el flujo de eventos (ej: iniciar y detener el vídeo). • Elegir el lenguaje que desea emplear, caso de que se ofrezca soporte para varios.

6.6.1.4. Cinepak El codec más utilizado si lo que interesa es el espacio. Permite definir el espacio entre cuadros

llave y la calidad interframe, eliminando más o menos información en cada uno de los fotogramas relativos. También se suele poner definir la velocidad de transferencia de datos máxima soportada, de modo que Cinepak reducirá la calidad hasta permitir que los datos necesarios no sean superiores.

6.6.1.5. Sorenson Video Parece que va a ser el sustituto natural de Cinepak. Tiene una gran calidad incluso con tasas de

transmisión mínimas, con lo que se está convirtiendo en una de las principales opciones para transmisión de vídeo en Web.

También es tremendamente asimétrico, como Cinepak.

Page 30: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 30/65

6.6.1.6. Indeo Indeo es una tecnología de compresión/descompresión de vídeo desarrollada por Intel para

procesadores Pentium, muy usada en los ficheros AVI, y QT, entre otros.

6.6.1.7. QuickTime Es una definición (aparecida hacia 1992) desarrollada por Apple Computer de la arquitectura para

un sistema multimedia multiplataforma de origen industrial. Se utiliza por desarrolladores de herramientas y contenidos software para crear y distribuir de forma sincronizada, gráficos, sonido, vídeo, texto y música al disponer de capacidad para albergar un cierto numero de pistas. Permite reproducir archivos de diverso contenido con animaciones, música, MIDI, audio, vídeo y dispone de un limitado aspecto de mostrar una imagen con características de realidad virtual.

No requiere de hardware y está disponible en plataforma Mac 68K/PPC y Windows.

6.6.1.8. Animation Es el codec más utilizado para comprimir películas generadas por ordenador (2 o 3-d), por

ejemplo una animación generada con Macromedia Director. Utiliza también compresión interframe.

6.6.2. Nuevos formatos de compresión de vídeo

6.6.2.1. DIVX/XVID La razón de la existencia de los formatos DivX y XviD es su excelente capacidad de almacenar vídeo de alta calidad en un fichero de tamaño reducido que podamos insertar en un CD de 650-700-800 o 900 MB de los llamados consumibles. El proceso de compresión de vídeo se hace en MPEG 4 por lo que esta versión de MPEG y el códec DivX van ya unidas dentro de la terminología de los consumidores de archivos DivX y Xvid. Por lo tanto, al contrario que los ficheros de DVD que van con compresión de vídeo en MPEG 2, el DivX y el Xvid utilizan el la compresión en MPEG 4.

Conviene aclarar, de todas formas, que el usuario de DivX se va a topar con otra sigla imprescindible en el campo de del vídeo digital: AVI. En sí, AVI no es un formato de vídeo por sí mismo; se trata de un contenedor de formatos, como veremos más adelante en este capítulo. Así, dentro de un archivo AVI podemos usar diferentes métodos de compresión de audio y vídeo, que estarán multiplexados. El fichero expresa el códec a utilizar para visualizar los datos contenidos en él, y el programa visualizador es el que se encarga de mostrar el vídeo. Recordemos también que al crear un fichero AVI se puede elegir por separado la forma de compresión de audio y de vídeo.

Las características principales del Xvid y del DivX son las siguientes:

Resolución PAL (generalmente): 640x480 o menor Compresión vídeo: MPEG 4 Compresión de audio: MP3, Ogg, WMA Bitrate de vídeo: 300-1000 kbps Tamaño/minuto: 1-10 MB/min. Compatibilidad con reproductores: cada vez mayor Potencia necesaria: mucha Calidad de visionado: notable

Page 31: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 31/65

Por otro lado, las características del DVD son las siguientes: Resolución PAL: 720x576 Compresión vídeo: MPEG 2 Compresión de audio: MPEG 1, 2, AC3, DTS Bitrate de vídeo: 3000-8000 Kbps Tamaño/minuto: 30-70 MB/min. Compatibilidad con reproductores: máxima Potencia necesaria: mucha Calidad de visionado: excelente

Hagamos un poco de historia alrededor del DivX. Existen varios códecs alrededor de este concepto. Por un lado tenemos OpenDivX, conocido como “DivX para Windows/Linux/Mac”, que es parte del proyecto de código abierto del Proyecto Mayo, donde el códec original es referido como DivX ;-) Codec. Las versiones de estos dos códecs también difieren. El original usa 3.xx, mientras que el del Proyecto Mayo usa 4.xx. El códec original DivX 3.xx se basa en el códec MPEG-4 V3 de Microsoft (ASF se basa en MPEG-4 V2). Este códec fue hacheado y re-distribuido porque no se podía codificar ficheros AVI con este códec de Microsoft, sólo se permitía crear ficheros ASF/WMV. DivX 3.xx también incluía versiones hacheadas de códecs MP3 y WMA. El códec DivX4.xx no tiene nada que ver con el de Microsoft, fue desarrollado desde cero, y sigue en desarrollo. Ambos códecs pueden estar instalados al mismo tiempo y cada uno decodificará los contenidos codificados con ellos. Recientemente ha aparecido otra nueva familia de códecs, el DivX 5.x de DivXNetworks. DivX 5.1 pretende revolucionar la creación, producción y distribución de vídeo digital, incluso a través de Internet. Es más rápido que los códecs anteriores y más eficiente, permitiendo la reproducción en tiempo real de resoluciones de vídeo de alta definición sin usar hardware especial. Es capaz de decodificar flujos de vídeo MPEG-4 Simple Profile y MPEG-4 Advanced Simple Profile (ISO/IEC 14496-2). XviD (DivX al revés, por si no lo habíais notado) es un códec que, como el DivX original, parte del formato de compresión de vídeo MPEG-4. Sin embargo, en este caso, se desarrolla bajo el proyecto de software libre del mismo nombre y, en la página web principal, sólo encontraréis los códigos fuente de este desarrollo, que se pueden compilar en diferentes plataformas. Soporta las siguientes características de MPEG-4:

Codificación I, P-Frame I-Frames son cuadros de imagen, mientras que P-Frames son Patrones de Cuadros. Los Cuadros de

Imagen contienen imágenes completas. P-Frames contiene patrones de lo que cambia en la imagen, ahorrando mucho espacio.

PMVFast y EPZS con patrón de estimación de movimiento en diamante y cuadrado. Detección Fast Motion que puede referir un patrón con forma de diamante o cuadrado a direcciones

diferentes. inter4v mode Capacidad de interpolación rápida. Precisión fullpixel y halfpixel Incluso los movimientos halfpixel pueden codificarse. Una mejor precisión da lugar a una mejor

compresión con mejor calidad. Cuantizaciones MPEG4 y H263 MPEG4 es el estándar del que derivó DivX. H263 es un subconjunto de este estándar ligeramente

modificado por Microsoft. La cuantización es el mapeado de la cantidad de valores de color a números.

Page 32: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 32/65

Matrices de cuantización personalizadas La cuantización puede hacerse usando matrices personalizadas, obteniendo posiblemente mejores

resultados si la matriz se hace para adaptarse a los datos de vídeo. Para el uso normal debería bastar con la matriz por defecto que viene con XviD.

Cuantización adaptable / Máscara de luminosidad La Cuantización y la Máscara de luminosidad son variables, dependiendo del material de entrada,

proporcionando por tanto mejores resultados en imágenes oscuras o con alto contraste. Comparativa DivX4, Divx5 y XviD La prueba se realizó con 2 archivos de vídeo, uno de 1’52” y otro de 59”. Primero analizaremos el tiempo de compresión con cada uno de los códecs:

Archivo 1 DivX4 03:02 XviD 02:58

DivX5 02:55

Archivo 2 DivX4 01:37 XviD 01:34

DivX5 01:33

En este caso DivX4< XviD < DivX5. Las opciones adicionales para Divx5 suponen mayor tiempo de CPU. Ahora miraremos el bitrate y el espacio consumido. Se hizo la codificación en 1 pasada porque da un rendimiento puro del códec, y se estableció un bitrate de referencia.

Fuente 1

DivX4 10.532 KB 750 kbps XviD 9.808 KB 698 kbps DivX5 10.510 KB 749 kbps

Fuente 2

DivX4 6.230 KB 844 kbps XviD 5.522 KB 753 kbps DivX5 6.184 KB 838 kbps

El primer vídeo produce menor bitrate que el pedido, mientras que en el segundo es al revés, lo que implica que no podemos confiar en el códec para el bitrate. Para un bitrate más ajustado necesitaríamos una segunda pasada. El segundo archivo es más grande de los esperado porque la mitad de él son secuencias de fútbol con zooms sobre jugadores, la parte más difícil a comprimir. Finalmente, analizaremos la calidad de la imagen obtenida. DivX5 en modo Fast Recompress y vid presentan los problemas de demasiada pixelación y cuadros visibles. Deberíamos usar más espacio para mejorar la calidad. Es especialmente visible a pantalla completa. Los mejores resultados se obtienen con DivX4 y DivX5, aunque este último es más rápido con las mismas preferencias. DivX5 parece ser más una evolución que una revolución ya que podemos reproducir archivos del 5 con el códec 4 siempre y cuando no se usen nuevas facilidades.

Page 33: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 33/65

6.6.2.2. xVCD

xVCD representa eXtended VCD. Posee las mismas características que VCD pero es posible usar mayores bitrates y resolución para obtener mejor calidad de vídeo. xVCD es básicamente todo lo que se codifica usando vídeo MPEG-1, no cumple con el estándar VCD y se graba en modo VCD. xSVCD representa eXtended SVCD y tiene las mismas características que SVCD, aunque podremos usar mayores bitrates y resolución para obtener mejor calidad de vídeo. Es básicamente todo lo que se codifica con MPEG-2 vídeo, no cumple con el estándar SVCD y se graba en modo SVCD. xVCD puede reproducirse en reproductores VCD pero no suele ocurrir lo mismo con xSVCD. Existen xVCD y xSVCD tanto en formato PAL como NTSC, veamos sus características: xVCD PAL:

Vídeo: MPEG-1 con CBR o VBR; 352x288 píxels: 25 frames/s. Audio: 32-384 kbps MPEG-1 Layer 2.

Extra: Menús y capítulos. Imágenes fijas 704x576, 352x288. xSVCD PAL: Vídeo: MPEG-2 con CBR o VBR; 352x288;352x576;720x576: 25 frames/s, hasta con 4 subtítulos Audio: 32-384 kbps MPEG-1 Layer 2 con hasta 2 pistas de audio.

Extra: Menús y capítulos. Imágenes fijas 704x576, 352x288. xVCD NTSC: Vídeo: MPEG-1 con CBR o VBR; 352x240; 29’97 frames/s Audio: 32-384 kbps MPEG-1 Layer 2.

Extra: Menús y capítulos. Imágenes fijas 704x480, 352x240. xSVCD NTSC: Vídeo: MPEG-2 con CBR o VBR; 352x240;352x480;720x480: 29’97 frames/s, hasta con 4 subtítulos Audio: 32-384 kbps MPEG-1 Layer 2 con hasta 2 pistas de audio.

Extra: Menús y capítulos. Imágenes fijas 704x480, 352x240.

Page 34: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 34/65

Comparativa de archivos de vídeo

Format VCD SVCD DVD DivX XviD WMV

MOV ASF SMR nAVI

RM DV

Resolution NTSC

PAL

352x240 352x288

480x480 480x576

720x480 720x576²

640x480² 640x480² 320x240² 320x240² 720x480 720x576

Video Compression

MPEG1 MPEG2 MPEG2, MPEG1

MPEG4 Sorenson, Cinepak, MPEG4

MPEG4 RM DV

Video bitrate kbit/sec

1150 kbit/s 1000~2500 kbit/s

3000~9000 kbit/s

300~1000 kbit/s

300~2000 kbit/s

100~500 kbit/s

100~500 kbit/s

25 Mbit/s

Audio Compression

MP1 MP1 MP1, MP2, AC3, DTS, PCM

MP3, WMA, OGG, AAC, AC3

Sorenson, Cinepak, MP3

MP3, WMA RM DV

Audio bitrate kbit/sec

224 kbit/s 128~384 kbit/s

192~448 kbit/s

64~448 kbit/s

64~192 kbit/s

64~128 kbit/s

64~128 kbit/s

1000~1500 kbit/s

Size/min 10 MB/min 10 - 20 MB/min

30 - 70 MB/min

1 - 10 MB/min

1 - 20 MB/min

1 - 5 MB/min

1 - 5 MB/min

216 MB/min

Min/74min CD

74min 35-60min 15-20min 60-180min 60-180min 120-300min 120-300min 3min

Hours/DVDR N/A N/A 2-4hrs (3-7hrsª)

13-26hrs 13-26hrs 26-40hrs 26-40hrs 20min

Computer CPU Usage

Low High Very High Very High High Low Low High

Quality Good Great* Excellent* Great* Great* Decent* Decent* Excellent

² resolución aproximada ~ bitrate aproximado ª DVD con menor calidad de vídeo, similar a VCD/SVCD * la calidad del vídeo depende del bitrate y de la resolución

6.6.3. Contenedores de vídeo

Un contenedor de audio y vídeo no es un formato de compresión de vídeo, ni tampoco puede ser usado para comprimir música ni imágenes como MP3 o JPEG, no es un códec. Un contenedor permite incluir en un mismo archivo varios flujos de audio, vídeo y subtítulos, lo que asegura que el audio y el vídeo pueden ser reproducido en la mayoría de reproductores de medios.

6.6.3.1. AVI

El contenedor AVI fue presentado originalmente por Microsoft a comienzos de los 90, y fue diseñado como un contenedor a/v flexible para los formatos de compresión de audio/video de aquellos días. Hay que entender que el AVI es sólo una (aunque importante) parte de un completo trabajo multimedia llamado 'Video para Windows' - VfW (Video for Windows) o la interface ACM (esto viene de los días en los que Microsoft aún se dedicaba a vender sus sistemas operativos a la gente, en vez de soluciones multimedia tal y como están intentando hacer hoy en día con WMV, así que tuvieron que construir su SO atractivo para otros programadores). Por desgracia, este VfW framework no soporta muchas de las características más avanzadas que nos ofrecen los modernos formatos de compresión de audio y vídeo, como la compresión de audio con Bitrate Variable (VBR), o el Framerate Variable en la compresión de video (VFR). Aunque AVI fue mejorado con standars adicionales llamados 'Open DML AVI' a finales/mediados de los 90, pronto llegaron sus limitaciones, como los 2 GB de tamaño máximo de archivo, no hay forma de que soporte los formatos de compresión tales como el excelente formato de audio Ogg Vorbis, de código abierto.

Page 35: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 35/65

Existen dos tipos generales de AVI, Los basados en Video for Windows (los primeros en aparecer) y los basados en DirectShow (originalmente ActiveMovie). Y como hemos dicho, un AVI no es más que un contenedor que puede guardar datos en su interior codificados de diversas formas y con la ayuda de diversos códecs que aplican diversos factores de compresión, aunque para liar la cosa aún más si cabe, también existe la posibilidad de almacenar los ficheros en un formato AVI "raw" o crudo, es decir, sin compresión y muchos fabricantes aportan su granito de arena con códecs que añaden más confusión a nuestra babel particular. Aunque un AVI puede tener n número de flujos, lo más común es un flujo de vídeo (vids) y otro de audio (auds). Las cabeceras (o headers) del formato del flujo definen todo el formato (incluida la compresión usada) de cada flujo. El formato estándar de un AVI basado en VfW contempla la existencia de un flujo de video, uno de audio o ambos. Así un AVI en VfW puede almacenar sólo audio, sólo vídeo o ambos pero en flujos separados para cada tipo. A continuación describimos la estructura de un archivo AVI básico. Un archivo AVI se basa en el formato RIFF, que contiene una cabecera y un conjunto de listas. Los ficheros AVI se identificador por ‘AVI’ en la cabecera y poseen 2 listas obligatorias, que definen el formato de los flujos y los datos de los flujos respectivamente. Un fichero AVI también podría incluir un índice que localiza los datos en el fichero. Un fichero AVI con estos componentes tiene la siguiente forma:

RIFF ('AVI ' LIST ('hdrl' ... ) LIST ('movi' ... ) ['idx1' (<AVI Index>) ] )

La lista ‘hdrl’ define el formato de los datos y es la primera lista requerida. La lista ‘movi’ contiene los datos de la secuencia AVI. ‘idx1’ contiene el índice. Estos componentes deben aparecer en la secuencia adecuada. Las extensiones OpenDML definen otro tipo de índice identificado por ‘indx’. Las listas ‘hdrl’ y ‘movi’ usan subbloques para sus datos. El siguiente fragmento AVI expande esas listas para describir las necesidades a cubrir por estos subbloques.

RIFF ('AVI ' LIST ('hdrl' 'avih'(<Main AVI Header>) LIST ('strl' 'strh'(<Stream header>) 'strf'(<Stream format>) [ 'strd'(<Additional header data>) ] [ 'strn'(<Stream name>) ] ... ) ... ) LIST ('movi' {SubChunk | LIST ('rec ' SubChunk1 SubChunk2 ... ) ... } ... ) ['idx1' (<AVI Index>) ] )

Page 36: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 36/65

HDRL AVI Main Header La lista ‘hdrl’ comienza con la cabecera principal AVI que contiene un bloque ‘avih’. La cabecera principal contiene información global para el fichero AVI, como el número de flujos en el fichero y las dimensiones de la secuencia AVI. Esta es la información que contiene:

• Número de frames • Número de flujos • Frames iniciales • Max bytes • Tamaño de buffer • Microsegundos/frame • Frames/segundo • Tamaño (p.ej., 320x240) • Flags

AVI Stream Headers Tras el Main Header aparecen listas ‘strl’. Se requiere una lista ‘strl’ para cada flujo de datos. Cada una contiene información sobre un flujo del archivo y debe contener un bloque de cabecera de flujo (‘strh’) y uno de formato de flujo (‘strf’). Además, puede contener un bloque de datos de cabecera de flujo (‘strd’) y uno de nombre de flujo (‘strn’). La estructura de un strh es la siguiente:

• Tipo de flujo (‘vids ‘, ‘auds’) • Manejador de flujo (‘cvid’ para cinepak) • Muestras por segundo • Prioridad • Frames iniciales • Comienzo • Longitud en frames • Longitud en segundos • Flags • Tamaño de Buffer • Calidad • Tamaño de muestra

El bloque ‘strf’ describe el formato de los datos en el flujo, por lo que depende del tipo de flujo. Esta es su estructura: Flujo de vídeo:

• Tamaño (ej, 320x240) • Profundidad de bit (ej, color 24 bits) • Colores usados • Compresión

Flujo de audio wFormatTag: formato (ej, WAVE_FORMAT_PCM) Número de canales Muestras por segundos Bytes medios por segundo

Page 37: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 37/65

Número de bloques de alineamiento Bits por muestra Si existe un bloque ‘strd’, le sigue el formato de flujo. El formato y contenido de este bloque depende del driver del códec. Las aplicaciones que leen y escriben archivos AVI no necesitan interpretar esta información, sino únicamente transferirla como bloque de memoria. El bloque ‘strn’ contiene un string terminado con el carácter nulo para describir el flujo. Las cabeceras de la lista ‘hdrl’ se asocian a los datos en la lista ‘movi’ según el orden de los bloques ‘strl’. El primer ‘strl’ se corresponde con el flujo 0, el segundo con el 1 y así sucesivamente. MOVI La lista ‘movi’ contiene los frames de video y los samples de audio. Los bloques de datos pueden residir directamente en la lista ‘movi’ o ser agrupadas en listas ‘rec’, que agrupan bloques que deben ser leídos juntos. Cada bloque de datos es identificado por un número de 2 dígitos seguidos de 2 caracteres que describen el tipo de información del bloque. El significado de los caracteres es el siguiente: Db frame de vídeo no comprimida Dc frame de vídeo comprimida Pc cambio de paleta Wb datos de audio Por ejemplo, si el flujo 0 contiene audio, los datos valdrían 00wb. Si es de vídeo tendría valor 01db o 01dc. El bloque opcional de índice (‘idx1’) puede seguir a la lista ‘movi’. El índice contiene una lista de bloques y su situación en el archivo.

6.6.3.2. OGM OGM significa Ogg Media File y fue desarrollado por Tobias Waldogels, siendo un formato de vídeo avanzado que puede hacer muchas cosas a las que no llega el formato AVI:

• Soporte de múltiples pistas de subtítulos • Soporte de múltiples pistas de audio en varios formatos (MP3, Dolby Digital, Ogg Vorbis, WAV). • Soporte de capítulos • Soporte de audio OGG Vorbis.

OGM es fundamentalmente una extensión de Ogg, que no fue diseñado originalmente para contener audio y vídeo. Por ello, tienes ciertas limitaciones que limitan su aceptación como el próximo gran formato contenedor. Nuevos formatos contenedores tipo Matroska adquirirán un mayor protagonismo a medio plazo. OGM no era un proyecto de código abierto a pesar de basarse en el entorno Ogg, aunque actualmente el creador se ha unido al equipo que lleva el proyecto Ogg y ha donado todo el código. Generalmente se usa la compresión Xvid aunque se está completando en Ogg Theora, supuestamente el mejor codec para el formato OGM.

6.6.3.3. Matroska Matroska es un formato código-abierto, multiplataforma, libre de patente, más reciente que OGM. Matroska no es un codec (como MPEG-1, XviD, DivX, o VP3), sino un contenedor (como OGM) donde puedes poner video(s) + audio(s) + subtítulo(s). Los formatos de audio soportados incluyen Ogg Vorbis, AAC, MP3 y AC3. Los ficheros de Matroska son, o bien de mejor calidad o más compactos que un OGM (A groso modo, 174Mb comparados con 175Mb para un OGM), gracias a una nueva estructura llamada EBML, también conocida como "XML binario". EBML permite obtener un gran número de ventajas si hablamos en términos de extensibilidad de formato y de compatibilidad con versiones anteriores. Matroska ha sido diseñado con el futuro en mente, incorporando características tales como:

Page 38: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 38/65

• Los ficheros pueden ser emitidos mediante streaming por HTTP/RTP a través de Internet • Búsqueda rápida en el fichero • Recuperación ante errores • Menús (como los DVDs) • Entradas de capítulos • Subtítulos y audio seleccionables • Extensibilidad modular

La misma información de Audio/Video de un OGM puede ser almacenada de forma más eficiente en Matroska, resultando un significativo tamaño menor en el fichero. Matroska tiene las mismas capacidades, si no más, que OGM, mientras que salva (ligeramente) 4Mb de capacidad por cada 700Mb de información. Por estas razones, la tecnología de Matroska podría hacer que la de OGM llegue a ser obsoleta. En otras palabras, si el tamaño del fichero Matroska y el OGM son iguales, la calidad del Matroska será superior. Por ejemplo:

175MB OGM = 160MB Video + 13.5MB Audio + 1.5MB Cabecera para entrelazado 175MB Matroska = 160MB Video + 14.5MB Audio + 0.5MB Cabecera para entrelazado Gracias al reducido encabezado, deberías ser capaz de usar un bitrate mayor en Matroska y

continuar teniendo todavía el mismo tamaño de fichero. Un ejemplo de mejora con respecto a OGM se puede ver en lo referente a los subtítulos. Los subtítulos en OGM pueden soportar varios idiomas intercambiando lo que es llamado como "Páginas de Código". Por ejemplo, el mismo código E8 en hexadecimal puede ser U+00E8 è (e con acento grave) en el código de Europa occidental, U+010D č (c con caron) en el código de página de Europa central, o U+0438 и (Russian small letter i) en cirílico. Un carácter diferente puede tener distintos puntos en Unicode, como U+00E8, U+010D, y U+0438 en el ejemplo superior. Windows 2000 y XP funcionan de esta forma internamente. Pero sistemas operativos anteriores como MS-DOS usan el mismo código (E8 en el ejemplo superior) para caracteres diferentes, y los distinguen intercambiando los códigos de página. Estos códigos son incompatibles con Unicode e incluso idiomas europeos.

Actualmente, los subtítulos adjuntos al OGM usan este método antiguo. Básicamente, para ver los

subtítulos en diferentes lenguajes, el código de página debe ser intercambiado manualmente, lo que puede ser una molestia. En algunos casos, aun así, los subtítulos no se verán correctamente a pesar del cambio manual realizado. Los softsubs en OGM no permiten notas (generalmente en un tamaño de fuente menor) ser añadidos en la parte superior de la pantalla. Las notas de Edición son usadas como una herramienta por los subtituladores para explicar una letra o un fondo cultural que puede no ser familiar con los visores generales. Esto es actualmente la practica hardsubs (en fichero AVI); pero imposible en subtítulos softsub OGM. Además, los subtituladores están frustrados por la falta de libertad en el sistema de estilismo y composición de los subtítulos OGM. Los subtítulos están diseñados para no solo convencer la idea del diálogo hablado, sino para crear el humor o configuración. Por ejemplo, fuentes especiales pueden ser usadas para un hechizo mágico, anuncio por radio, voz sintética de IA, etc. Sin embargo, estas herramientas están limitadas cuando se trabaja con OGM. (Algunos fansubbers denotan que OGM es inútil por este motivo.) . Matroska soportará SSA y ASS, lo que significa que todo lo que se puede hacer en hardsub, estará disponible en hardsub. Lo que es más, Matroska va a soportar el innovador formato de subtitulos basado en XML: USF. Veamos en la figura siguiente la estructura de un archivo Matroska a grandes rasgos. El Header contiene la información referida a la versión de EBML usada para crear el fichero. El campo Metaseek contiene un índice que localiza la situación de los otros grupos en el fichero. Este elemento no es necesario técnicamente, pero evita tener que buscar a lo largo de todo el fichero elementos opcionales no presentes, ya que los ítems pueden ocurrir en cualquier orden. La sección Segment Information contiene información básica referente al archivo, como el título del archivo, un identificador único para que pueda ser identificado en cualquier momento y, en caso de ser parte de una serie de archivos, el identificador del siguiente archivo. La sección Track tiene información básica sobre cada pista, si es de vídeo, audio o subtítulos, la resolución de vídeo, la tasa de muestreo de audio, el códec usado y datos privados del códec. En la sección Chapters aparece la lista de capítulos, que son una forma de predefinir puntos de

Page 39: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 39/65

salto en el audio o el vídeo. La sección Clusters contiene todos los frames de audio y vídeo para cada pista. Los índices para cada pista aparecen en la sección Cueing data, de intención similar al Metaseek. Podremos adjuntar cualquier tipo de fichero (imágenes, webs, programas, codec) a un archivo Matroska a través de la sección Attachment. Finalmente, la sección Tagging contiene las etiquetas relacionadas con el fichero y las pistas, como los ID3 en MP3. Contiene información sobre el cantante, compositor, actores o quién hizo el archivo.

Header Meta Seek Information Segment Information Track Chapters

Clusters

Cueing Data Attachment Tagging

Una vez descrita la estructura del archivo podemos proceder a entrar en mayor detalle en el mismo.

Level 0 Grouping Level 1 Level 2 Level 3

EBML Header EBMLVersion DocType

Segment

Meta Seek Information SeekHead

Seek SeekID SeekPosition

Seek SeekID SeekPosition

Segment Information Info Title

SegmentUID

Track Tracks

TrackEntry Name TrackNumber TrackType

TrackEntry Name TrackNumber TrackType

Page 40: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 40/65

Chapters Chapters Edition Entry

Clusters

Cluster

Timecode BlockGroup Block

BlockGroup Block ReferenceBlock

BlockGroup Block

Cluster

Timecode BlockGroup Block BlockGroup Block BlockGroup Block

BlockGroup Block BlockDuration

Cueing Data Cues CuePoint CueTime

CuePosition

CuePoint CueTime CuePosition

Attachment Attachments AttachedFile FileName

FileData

AttachedFile FileName FileData

Tagging Tags Tag MultiTitle

Language

Tag MultiTitle Language

Header aparece al principio del archivo y es lo que indica si se puede leer o no el archivo. Incluye dos campos, la EBMLVersion, para que el parser pueda saber si es capaz de leer o no el archivo y el DocType, que dirá si es un archivo Matroska o no. La sección MetaSeek contiene parejas de entradas <SeekID, SeekPosition> para cada punto a localizar (Seek). SeekID contiene el identificador de un elemento de nivel 1 (Track, Cluster, etc). SeekPosition indica el número de byte de comienzo. Segment Information incluye Title para el título del archivo y SegmentUID para identificar el archivo. Este ID se genera aleatoriamente.

La porción Track contiene el nombre de la pista (Name), el número (TrackNumber) y el tipo de pista (TrackType). También existen opciones para especificar el idioma y el códec. Cada pista tiene un identificador único (TrackUID) que puede ser usado al editar un archivo del que disponemos varias versiones. El TrackUID también se usa en Tagging.

Page 41: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 41/65

En un archivo Matroska existen generalmente muchos Clusters, que ayudan en la búsqueda de bloques y en la protección contra errores. No hay límites respecto de los datos que puede contener un cluster, pero se les suele poner un límite de 5 segundos o 5 megabytes. Al principio de cada cluster aparece un código de tiempo que indica cuando debe reproducirse el primer bloque del cluster. Entonces, hay varios BlockGroups en cada cluster, conteniendo un bloque de datos y cualquier información relacionada con el bloque. En el BlockGroup también existe un ReferenceBlock, que se usa en lugar de la descripción básica P-Frame/B-Frame. Se indica el código de tiempo del bloque necesitado y al poder existir tantos ReferenceBlock como queramos, podemos conseguir estructuras referenciales bastante complejas. En la sección de Cues, para cada CuePoint existe un código de tiempo (CueTime) y un listado exacto de la posición en el archivo para cada pista para ese código de tiempo. La estructura de Attachments es muy simple. Para cada archivo a adjuntar tenemos una estructura AttachedFile, que se divide en el nombre (FileName) y el archivo (FileData). También se puede almacenar el tipo MIME y un nombre más legible. Llegamos a las Tags, que son posiblemente la parte más compleja de Matroska. Cada Tag contiene toda la información perteneciente a pistas/capítulos específicos. Cada pista o capítulo referido en un tag tiene su UID en los tags. Además contienen la información extra sobre el archivo, como guionista, cantante, actores, director, edición, precio, género, etc, y permite tener esta información en varios idiomas.

6.7. Hardware para editar vídeo Para realizar una edición de vídeo con las cámaras digitales tenemos tres alternativas :

- pasar la imagen ( analógica ) al ordenador a través de una capturadora de vídeo analógica que comprima a M-JPEG o MPEG-2 , editar y pasar el resultado a una cinta VHS, DV, CD-ROM o DVD-RAM. - pasar la imagen digital al ordenador a través del FireWire, editar y volver a pasar la imagen a la cinta DV a través del FireWire ( método ideal ). - realizar la edición a un vídeo VHS ( o DV ) y utlizar el software que suelen proporcionar los fabricantes de cámaras. ( Edición sencilla, simple remontaje de las imágenes )

El mejor método, sin duda, es el segundo: editar en formato DV y volcar el resultado de la edición a la cinta miniDV. Luego lo veremos paso a paso. Si disponemos de una cámara con un puerto FireWire de entrada/salida el escenario es idílico. Realizaríamos la edición en un entorno digital sin degradación alguna de las imágenes. Lo más importante a tener en cuenta es que la conversión analógica/digital y la compresión DTC se realiza en nuestra videocámara y por ello no es necesario comprar tarjetas digitalizadoras o codecs especializados ( en principio ). Además se evitan los problemas que solían tener las digitalizadoras , tales como pérdida de imágenes, etc. Otra ventaja es que el control de la cámara se realiza también a través del Firewire ( recordar que esta interface maneja señales de control en su propio protocolo). Evitamos así tener que enchufar la interface LANC o JLIP. El Equipo

Se necesita una cámara miniDV con interface Firewire ( IEEE1394) de entrada/salida. Ya sabeís que para el mercado europeo la mayoria de las miniDV están "capadas" y la interface DV es solo de salida. Pero no hay problema, es reversible y se pueden convertir en entradas/salidas. Existen también magnetoscopios miniDV, una opción para los semiprofesionales.

Page 42: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 42/65

Una tarjeta de interface Firewire para el ordenador. Un software de edición de video no-lineal tal como Adobe Premiere. Algunas de las tarjetas Firewire incluyen versiones reducidas de este tipo de programas. Los programas más populares y potentes son el Adobe Premiere y el MediaStudio Pro. Un ordenador potente con un gran disco duro. Tener en cuenta que el formato DV emana 3.7 Mbytes de datos por segundo. 10 minutos son 2.2 G y 90 minutos son 20 Gigas. Además se generan grandes archivos temporales durante la edición. En cuanto al ordenador, lo más gordo posible. 256M de RAM , un disco duro de 30 Gigas, un buen monitor , una CPU a 500 Mhz o más y poco más. Todo esto es relativamente barato hoy en día. Una tarjeta de edición DV con codec HW ( opcional ). Como veremos después, hay operaciones en las que es necesario descomprimir las imágenes DV al formato RGB u otros. Existen dos opciones : que lo haga la CPU del ordenador a través de un driver que suele venir con la tarjeta Firewire, o que lo haga una tarjeta PCI con un chip especializado. La diferencia está en la velocidad que puede llegar a ser hasta 10 veces mayor usando el codec ( codificador/descodificador ) hardware. La elección depende de las prisas y del dinero que tengamos. Conforme salen procesadores más rápidos, va teniendo menos sentido esta opción.

Paso a Paso

Paso 1: Salir de paseo o de viaje y filmar lo que nos de la gana. Las imágenes son digitalizadas y comprimidas en nuestra cámara en "tiempo real". Paso 2: Copiar la filmación digital al ordenador a través del Firewire. Se realiza con alguna utilidad o driver que suele venir con la tarjeta Firewire. No se produce la más mínima degradación de la imagen. Paso 3: Usar Adobe Premiere u otro programa para la edición. Aquí hay que señalar un punto importante. Cuando queremos añadir filtros, títulos o transiciones con Premiere, éste necesita descomprimir las imágenes para tratarlas como bitmaps RGB. Esta descompresión la puede realizar un codec software (que generalmente lo tenemos ya instalado ) o uno hardware que habría que comprar ( mucho más caro y rápido). Una vez realizada la transición o filtrado el codec vuelve a comprimir las imágenes en el formato DV. Si no necesitamos añadir transiciones ni aplicar filtros, este codec no se utiliza nunca. Pero está claro que siempre que editamos se añaden transiciones , títulos, etc ¿ si no para qué editamos ? Si no tenemos una aceleradora de edición DV, la generación de estas nuevas imágenes con filtros, etc ( el llamado "render") puede llevar bastante tiempo. Una transición sencilla entre dos cortes puede llevar unos 10 segundos en un ordenador a 800Mhz. No es mucho, pero es que hay gente que añade filtros a TODO el vídeo (para corregir tonalidades o dar un aspecto especial). En este caso, el proceso puede durar varias horas dependiendo de la duración del clip.

Page 43: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 43/65

Paso 4: Una vez acabada la edición, lo lógico sería pasar el resultado a nuestra cámara a través del Firewire (una vez más, con la mayoría de las cámaras europeas no es posible, salvo que la "crackees"). Una posibilidad fascinante será el paso a DVD, ya que se podría "transcodificar" hacía una unidad grabadora de DVD no siendo necesario que fuera "en tiempo real". Eso sí, tardaría unas cuantas horas y haría falta un software que pasara de formato DV a MPEG2.

6.7.1. Tarjetas firewire

Las tarjetas Firewire han pasado de ser una rareza a ser algo habitual en cualquier tienda o gran superficie. No tienen mucha ciencia, son un mero puerto de datos. Pero como está muy orientado al vídeo, se crea cierta confusión en los mercados y estas tarjetas se venden como "capturadoras de vídeo" más que como puertos de transfencia de datos ( es como llamar "puerto de ratón" a un "puerto serie" ). Normalmente, las tarjetas suelen llevar el cable de conexión a la cámara incluido, pero hay que asegurarse. Lo más común es que las tarjetas tengan tres puertos, pero la verdad es que con uno vamos ya bien ( no conozco a nadie que haya usado alguna vez dos o más puertos). Y también suelen venir con un soft de edición más o menos potente. La correcta instalación y "ajuste fino del sistema" puede dar quebraderos de cabeza. Se comentarán estas cosas más adelante. El bus IEEE1394 ( también llamado Firewire, iLink o terminal DV) es un bus serie de alta velocidad complementario del USB que mejora la conectividad de dispositivos incluyendo videocámaras, dispositivos de almacenamiento y periféricos. Debe cohexistir pacíficamente con USB quedando éste para periféricos de menor ancho de banda. No son compatibles. Las diferencias entre ambos buses las podeís encontrar :

1394/FireWire/i.Link USB Maximo númerode disposititivos 62 127

Inserción encaliente (enchufarsin resetear)

Sí Sí

Máx. longitud delcable entredispositivos

4,5m 5m

Velocidad detransferencia 400mbps (50MB/sec) 12mbps (1.5MB/sec)

Velocidad en elfuturo

800mbps (100MB/sec)1Gbps+ (125MB/sec+)

version 2.0 hasta 460MB

Compatible Macintosh Sí ?

Conexión dedispositivos Internos

Sí No

Periféricos típicos

- Videocámaras DV- Cámaras de altaresolución - HDTV- Discos duros- DVD-ROM Drives- Impresoras- Escáneres

- Teclados- Ratones- Monitores- Joysticks- Cámaras de bajaresolución - CD-ROM Drives de bajavelocidad - Modems

El bus Firewire ( iLink, DV ), aunque similar, no es compatible con el USB.

Page 44: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 44/65

Ha sido adoptado por numerosas compañías y se vislumbra un creciento espectacular en su implementación. Microsoft e Intel lo han declarado como "obligatorio" en su especificación PC98. Por tanto es de esperar que en poco tiempo esté integrado en la propia placa base del ordenador. Microsoft lo soporta de modo natural en Windows 98, pero Intel se niega a sacar chip set Firewire : prefiere sacar el USB-2 para no pagar un duro en royalties. Este bus fue desarrollado por Apple para su gama de ordenadores con la idea de sustituir al bus SCSI. Junto con Thomson tienen una patente en Reino Unido, pero sólo aplicable a los fabricantes de chips y en unas condiciones bastante favorables. A finales de 1995 el IEEE editó el actual estándar 1394. Su filosofía es similar al USB, soportando Plug&Play, hasta 63 dispositivos e inserción sin necesidad de apagar el equipo. Multiplica el ancho de banda llegando por el momento a los 400 Mbps (el USB está limitado a 12 Mbps). También proporciona hasta 15 W de potencia a los dispositivos conectados a él. El bus es multimaster, con asignación dinámica del número de nodo conforme son añadidos a la cadena. Cada nodo actúa como un repetidor, permitiendo formar topologías en árbol. Debido a la alta velocidad en el bus, la distancia máxima del cable entre nodos, es de 4.5 m. Esta limitación viene dada básicamente por la atenuación de la señal en el cable. Como se pueden tener hasta 16 dispositivos en una rama, la distancia máxima de la cadena llega a los 72 m. El protocolo es tanto asíncrono como isócrono. Esto significa que es posible negociar tanto un ancho de banda fijo ( para dispositivos como las cámaras DV que necesitan una transferencia constante y en tiempo real ) como variable ( para impresoras, escáners, etc ) simultáneamente por el mismo bus. El conector se ha heredado de una famosa consola de juegos. Puede parecer raro, pero este conector ha demostrado su fiabilidad y comodidad durante años. Además, es barato. Normalmente, las tarjetas Firewire llevan un conector para 6 cables : 4 de señal ( en modo diferencial ) y dos más para alimentar los dispositivos externos (algunas tarjetas Firewire, como la Digital Origin IntroDV vienen con un conector de 4 pines y un cable de 4 pines por ambos extremos. No es mala, idea ya que ese mismo cable puede valer para interconectar dos cámaras miniDV). Las cámara de vídeo, sin embargo, montan un conector de 4 pines , ya que no necesitan ser alimentadas externamente. Por tanto, se necesita un cable de " 6 a 4 pines" para conectar una Firewire a una miniDV. Pero si queremos conectar dos cámaras miniDV ( una de ellas con capacidad de grabación) se necesita un cable de "4 a 4 pines". Mucho cuidado, no conectar al reves estos conectores, aunque parezca imposible hay quién lo ha hecho ( en el conector de la tarjeta firewire) con resultados fatales ( cámara con el circuito de entrada dv quemado)

Matrox

Para clarificar conceptos, lo primero que hay que decir es que una interface Firewire es precísamente eso: una interface de transferencia de datos. Se suele usar la palabra "capturadora Firewire", pero el término no es correcto. No se realiza "captura" si no transferencia.

Matrox La principal ventaja para el mundo del vídeo es la transferencia de audio y vídeo sin merma de la calidad y sin pérdida de "frames" o desincronización. Por el momento hay muy pocas placas bases con este bus. Por consiguiente, hay que comprar una tarjeta PCI IEEE1394.Al estar muy orientadas al mundo del video digital, suelen venir con programas

Page 45: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 45/65

de edición, que como es lógico, nos lo cobran. Los modelos OEM sin software ya están en las 10 o 15.000 pesetas. Existen también ordenadores "de marca" que incorporan esta interface. Tenemos el MAC G3, el portátil de Sony ( Vaio ) y algún modelo de la gama Compaq Presario. El problemilla es el precio ... Hay bastante confusión en torno a qué modelo escoger. Primero tenemos las diferencias hardware : - Modelos básicos , sin CODEC HW incluido : gran variedad de precios en función de el software que la acompañe y la marca. Realmente, desde el punto de vista HARDWARE, la Miro DV300 ( un pastón ) y la que venden los de AMB Products ( 12.000 PTAS.) no hay diferencias significativas. Suelen incluir tres puertos Firewire. - Modelos con CODEC HW : Aceleran notablemente ciertas funciones de edición y suelen proporcionar entradas/salidas analógicas. Aquí si se aplicaría el concepto de "capturadora". Vienen bien cargadas de soft y superan las 200.000 pelas. Todas las tarjetas de hoy en día son compatibles con el estándar OHCI, que funcionan con AVI-1 (las muy antiguas podian no ser compatibles OHCI y trabajar con ficheros AVI-2). Y otas las versiones actuales de Premiere (6.0) , MediaStudio, etc son compatibles OHCI. Pero hay programas de edición que se empeñan en manejar soluciones a medida, es el caso de Avid Xpress DV 3, que solo trabaja (en cuanto a transferencia) con tarjetas con el chip set de Texas I. (como la Pyro Basic). A continuación teneís una selección de tarjetas Firewire y capturadoras DV/MPEG-2 . El criterio de elección no responde a ninguna lógica en particular, simplemente presento las más conocidas o interesantes desde mi punto de vista. La verdad es que en el mercado hay cientos de modelos. El soft que incorporan puede variar dependiendo del momento de la compra.

6.7.2. Videocámaras digitales

La parte óptica de una cámara digital se encarga de recoger la luz con la mayor precisión y calidad posible. Suelen ser lentes zoom de unos 10x. En algunas Sony, son Carl Zeiss, mítico fabricante alemán de óptica Es importante disponer de un buen zoom ya que el zoom digital deteriora la imagen. Mucho más importante, aunque los aficionados siempre lo olvidan, es tener una buena apertura gran angular. En este sentido es difícil elegir ya que no está muy claro este dato en los folletos. En cuanto al diámetro de la rosca para filtros, el tema es caótico. Cada fabricante, incluso cada modelo, puede tener uno distinto. Si se prevé el uso de filtros hay que tener muy en cuenta la posible disponibilidad. Es importante que el autofocus sea rápido y preciso. Algunas cámaras llevan un anillo giratorio que facilita el enfoque manual. Os aseguro que es muy útil, aunque tienen un tacto no muy bueno ( en realidad, controlan indirectamente el motor del focus). Viene muy bien disponer de un modo de "bloqueo del focus". En condiciones difíciles, los autofocus enloquecen un poco. Lo profesionales siempre trabajan con enfoque manual. Todas incorporan un iris para ajustar la exposición. También juegan con la ganancia electrónica del CCD para controlar la exposición. Normalmente es posible trabajar en modo manual, pero pocos modelos ofrecen un control total del iris ( suele haber un ajuste para subir o bajar la sensibilidad pero no un ajuste absoluto de la apertura del iris independiente de la ganancia electrónica). Es interesante que tengan, al menos, bloqueo de la exposición, para evitar cambios bruscos al hacer un barrido de paisajes con diferente luminosidad. Algunos modelos de la gama alta disponen de un filtro de densidad neutra, sumamente útil para evitar la saturación del CCD en tomas con exceso de luz (playa,nieve) o para resaltar efectos estéticos (disminuir la profundidad de campo usando aperturas muy grandes). Sólo las mejores cámaras incorporan el "zebra pattern" : indicación en el visor de las zonas sobreexpuestas [aunque en todas las Sony es posible habilitar esta función conociendo ciertos códigos] Otro detalle a tener en cuenta es el control de balance de blanco. Debido a las distintas fuentes de luz, con distinta composición cromática, es necesario ajustar dicha composición. Las cámaras suelen tener un ajuste automático, pero nunca está de más ( es muy interesante ) un control manual. Con él, basta poner una cartulina blanca delante del objetivo y activar el ajuste. La cámara almacenará este nuevo valor cromático. Es también útil para realizar efectos y cambiar el tono de las tomas artificialmente. Hay alguna cámara que no tiene control manual ( las menos ) que deben ser evitadas.

Page 46: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 46/65

La velocidad de obturación se controla electrónicamente en el propio CCD, es decir, no existe unas "cortinillas" realmente. Variando las frecuencias de control del CCD se consigue variar la velocidad de exposición. Evidentemente, el formato PAL impone ofrecer 25 imágenes por segundo ( 50 cuadros de mitad de resolución, entrelazados) , cada uno de ellos expuesto el tiempo que se haya seleccionado ( ya sea manualmente o auto). Tal como ocurre en el campo de la fotografía, el juego de velocidad y exposición determina el resultado final de la imagen. Las velocidades de obturación altas se deben usar al filmar objetos en movimiento rápido, sobre todo si se quiere que la cámara lenta o la pausa brinden imágenes bien definidas. Normalmente, en modo auto, las cámaras trabajan a 1/100. De la misma manera, la apertura permite controlar la profundidad de campo ( área de la imagen enfocada). Aperturas pequeñas dan la máxima profundidad de campo a costa de menor luminosidad. Y viceversa: apertura grande implica poca profundidad de campo. Esto permite resultados estéticos remarcables, sobre todo al efectuar retratos, en los que queda muy bien un fondo desenfocado ( por tanto, habrá que ajustar una apertura máxima y usar un zoom bastante potente, tanto para resaltar el efecto como para lograr suavizar los contornos de la cara). Pero bueno, estas disquisiciones tienen más que ver con aspectos de "técnicas de filmación", etc) De todos modos, estos ajustes lo suelen hacer automáticamente las cámaras dotadas de "modos de operación" ( retrato, deportes, etc ). La mejor manera de saber los resultados es la experimentación. Antes del CCD, se antepone un filtro óptico para eliminar la parte del espectro no visible. Vamos, que se elimina el infrarojo y el ultravioleta. Las cámaras con "Night Shot" ( visión nocturna por infrarojos) deben quitar este filtro. Las imágenes capturadas por las lentes son transformadas en señales eléctricas por el CCD ( Charge Coupled Device) . Ëste está compuesto por miles de puntos sensibles a la luz ( más de 500.000 ). Actualmente todas las cámaras usan CCD de formato 4:3, pero en un futuro se usará el 16:9 ( hay una Sharp que sí lo tiene, pero incomprensiblemente no parece que tenga mucho exito.). En las cámaras del segmento medio-bajo se usa un solo CCD que captura los tres colores primarios. Por tanto, hay que dividir entre tres para obtener la resolución real ( no es tan secillo como digo ) . El CCD en sí mismo, siempre es monocromo. Se anteponen unos filtros con los colores primarios para obtener la información de color. En los modelos de alta gama y profesionales se usan tres CCD, uno para cada color. Previamente se divide la luz usando un prisma dicroico. La resolución teórica del estandar DV es 720x576 para el sistema PAL y 720x480 para el NTSC usado en USA. Las cámaras para el mercado USA llevan CCD´s con menor número de puntos, ya que su resolución es menor. En la imagen, vemos un sistema de 3 CCD´s

Sony

Para las cámaras de 1 CCD se anteponen al CCD unos patrones de color como los siguientes:

Filtro de colores primarios

Filtro de colores complementarios

Canon usa filtros de colores primarios, me parece que los demás usan el de complementarios. Este último proporciona un poco más de luminosidad ya que usa colores más claros. Como veís, el verde está presente de manera muy notable en ambos patrones: el ojo humano es muy sensible a este color. La

Page 47: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 47/65

disposición está planeada para minimizar el efecto moiré. Se suele anteponer un filtro suavizador para evitar el aliasing de las imágenes ( detalles de alta frecuencia que son erróneamente considerados como de baja frecuencia y forman patrones geométricos) Para el primero, las ecuaciones de colorimetría son bastante sencillas y se pueden hacer en con matrices analógicas o por procesado digital : Y = .299 R + .587 G + .114 B R-Y = .701 R - .587 G - .114 B B-Y = -.299 R - .587 G + .886 B

Existe un tipo de CCD, llamado de exploración progresiva, que proporciona mejor resolución sobre todo en el modo fotografía "sobre cinta". De hecho, todos y cada uno de los "fotogramas" será una imagen completa, de total resolución. Normalmente, la captura se realiza entrelazada, es decir, una imagen se compone de dos campos, cada uno de ellos con la mitad de información ( en un campo se capturan las líneas pares y en otro las impares). El CCD de exploración progresiva captura cada campo de forma completa. Pero hay pocos modelos que ofrezcan exploración progresiva a 25 fotogramas por segundo (f.p.s). Este modo de grabación es muy apreciado entre los que quieren dar a sus grabaciones un "film look" (aspecto de cine). Claro está que hay que realizar un entrelazado para mantener el formato PAL, pero la imagen capturada ofrece más calidad. ( Los sistemas de TV muestran la imagen "entrelazada", es decir, dividida en dos campos , uno con líneas horizontales pares y otro con las impares. )

Las cámaras con exploración progresiva a 25 fps, presentan dos ventajas : todos los fotogramas son "completos", podemos elegir cualquiera de ellos como "foto". La segunda ventaja es que la reproducción en pantallas progresivas (no entrelazadas) será mucho mejor. Las pantallas de ordenador son progresivas y se espera que algún día las TV de alta resolución también lo sean. Una de las quejas más comunes de los "novatos" en el campo de la edición es "por qué se vé tan mal el vídeo miniDV en el ordenador" y "por qué tiene unas franjas horizontales" . La explicación está relacionada con lo anteriormente dicho: si quieres evitar este efecto hay que desentrelazar el video miniDV ( esto lo hacen los programas de edición) pero a costa de perder resolución. La gente que necesita mucha calidad de imagen y parada perfecta, no quieren ni oir hablar de los modos entrelazados. Los fabricantes aducen que el modo entrelazado está bien, y que el ojo humano es capaz de remezclar los dos campos, siendo la resolución aparente muy similar al modo no entrelazado. Como ya se ha mencionado, el cine trabaja en modo progresivo a 24 fps, por lo que muchos cinematógrafos de bajo presupuesto están usando cámaras miniDV PAL progresivas ( a 25 fps ) para realizar trabajos que luego se pasan a celuloide. Sony, para el modo foto, implementa un sistema llamado "progresive shutter" que siempre ha dado mucho de que hablar ya que nadie de Sony lo ha querido explicar a fondo. Sony, para el modo foto, en vez de usar un CCD con exploración progresiva, lo que usa es un obturador mecánico, que de algún modo, congela la imagen. ¿ Qué pasa si no tenemos este obturador mecánico? Pues que el CCD (no progresivo) captaría la imagen y empezaría la transferencia de líneas del CCD a la electrónica de la cámara. Primero las pares y luego las impares. Pero cuando lleguemos a las impares, como el obturador sigue abierto (hemos supuesto que no existe) la imagen puede haber cambiado, sobre todo en imágenes en movimiento. Lo que hace Sony es poner un obturador, para cerrar el objetivo. De este modo, las

Page 48: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 48/65

líneas impares almacenadas en el CCD son las "viejas", las correspondientes al momento en que se capturaron las pares, y no hay corrimiento de la imagen. Es un truquillo enrevesado, que yo lo entiendo de esta manera. En cuanto al tamaño, los CCD´s suelen ser de 1/3 " o 1/4". Podemos decir que cuanto más pixels y más grande de tamaño, mejor. Un CCD de 1/3" es un 50% más luminoso que uno de 1/4", pero la última moda es ponerlos de 1/4" (! y decir que es de 1/3" ! ). El tamaño del CCD tiene una segunda implicación, a tener en cuenta sobre todo en el campo profesional. Los principios de la óptica imponen su ley, resultando que cuanto menor sea el CCD más fácil resulta construir ópticas con zoom potentes y más profundida de campo tienen las tomas. Esto puede ser un problema, a veces queremos tomas con muy poca profundidad de campo (enfoque selectivo, muy usado en cine), además en cámaras con ópticas intercambiables hay que tener muy encuenta el tamaño del CCD ya que las distancias focales varian en función de dicho tamaño. [Esto es lo que ocurre, por ejemplo, al intentar usar un objetivo para cámaras fotograficas en una cámara Canon XL1, el CCD es muchísimo menor que la película de 35 mm] Siendo el CCD un punto de vital importancia los fabricantes podrían estirarse un poco y no usar este dato como maniobra de segmentación del mercado, pero estas cosas siempre son iguales. En el mercado hay cámaras que van desde los 350.000 pixels hasta los 1.200.000. Pero para miniDV ¿cúal es el tamaño de CCD óptimo? La respuesta es sencilla: 3 CCD (uno para cada color ) de tamaño efectivo 720x576, es decir, 3 CCD de 414Kpixels ( se suele redondear a 420 o 470K por problemas técnicos). De hecho, las cámaras profesionales usan estos tamaños de CCD. Para cámaras de 1 CCD el cálculo no es tan simple ya que tenemos una matriz de filtros de color antepuesta. Pero se puede considerar en torno a 1.2M efectivos el tamaño máximo razonable (en el mercado hay cámaras con CCD de más pixels, pero están orientados a conseguir mejor "modo foto" y hay que tener presente que la estabilización digital de imagen gasta un buen número de pixels, tal como se verá más adelante).

CCD JVC

Una aclaración sobre el tema de la resolución. Ya hemos comentado que el sistema DV trabaja con una matriz de 720x576 pixels. Esto significa que la parte digital de la cámara (compresor DV, mezclador de imágenes, corrector de errores, etc ) trabaja con imágenes en ese formato : 720x576 x 24 bits. Pero eso no significa que todas las cámaras miniDV del mercado tengan, en la realidad, la misma resolución. Interviene la óptica y el CCD: si son mediocres o con pocos pixels está claro que no se llegará a la máxima resolución. Los fabricantes saben que pocos usuarios se van a poner a medir la resolución. También saben que nuestros televisores son "normales", no son de alta definición. Por ello, en las cámaras de segmento medio-bajo, montan ópticas y CCD que ellos ya saben que no van a conseguir la máxima resolución posible. Pero no hay que preocuparse mucho: cualquier modelo se ve muy bien. Pero ¿qué es la resolución? este tema daría para un apartado entero, pero voy a resumir. Es la capacidad para mostrar detalles pequeños. Se mide en líneas horizontales, es decir, en el número de líneas horizontales perfectamente distinguibles unas de otras sin que se forme un "todo". En la práctica lo que se hace es grabar con la cámara un "poster" o "carta estándar de resolución". Es parecido a la "carta de ajustes". Incluye una serie de líneas concéntricas cada vez más juntas. Allá donde nuestra cámara no sea capaz de distinguir una línea de la adyacente, será el límite de resolución expresado en líneas. Pero la resolución no es todo ni muchísimo menos: hay que considerar la pureza de color, el contraste, la saturación, etc, factores tan importantes o más que la resolución "bruta". Sabemos que el sistema PAL de televisión especifica 625 líneas (575 útiles): cuidado, este es el máximo posible teórico, pero está claro que pocas videocámaras o televisores brindan esa resolución. Todo esto que acabo de contar está ultrasimplificado y contiene algunos errores conceptuales. Una vez captada la imagen por las ópticas y el CCD, hay que digitalizar esta señal. Dicha señal tendrá componentes analógicos RGB (esto se entiende mejor si pensamos en cámaras con 3 CCD, uno para cada color) . Hay que pasarla a un formato digital suceptible de ser comprimido y almacenado en la cinta. La digitalización la realiza un convertidor analógico/digital ( A/D). Consiste en un chip especializado que toma muestras de la señal a intervalos fijos ( frecuencia de muestreo). A cada muestra se le asigna un valor dependiendo de su amplitud. El número de valores o "escalones" posibles depende del número de bits ( en nuestro caso hay 8 por color primario, con los cuales se pueden definir hasta 256

Page 49: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 49/65

valores de tonalidad primaria). A continuación se realiza una conversión del espacio RGB al YUV (Y=luminancia, U=R-Y, V=B-Y). La señal de luminancia se muestrea a una frecuencia de 13.5 Mhz, mientras que la R-Y y la B-Y se hace a 3.375 Mhz. Es decir , 4 veces menos, ya que el ojo humano es mucho menos sensible al color. Por tanto la relación es 4:1:1 (para el sistema PAL, se usa 4:2:0 más difícil del explicar, y peor para realizar múltiples ediciones). En sistemas de vídeo profesionales, como el D-1 sin compresión, se usa una relación 4:2:2 , es decir, el B-Y y el R-Y se muestrean al doble para así obtener una mejor calidad de la señal de color.

4:2:2 : las muestras de color (Cr, Cb) van intercaladas con las de luminancia

4:1:1 : las muestras de color (Cr,Cb) van cada 4 muestras de luminancia. Ambos colores van juntos.

4:1:1 : las muestras de color (Cr,Cb) van intercaladas con las muestras de luminancia, pero alternativamente.

Diagramas propiedad de Panasonic Broadcast and Digital Systems La relación señal/ruido está entorno a los 54dB ( hay autores que indican 60 dB, depende también de cómo se mida) , incluso mejor que la del estándar (analógico) profesional Betacam SP( 51 dB). Cada uno de los tres componente se cuantifica en 8 bits ( 3x256 valores posibles, 16 millones de colores ). Como ya se ha dicho, el formato de la matriz de imagen es de 720x576. Al final, tenemos 162 millones de bits por segundo. Es una bestialidad que hay que comprimir de alguna manera. El dispositivo que realiza la compresión o descompresión se denomina CODEC. El método de compresión se basa en DTC ( discrete cosine transform ) y coeficientes variables. . Es un método muy complejo, que no vamos a explicar a fondo, que requiere una potencia de cálculo muy grande ( y todo ello "sobre la marcha"). La compresión es "intraframe" al estilo del M-JPEG. Esto significa que no se obtienen compresiones tan grandes como con el sistema MPEG-2, que utiliza compresión "interframe". La ventaja es que la parada de imagen es mejor y la edición más sencilla y precisa. Un buffer almacena cada uno de los dos campos de que se compone la imagen ( van interpolados, es decir, una imagen se compone de dos campos ). Si hay poca diferencia entre ellos, la imagen se comprime como si fuera un solo campo. Si las diferencias son grandes, se comprimen individualmente. Adiccionalmente, los pixels de un campo se agrupan en matrices de 8x8, que a su vez se agrupan de 4 en 4. Cada juego de cuatro bloques se comprimen de acuerdo a unas tablas de quantización. Dependiendo de nuevo de las

Page 50: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 50/65

necesidades se aplica mayor o menor compresión. El sistema es adaptativo dando mayor detalle a aquellas áreas de la imagen que así lo precisen ( esta es la ventaja sobre el M-JPEG) . Al final, el factor de compresión es de 5:1, quedando 25 Mbits por segundo de información de vídeo con un flujo constante. A este sistema de compresión se le llama DV-25. Un asunto que suele provocar polémica: ¿son todos los CODEC iguales ? Pues la respuesta es que NO. El estándar deja abierta algunas cosillas y los fabricantes tienen que ponderar sus parámetros de la mejor manera posible, unos tratarán de dar mayor nitidez pero podrán tener problemas de efecto moiré, etc. Pero paree ser que son todos muy similares. Por otro lado, la compresión DV no está exenta de problemas, entre los más conocidos está el "mosquito noise" y el "quilting".

Como ya se ha mencionado, este sistema es menos agresivo que el MPEG2 del DVD, brindando una mejor parada de imagen y una edición campo a campo. El sistema MPEG-2 usa compresión interframe, es decir, se compara una campo con el/los siguientes para determinar el grado de compresión a usar. Simplificando mucho, podemos decir que si dos imágenes son similares, simplemente se almacenan las diferencias ( o lo vectores de movimiento). Por tanto, no existe una correlación clara entre una imagen y su campo "original", lo cual dificulta la edición en un ambiente doméstico. Con equipos semi-pro o profesionales no hay problemas ya que decodificando dos cadenas mpeg independietemente y en tiempo real, es posible una edición perfectamente precisa. El MPEG-2 se toma mucho más tiempo para analizar las imágenes y necesita un procesador más potente y memorias adiccionales, con mayor consumo de energía. Todo esto llevó a los fabricantes de cámaras a la necesidad de diseñar un sistema de compresión más simple. Pero teóricamente, el mpeg-2 puede brindar igual o más calidad que el DV-25. Por otra parte, para obtener un M-JPEG equivalente al DV, la relación de compresión debe ser de 3:1. En algún punto de esta cadena entra el procesado de imágenes, tales como efectos especiales, zoom, estabilización digital,etc. Los efectos de fundido y disolución hacen uso de una memoria y de un mezclador digital. El zoom digital deteriora la imagen y suele ser impracticable más allá de 40x. Para conseguir una buena estabilización digital se debe emplear un CCD sobredimensionado. Internamente se determinan unos vectores de movimiento, moviendóse la zona efectiva de captación en consonancia para minimizar las vibraciones. Hay que imaginárselo como una ventana de imagen dentro de la cual hay otra ventana menor pero móvil. Si el CCD no está sobredimensionado, al usar la estabilización digital se observará un pequeño efecto zoom y una cierta degradación de la imagen. Este sistema no está libre de fallos ( artifacts ) y tiende a producir imágenes un poco "turbias". Para evitarlo hay cámaras que aumenta la velocidad de obturación hasta 1/100, con una cierta pérdida de luz. ( Esto es un punto importante. Mucha gente se queja de la poca sensibilidad de las miniDV. Lo que hay que hacer es deshabilitar la estabilización digital en escenas con poca luz, o bien forzar a mano una velocidad de obturación 1/50). Un tema controvertido es el de los pixels efectivos. Si suponemos que hay una ventana o recuadro interior menor, habría que preguntarse de cúantos pixels se compone. Es lo que Sony y otros llaman pixels efectivos. Por ejemplo, según el catálogo de Sony, la PC1 tiene un CCD de 810.000 puntos, de los cuales 400.000 son efectivos. Hasta ahora yo pensaba que cuando no se activa la estabilización digital , se usaba todo el CCD para obtener la mejor imagen posible, y que cuando se activaba se perdía un poco de calidad. Ultimamente me estoy temiendo que el número de pixels es fijo, 400.000 en nuestro ejemplo, independientemente de que decidamos activar o no la estabilización ( al menos en mi cámara JVC J70 ya que no observo la menor diferencia en cuanto a resolución ). Si nos fijamos en cámaras con estabilización óptica, veremos que el número de pixels totales es casi igual que el de efectivos ( siempre es menor por cuestiones técnicas ). Por tanto, una cámara con un CCD de p.ejemplo 540.000 pixeles totales y 510.000 efectivos con estabilización óptica, daría más calidad que una con 810.000 pixels totales y 400.000 efectivos con estabilización digital. Cuantos más puntos de "sobra" haya, mejor será la estabilización. Por ejemplo, la JVC DV3, con 540.000 pixels, no va muy sobrada que digamos, so pena de degradar la imagen ( de ahí las quejas que he leído sobre su estabilización ). Es preferible la estabilización óptica sólo presente en unos pocos modelos, la cual detecta los movimientos y los corrige ópticamente mediante pequeños ajustes de las lentes. Según he leído, la invento allá por los años 60 Juan de la Cierva. Me da la impresión de que hay un par de formas de llevar a cabo la estabilización digital. Sony se decanta por tener detectores de movimiento y actuar sobre los circuitos de estabilización digital. Los demás fabricantes creo que usan algoritmos digitales para determinar el posible movimiento de las

Page 51: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 51/65

imágenes. El sistema de corrección de errores es muy potente ( ECC ) para evitar que un defecto en la cinta afecte a la imagen. De hecho, los drops-out o pequeños saltos son virtualmente inexistentes. El audio se graba también digitalmente y en estéreo. Y sin compresión. Podemos elegir entre dos pistas a 16 bits / 48Khz o cuatro pistas a 12 bits / 32Khz. El primer método nos brinda una calidad incluso superior al CD. El segundo posibilita el doblaje y la inserción de bandas sonoras, con una calidad bastante buena. Sería deseable disponer de un control de ganancia de audio ajustable. Las cámaras suelen llevar un Control Automático de Ganancia ( AGC) para ajustar la sensibilidad de los micrófonos a los distintos ambientes. Un aspecto negativo es que el audio no va perfectamente sincronizado con el vídeo. Digamos que a "X" fotogramas no les corresponden exactamente "Y" muestras de sonido. Esto complica un poco la edición a nivel profesional (la edición analógica, con la digital no hay problemas) Además de audio y vídeo, en la cinta se almacena información de control. Se codifican señales de tiempo, índices y otras necesarias para el modo fotografía. Por fin, toda esta información es almacenada en la cinta. Al final, el flujo de datos es ligeramente superior a 28Mbits/s ( 25 del video + audio + control + etc ) La cassete usada ( mini DV), es aprox. la mitad de tamaño que una de 8 mm. Mide tan sólo 66 x 48 x 12.2 mm. La cinta es de 1/4 " ( 6.35 mm). La composición es completamente nueva con una doble capa de metal evaporado. Lleva un recubrimiento de carbono para darle resistencia y lubricación. Algunas cintas incorporan una memoria donde es posible almacernar información adiccional tales como los parámetros de la imagen ( velocidad, apertura ) e indices temáticos. La cámara debe soportar esta opción.Es una cassete, por tanto hay que seguir todas las precauciones habituales o más. Actualmente se fabrican de 30 y 60 m, pudiendo usarse el modo LP ( no merma la calidad pero no es posible el doblaje de audio) para obtener hasta 90 m de tiempo de grabación. Acaba de salir en Japón una cinta de Panasonic que dura hasta 2 h en modo LP. Parece ser que realmente sólo hay dos fabricantes de cintas : Sony y Panasonic ( JVC pertenece al mismo grupo industrial que Panasonic, asi que ... ). Según dicen, se diferencian en la composición del lubricante y no es bueno andar mezclándolos ( se ensúcian las cabezas ). Os recomiendo usar siempre la misma marca ( hasta que sepamos si es cierto o es una nueva leyenda negra).

El tambor y las cabezas de grabación son , por supuesto, un auténtico desafío. Decir que gira a 9000 r.p.m ( un vídeo VHS a 1800 ), la velocidad de la cinta es de 18.9 mm/ sec y la anchura de las pistas es de 10 micras para el modo de grabacion SP ( en el Hi-8 es de 20 micras) . Para el modo LP ( la cinta dura un 50% más de tiempo), además de perderse las dos pistas auxiliares de audio, la anchura de pista se reduce a 6.7 micras, por lo que podemos perder fiabilidad y tener problemas al tratar de reproducir nuestras grabaciones en otras cámaras. Los formato profesionales DVCPRO y DVCAM usan pistas de 15 y 18 micras. En ángulo de inclinación de las pistas es de 9º resultando en una longitud de pista de 35mm. En la siguiente figura se muestra su disposición:

Page 52: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 52/65

Tenemos los siguientes sectores de información : - Insert and Track : ( estaría abajo en la figura ) : Contiene información para en correcto seguimiento de la cinta. - Audio sector : Contiene tanto audio como información auxiliar. Como ya se ha dicho puede acomodar dos pistas de 16 bits / 48Khz como cuatro de 12 bits ( no lineal ) / 32 Khz. - Video Sector : Contiene la información de video y datos auxiliares ( fecha de la grabación, apertura y velocidad y otros datos ) . - Subcode sector : contiene varios tipos de información, siendo el más inportante el "timecode" o "código de tiempo". Es una marca en forma de hh:mm:ss:ff ( hora, minuto, segundo y fotograma ) que identificada de forma única cada fotograma que se graba. Muy útil para determinar los puntos de entrada y salida en una edición. Una ventaja de la grabación digital es que puede incluir una gran cantidad de datos auxiliares tales como subtítulos, tabla de contenidos, karaoke, teletexto, etc (no implementado por ahora en ninguna cámara que yo sepa ).

Entradas, salidas, baterias y otras florituras.

Las salidas. Todas las cámaras disponen de salida de video compuesto y S-Video. Siempre que se pueda se debe usar ésta última ya que brinda mejor calidad de imagen. ( La salida S-Vídeo lleva por separado la luminancia y la crominancia, mientras que la de vídeo compuesto las lleva mezcladas. Esto implica que en nuestro TV deben ser separadas de nuevo con las consiguiente degradación que introducen los filtros de separación empleados ). Como es lógico, todas tienen también salida estéreo de audio ( nivel de "linea"). Si se quiere conectar unos cascos para monitorizar el sonido hay que acoplar un amplificador (algunos modelos llevan una salida específica para auriculares) Hoy en día casi todas llevan también la salida digital DV ( llamada también i-Link, Firewire o IEEE1394 ). Permite transferir las imágenes a un ordenador sin merma alguna de calidad. Algunas disponen de un puerto serie RS232 o usan una interface JLIP/LANC ampliada, para transferencias de imágenes fijas ( "PC port" ) . Es lento pero barato. Solo unas pocas pero cada vez más, disponen de puerto USB para la transferencia de imágenes fijas. La entrada de micrófono. Todas tienen entrada de micrófono, muy útil para solucionar el problema de las cámaras más pequeñas que captan su propio ruido de los motores. Normalmente es necesario conectar un micrófono con alimentación propia ( con una pequeña batería). ! Cuidado !. Esta entrada no suele ser muy propicia para grabaciones de música, etc. Es decir, están exclusivamente pensadas para

Page 53: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 53/65

conectar micrófonos. El problema es el Control Automático de Ganancia ( AGC) que va a tender a comprimir la música y a meter ruido en los pasajes más débiles. Además, tiene una alta sensibilidad, por lo que hay que intercalar un divisor resistivo. Lo ideal sería poder desactivar el AGC, cosa posible en algunos modelos, creo. Algún modelo ( Sony VX2000 y otros ) tienen un conmutador que permite seleccionar entre entrada de micro o "nivel de línea". Cuidado, la nueva generación de cámaras no suele tener la entrada de micrófono en la cámara, si no en la "estación de anclaje". Unos pocos modelos (normalmente de Sony) incluyen esta entrada en la zapata de flash "inteligente". Esto permite acoplar un micrófono "inteligente" ( y caro ... ) que ajusta su sensibilidad en función del uso del zoom óptico que hagamos. De entrada de vídeo hay que olvidarse ( salvo la SONY TRV900, PC-120,la PC9, JVC DVX10, varios modelos de Panasonic y Canon .... y otras que van saliendo poco a poco). Simplemente, no les interesa ponerla. No les costaría más de 2000 ptas en fábrica poner un chip convertidor A/D. El problema viene de la posibilidad de grabar con alta calidad de la imagen y de la oposición de la industria del vídeo y del cine por posibles problemas de piratería, etc. También hay un problema de aranceles comunitarios. Los aparatos con capacidad de grabar tienen un arancel especial. Además hay un cupo, por tanto si las cámaras se las considera "magnetoscopios" están comiendose parte del cupo de que dispone cada fabricante japonés. En cuanto a la entrada DV, sólo la SONY TRV900 , PC-120, PC-9, la Panasonic DX110, la JVC 9600 , Canon MV20i, la XL1, JVC DVX9 y 10, todas las Canon que acaban en "i" ... y otras la tienen ( esta lista está creciendo poquito a poco). Aquí el problema está , de nuevo, en un arancel especial que pone la CEE a los aparatos "grabadores de fuentes externas". OJO, pues en la publicidad de las páginas web americanas hablan de "entrada-salida DV". En Europa, sólo salida. Para más informacion ver DV-In. Todas tienen un visor ( viewfinder ) y , la mayoría una pequeña pantalla en color. La tecnología suele ser LCD / TFT de alta resolución. Es importante que sea de la mayor resolución posible ya que de lo contrario será difícil enfocar y ajustar la exposición correctamente. Los visores suelen ser de 0.5" y existen varios modelos : de 113.000, 160.000 o de 180.000 pixels ( éste último lo monta la PC9 por ejemplo). En cuanto a pantallas LCD hay una mayor variedad. Realmente, no son gran cosa y hay que fijarse tanto en el número de pixels como en el ángulo de visión posible. Casi todos los modelos emplean baterias de Li-ion ( litio ión). Es la última tecnología en este campo, con muchas ventajas sobre las anteriores : - Alta capacidad y bajo peso/volumen. Triplican en rendimiento a las de Ni-MH. - No efecto memoria. Se pueden recargar en cualquier momento, no siendo necesaria su descarga total previa. La tarjeta de memoria flash es la última moda: permiten trabajar en "modo foto real" tal como lo hacen las cámaras de fotos digitales. La foto es almacenada 64MB. ¿ Cuantas fotos caben en una tarjetita de memoria? Lo vemos es la siguiente tabla, sacada del catálogo de Sony ( para la PC100):

4 MB 8 MB 16 MB 32 MB 64 MB

640 x 480 20 40 82 164 329

1152 x 864 6 12 25 52 104 Otras cámaras, como la JVC DVL9800 llegan hasta 1024 x 768, con capacidades similares. Este cartucho de memoria no es estandar y no sueles ser compatible entre distintas marcas. Solo algunos modelos llevan este invento. Normalmente se ofrece el mismo modelo, con o sin memoria flash. Suele encarecer unas 40.000 pesetas. Cuando compramos la cámara, la suelen suministrar con el cartucho de menos capacidad ( 4 MB). Vemos como con 64MB tenemos para sacar las fotos de todo un buen viaje. ! Qué pasada ! El chip es "memoria flash", un tipo especial que permite la reescritura total o parcial de la memoria no volatil (eso sí, un poco lento comparada con la escritura en una RAM). Para finalizar se muestra un posible diagrama de bloques de una cámara DV :

Page 54: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 54/65

Basta con incluir un convertidor A/D adicional para tener entradas de video. Podemos decir, que las cámaras miniDV son uno de los cacharros electrónicos que más tecnología llevan dentro.

6.8. Proceso de creación de vídeo en multimedia Debido al coste en tiempo, espacio, equipo (y dinero, por supuesto, si sumamos todo esto)

especialmente alto del vídeo, el proceso de creación debe estar bien planificado para conseguir el resultado apetecido sin desperdiciar más recursos que los imprescindibles. Podríamos generalizar el proceso de elaboración de vídeo en los siguientes pasos: Diseño, obtención, digitalización, edición e integración.

6.8.1. Diseño (guión) Igual que en el software, deberíamos diseñar el esquema del vídeo a incluir en nuestra aplicación

multimedia. Para eso suelen usarse distintas técnicas:

• Diagrama de flujo de la aplicación, indicando todos los puntos donde aparecen vídeos y recogiendo todos y cada uno de ellos, identificando posibles partes comunes y determinando las necesidades siempre antes de empezar a obtener los medios.

• Guión de cada vídeo a elaborar (como en el proceso cinematográfico, aunque aquí caben

posibilidades de interacción o integración de otro tipo de medios). Se suele usar mucho el concepto de storyboard, que es una especie de desarrollo en viñetas dibujadas a nivel esquemático de lo que va a contener el vídeo.

Los storyboards se pueden usar para más partes de una aplicación multimedia (animaciones,

efectos gráficos, incluso diseño de interfaz). Cada viñeta puede indicar anotaciones adicionales de voz en off, de música, efectos pretendidos, duración aproximada en tiempo, tipo de plano de cámara, etc.

Page 55: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 55/65

Otro punto importante del diseño es la calidad que va a tener el vídeo final, en cuanto a tamaño del marco (resolución), tipo de compresión asumida, etc.

6.8.2. Filmación/obtención de los cortes de vídeo y audio Una vez que está claro que hay que filmar o que vídeos ya filmados hay que obtener, viene el

proceso de obtener el material audiovisual. Para obtener resultados profesionales normalmente hay que contar con equipo profesional, con lo que es una parte que habitualmente se subcontrata en producción multimedia.

6.8.3. Revisión y digitalización Antes de digitalizar, hay que revisar cuidadosamente el material obtenido para no utilizar

demasiado tiempo y espacio en cortes no utilizables (aunque la precisión de décimas de segundo ya se alcanzará después en la producción del montaje). Es conveniente agrupar todo el proceso de digitalización para que todo el material esté disponible cuando después se realiza el montaje.

6.8.4. Edición/montaje Este es el proceso más interesante y normalmente el más complejo y consumidor de tiempo de la

producción de vídeo. Si los demás pasos se realizan correctamente no habrá demasiados problemas aunque cualquier defecto notado en este punto obligará probablemente a volver a obtener partes de vídeo o sonido.

Los programas de edición no lineal de vídeo actuales, como Adobe Premiere, permiten

incorporar de modo sencillo gran cantidad de efectos y posibilidades de edición para acabados semiprofesionales. Lo veremos en las prácticas.

En la edición hay que sincronizar el sonido con el vídeo. A menudo para esto se graba sonido

independiente del vídeo (voces en off, bandas sonoras, efectos de sonido, etc.). Aunque es un proceso que puede hacerse con posterioridad a elaborar el vídeo completo, en ocasiones es vital considerarlo como una parte fundamental o incluso inicial de la edición (por ejemplo, para elaborar un videoclip musical, o para conseguir que una voz en off que describa un paisaje tenga suficiente tiempo como para decir todo lo que se quiere decir sin que se nos acabe el vídeo).

De la misma forma, los gráficos estáticos, las animaciones a combinar con el vídeo y las

titulaciones se pueden elaborar en el montaje o preparar antes cuando su complejidad es considerable.

6.8.5. Integración En la integración se hace todo tipo de trabajo adicional al vídeo finalizado. Por ejemplo añadir

interactividad con un programa de autor.

Page 56: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 56/65

6.9. Edición de vídeo Simplemente comentamos un par de aspectos de la edición de vídeo.

6.9.1. Edición lineal y no lineal La edición lineal usa algún componente analógico, de modo que sobre la marcha tenemos que

generar efectos de transición, montaje y superposición para crear el vídeo final. Hacen falta dos o tres magnetoscopios (uno de grabación).

En la edición no lineal, en cambio, todo el soporte se digitaliza previamente, con lo que podemos

editar lo que sea necesario sin necesidad de sincronización previa, retocar el resultado, etc. utilizando solamente el ordenador en el proceso. Con un magnetoscopio puede ser suficiente, primero para digitalizar las tomas que queramos procesar y finalmente para registrar el resultado final.

Figura 14. Edición lineal y no lineal.

6.9.2. Efecto croma El efecto croma es muy conocido en edición de vídeo y consiste en determinar un color como

transparente para poder superponer dos vídeos o un vídeo con una imagen (las clásicas filmaciones sobre fondo azul). También puede realizarse este efecto si la pista de vídeo contiene canal alfa.

6.10. Vídeo en Internet

En la actualidad todo lo que se hace de vídeo en Internet se realiza con plug-ins.

Ancho de banda: Hay dos maneras de reproducir vídeos:

• Asíncrona: cargándolos primero y visualizándolos después. Si tenemos suficiente tiempo y espacio, esto se puede hacer ya hoy sin ningún problema.

• Síncrona: visualizándolos según se cargan. Dadas las características especiales del vídeo como soporte, esto nos obliga a:

o Tener suficiente ancho de banda

Page 57: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 57/65

o Dedicar gran parte del hardware, porque realmente la única manera de tener ancho de banda es con una buena línea, un buen servidor, y un mecanismo de codificación/decodificación en tiempo real.

o (Realmente la ecuación es sencilla: si no somos capaces de cargar a la misma velocidad a la que se consume -visualiza-, no se puede visualizar en tiempo real. Con suficiente calidad y tamaño, visualizar un vídeo significa por encima de las 500 Kb/seg.)

Aunque no es lo ideal, parece que en unos cuantos años se tendrá que tender a métodos

asíncronos (pido ahora - veo después), aunque es de esperar que el retardo cada vez sea menor.

Video on Demand (VOD): Va a ser otro interesante mercado para servicios interactivos. Por ello es un mercado potencial

para desarrollo multimedia.

Hay dos modelos distintos de VOD (no se sabe todavía cuál se impondrá), en función del comportamiento de los dispositivos (set-top boxes):

• Push: o El dispositivo doméstico es una especie de terminal "tonto" audiovisual. o Manda comandos al servidor, recibe los datos de él, y los visualiza. o Esto es, la aplicación (el visualizador de película, por ejemplo) se encuentra en el

servidor. o Sólo la visualización y las comunicaciones tienen que estandarizarse para fabricar

dispositivos. • Pull:

o El servidor opera como una fuente de datos (ya sea para carga -downloaded- o para muestra en directo -streamed-).

o La aplicación, que también se carga del servidor, se ejecuta en el dispositivo, que no puede ser por ello un terminal "tonto".

o Las propias aplicaciones deben estandarizarse entonces entre el servidor y el dispositivo usuario.

6.10.1. Soporte de vídeo para Web

QuickTime: Es el más universal (Windows, Mac, Unix...). Desarrollado por Apple.

Además de vídeo digital también suministra entornos de gestión de audio digital, realidad

virtual 3D y otros tipos de datos multimedia con un soporte basado en pistas.

AVI: (Audio Video Interleave) Sólo para Windows. Carece del sofisticado soporte multimedia y de

sincronización de QT.

Otros formatos: MPEG (Motion Picture Experts Group) es el más utilizado, aunque es bastante exigente en software

(y/o hardware).

Vídeo contínuo: Hay software de vídeo con streaming (visualiza según se va cargando) para Internet, siempre con

la limitación de la velocidad de conexión y considerando que los servidores tienen que tener una infraestructura ejemplar para dar servicio suficiente al flujo de datos de salida. Algunos son:

• VDOLive. Suministra reproductores y utilidades de creación gratuitos. Tiene un sistema de compresión propietario, VDOWave, que intenta conservar audio y velocidad de cuadro a costa de la calidad de imagen.

Page 58: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 58/65

• StreamWorks. Es algo diferente, está diseñado para ser un servicio de difusión y codec en tiempo real. Utiliza una variedad de MPEG, e intenta conservar la calidad de la imagen a costa de la velocidad de cuadro. Con módems más bien parece una secuencia de diapositivas que un vídeo.

6.10.2. Insertar clips en páginas Web

Podemos reproducir un archive de vídeo en una página web creando un hipervínculo. Al pinchar sobre dicho hipervínculo, se abre el reproductor adecuado como una aplicación independiente y el usuario puede ver el archivo. Podemos crear un enlace de la siguiente forma: <a href=”my_file.rm”>My Real File</a>.

Crear un enlance a un servidor de streaming es por lo general más complicado. Un enlace a un servidor de streaming Windows media es de la forma : <a href=”mms://mystreamingserver.myuni.ac.uk/mymedia/my_file.asf”> y para un RealServer:

<a href=”rtsp://mystreamingserver.myuni.ac.uk/mymedia/my_file.rm”>.

Los caracteres a la izquierda de “//” se refieren al protocolo usado para controlar el flujo, aunque no todos los navegadores lo soportan. Existen dos opciones: 1) Usar un puntero al “ramgen” En este caso crearemos un enlace con un formato especial de la forma: <a href=”http://[realserver.com]:[port]/ramgen/file.rm”>Click me</ a>, donde realserver.com y port indican el nombre del servidor y el número de puerto. <a href=”http://mystreamingserver.myuni.ac.uk:8080/ramgen/myclipspath/myvideo.rm”> Click me </a> 2) Usar un fichero de texto auxiliar Esta alternativa consiste en crear un archivo de redirección .ram/.asx. Este archivo redirige al lugar del archivo de vídeo y proporciona el protocolo necesario para tratar con el archivo.

6.10.3. Vídeo Conferencia en Web La videoconferencia se basa en la captura de contenidos en directo, lo cual presenta una serie de ventajas e incovenientes. Como ventajas podemos destacar las siguientes:

• Oportunidad para aumentar el impacto del evento a una audiencia más numerosa. Por ejemplo, podríamos dar clase en varias universidades al mismo tiempo o posibilitar el aprendizaje a distancia.

• Los eventos en directo permiten comunicación en los dos sentidos. Por ejemplo, los alumnos podrían comunicarse con el profesor.

• Permite el almacenado del evento para posteriores consultas.

Page 59: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 59/65

Como desventajas podemos destacar:

• Se necesita mucha mayor planificación técnica y personal para un evento en directo que para uno por demanda.

• Se requiere de una conexión rápida, que deberá ser comprobada de antemano. • Dependiendo del volumen de la audiencia y de la cantidad de ancho de banda de ella,

deberemos ser capaces de satisfacer esa demanda. • Deberíamos tener una máquina secundaria capaz de emitir por si ocurriera algún problema.

A continuación veremos algunas características a grosso modo de la videoconferencia actual

Ancho de banda: Una configuración típica de video conferencia hoy en día puede ser una ventana de 160x120, 1 a

10 cuadros por segundo, y calidad telefónica de audio.

Más que el vídeo son interesantes el resto de utilidades añadidas: pizarras, chat, e incluso compartir aplicaciones (sí, sí, ya sé que hay cientos de juegos que se pueden jugar por la Web).

Según la utilización, pueden hacerse conexiones punto a punto o multicast (un emisor, múltiples

receptores).

Algunos programas como CU-SeeMe requieren servidores dedicados, reflectores, a través de los que se establece la vídeo conferencia. La mayoría de los programas, no obstante, como QuickTime Conferencing, BeingThere , y VideoPhone, no los necesitan. Lo que sí suele haber son servidores de apoyo para conocer quiénes están en cada momento en la red dispuestos a compartir una agradable vídeo conferencia con un desconocido...

Cu-SeeMe:

Debido a su gratuidad (ha sido desarrollado en la Universidad de Cornell) es bastante utilizado por los que intentan hacer vídeo conferencia a través de Internet.

Veamos sus posibilidades: • Enviar y recibir vídeo en B/N (160x120) • Enviar y recibir audio con calidad de radio AM • Realizar vídeo conferencias punto a punto con otros usuarios • Participar en vídeo conferencias de múlltiples usuarios usando software reflector • Comunicarse adicionalmente con "chat" de texto • Compartir adicionalmente gráficos de pantalla completa

El Enhanced CU-SeeMe es comercial y permite vídeo color y características adicionales.

Utilización:

La utilización que hoy en día se puede hacer de la vídeo conferencia a través de Internet no es usarla como tal, porque la calidad es ínfima (si la necesitamos debemos sacrificar coste y utilizar sistemas dedicados de vídeo conferencia... ni siquiera en Internet se dan duros a cuatro pesetas).

Lo que sí puede ser interesante es para ser usada como apoyo, para ver la cara de nuestro

interlocutor de cuando en cuando, y para presentar material adicional (esto sí que es factible).

Pensemos que en realidad lo importante de la transmisión (aparte de la cara y del factor humano) será la información o la discusión que nos haya llevado hasta allí y sí podemos transmitir transparencias, pequeñas animaciones, textos, gráficos, etc., y compartir pizarras o voz en tiempos aceptables.

Si hablamos de intranets, la vídeo conferencia sí es una realidad, pero siempre usada con mesura

porque es fácil tender a colapsar la red (sobre todo si se dejan vídeo conferencias tranquilamente en background durante todo el día, como sucede en algunas corporaciones de USA).

Page 60: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 60/65

6.10.4. Real Audio & Vídeo Real Audio y Real Vídeo (de RealNetworks) son tecnologías orientadas a transmisión de

información multimedia temporal (es decir, fundamentalmente vídeo y sonido) a través de Internet. Permiten hacer reproducción streaming (progresiva), es decir, minimizando el tiempo de descarga necesario para empezar la reproducción.

Hay cinco elementos implicados en la producción y visualización final de Real Audio o Vídeo:

Las herramientas y codificadores (1) que crean o capturan datos multimedia (2). Estos son transmitidos usando servidores centrales (3) a lo largo de redes (4) hasta reproductores (5) en los ordenadores cliente, tanto en directo como por petición específica.

Visto de otro modo:

RealSystem permite no sólo transmitir vídeo o sonido, sino animación vectorial (gráficos, texto, imágenes, etc.) y presentaciones sincronizadas. Se puede combinar con Flash (de Macromedia).

Además el plug-in de RealNetworks no sólo utiliza su formato propietario, sino que también

reproduce ficheros con formato SMIL (ver capítulo de estándares).

6.10.5. Vídeo Streaming Real Networks fue pionero en streaming y ahora tiene competidores en Microsoft, Apple, etc. Streaming es un método de hacer que el vídeo, el audio y otros contenidos multimedia disponibles a través de Internet. La ventaja del streaming es que permite un acceso por demanda más sensible a recursos multimedia. A la hora de generar una reproducción correcta, los datos de vídeo deben estar disponibles en la secuencia correcta sin interrupción. Hasta hace poco tiempo, el vídeo debía ser descargado completamente para poder ser reproducido. Mediante streaming, el archivo permanece en el servidor. La parte inicial se copia en un buffer y, tras un breve retardo, se comienza la reproducción mientras se sigue recibiendo el resto del archivo. Proporciona un método firme para controlar la emisión por la interacción entre el servidor y el ordenador. El servidor regula el flujo según la congestión de red y optimiza la presentación en el ordenador del receptor. En la siguiente figura vemos una perspectiva global del proceso de streaming. En primer lugar, debemos capturar los contenidos que vamos a emitir, bien mediante filmación, contenido previamente grabado, etc. Esos contenidos han de ser digitalizados y codificados en un formato que permita ser transmitido

Page 61: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 61/65

mediante streaming. A continuación, se depositarán los contenidos codificados en el servidor, que se encargará de hacer llegar los contenidos a la audiencia.

¿Por qué es diferente el streaming de vídeo? Principalmente, las imágenes en movimiento son generalmente usadas conjuntamente a otros recursos web tales como páginas web, transparencias y debates. Cuando creamos vídeo para streaming, es importante optimizar el tamaño del fichero con respecto a la velocidad de conexión del usuario. Es posible crear archivos que se sirvan a diversas velocidades. Para optimizar la grabación, debemos codificarla, lo cual tiene un doble propósito: compresión para entrega web y almacenamiento en un formato de vídeo adecuado. La forma de codificar el vídeo depende de dos cuestiones principales:

1) Reproductor de medios a usar (p.ej., Windows Media Player, RealOne Media Player, etc) 2) Conexión a Internet disponible

La compresión es vital para emitir a través de la web. Si el archivo es demasiado grande, la calidad de imagen/sonido será muy pobre. El tamaño medio de vídeo digital es 4 MB por segundo en AVI, y pocos ordenadores pueden recibir tal cantidad de datos. Con una conexión de 56 K se podría recibir alrededor de 4 KBps, por lo que la compresión es necesaria. Durante la fase de codificación existe la opción de especificar el tamaño de la ventana de vídeo. Esto se puede hacer en fase de edición. La siguiente operación a realizar es aplicar un códec al vídeo/audio para reducir el tamaño de datos a enviar. El resultado habrá que almacenarlo en un formato adecuado, como pueden ser QuickTime, RealVideo y Windows Media. Por ejemplo, RealNetworks y Windows Media ofrecen la posibilidad de codificar para múltiples velocidades de conexión. A continuación veremos los principales reproductores de medios: RealNetworks: Sus productos son compatibles con SMIL (Synchronised Multimedia Integration Language) y diseñados para integrar varios tipos de contenidos en el reproductor. Ofrece un reproductor básico gratuito que da buen servicio en varios sistemas operativos. Puede hacer streaming de Windows Media, RealVideo y QuickTime. Da una calidad excelente a velocidades de MODEM. Las características avanzadas de codificación son de pago. WindowsMedia: Diseñado para ser embebido y controlado desde otras fuentes como páginas HTML o comandos Java/VBScript. Tiene la principal ventaja del control y enlace de fuentes de medios compatibles con la web. Es gratuito y no tiene restricciones de uso. Las aplicaciones para codificar son de fácil uso y manejo y tiene gran calidad de audio y vídeo a partir de 128 kbps. Como desventajas podemos decir que ofrece baja calidad de audio en streaming de video a velocidad de MODEM, requiere del uso de IE para ver medios embebidos, los streams solo se pueden ver en Windows o Macintosh, necesita un plug-in para Netscape y un servidor Windows.

Apple QuickTime: Tiene la habilidad de mostrar varios medios sincronizados con su reproductor a través de SMIL y ser controlado externamente al ser embebidos en una página web, aunque no alcanza la misma funcionalidad que el reproductor de RealNetworks ni el Windows Media Player. Calidad de vídeo muy

Page 62: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 62/65

alta con una conexión a Internet rápida, reproduce una amplia gama de formatos, tiene soporte SMIL y soporta panorámicas de 360º y formatos de medios. Por el contrario, requiere la compra de un paquete para hacer archivos MOV en PCs y da baja calidad por debajo de 1000Kbps al hacer streaming en tiempo real.

¿Qué software servidor necesitamos? Los formatos principales de streaming ofrecen software servidor que controla el acceso y la

distribuión. Este software necesitará ejecutarse en una plataforma servidora con el sistema operativo apropiado.

Servidor RealNetwork

Es una plataforma muy estable, rápida y amigable. Tiene posibilidades de administración remota y es muy seguro. Soporta: Microsoft Windows NT/2K/XP/.NET, todo tipo de Linux, FreeBSD y Solaris. Es de fácil instalación y permite configurarse en algún servicio ya existente. Soporta streaming de QuickTime tanto a nivel de archivo como en directo. Sin embargo es costoso. Formatos soportados: Windows Media, QuickTime, RealVideo, MPEG-1, MPEG-2, MP3 y MPEG-4.

Page 63: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 63/65

Microsoft Windows Media Server:

A diferrencia de RealNetworks, no es un producto individual sino que viene dentro del servidor W2000/.NET, por lo que sólo se ejecuta sobre un Windows Server. Es capaz de manejar más de 3000 usuarios por servidor sin coste de licencia. Es una plataforma rápida y eficiente aunque los archivos no están tan seguros.

Apple QuickTime Streaming Server / Darwin Streaming Server Es una solución basada en Macintosh, para los que ofrece un amplio rango de compatibilidad de ficheros de streaming, incluyendo los estándares MOV, MP3, MPEG-4 y Shockwave Flash a más de 4000 usuarios por servidor. También proporciona un servidor gratuito basado en PERL llamado Darwin para:

• Red Hat Linux 7.1 • Solaris 8 (SPARC) • Windows NT Server 4.0/Windows 2000 Server

Darwin no es muy amigable y su configuración debe ser realizada mediante documentos de texto y requiere de un administrador experto, aunque mantiene el amplio abanico de formatos de archivo compatibles y más de 2000 usuarios por servidor. Por debajo de 512 Kbps es inferior a los otros pero por encima de 1000 kbps ofrece mayor calidad.

6.11. Herramientas para el tratamiento de vídeo Adobe Premiere

El programa Adobe Premiere es una aplicación muy interesante para la edición de vídeo no lineal. Sus potentes herramientas de edición de audio y vídeo en tiempo real proporcionan un control preciso sobre casi todos los aspectos de producción. Este producto permite incorporar efectos especiales, edición basada en la línea de tiempo, transiciones, captura de vídeo analógico y digital y mezclado de audio. Desde el inicio podemos seleccionar las preferencias de nuestros proyectos, incluyendo la resolución, la compresión, FPS, calidad de audio, etc y podremos importar a nuestros proyectos clips, audio e imágenes. Contiene menús contextuales para ajustar la transparencia, velocidad, etc de nuestros clips, así como los efectos especiales de audio y vídeo. Nuestras composiciones pueden ser pre-visualizadas a partir del momento actual de la línea de tiempos. Podemos escalar las FPS para una mejor visualización de nuestro proyecto, así como hacer zooms del mismo. Es compatible con un gran número de cámaras DV y también acepta la mayoría de formatos de vídeo comprimido, incluyendo mov, avi o mpeg. Finalmente, tiene un amplio abanico de opciones de salida, desde guardarlo en disco hasta enviarlo a nuestra cámara DV, exportarlo a formatos windows media, quicktime y real video, o enviarlo a un vídeo a través de la salida de TV.

Ulead MediaStudio Pro

MediaStudio Pro es una suite completa de vídeo digital que incluye herramientas para la captura de vídeo, la edición de audio y vídeo, creación de títulos y de DVDs. En tiempo real permite la captura de contenidos MPEG, previsualización en cualquier formato y salida a televisión, cinta o DV. Permite la edición de MPEG nativo y el tratamiento de audio Dolby AC-3, así como integra los software gráficos y 3D de Alead. El módulo de creación de DVD permite una solución completa de DV a DVD, permitiendo la creación de contenidos para emisiones, cintas, Internet, CD y DVD.

Page 64: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 64/65

MediaStudio Pro 7 Premiere 6.5

Systems / Format Supporting

Dual CPU Support

Dual head Display Card Support Direct From Timeline Render to File First

Hyper-Threading-Ready

Optimized for Pentium® 4 and AMD 3DNow!™

DV with OHCI IEEE-1394 Support

Sony MICROMV Support

Dolby AC-3 Audio Support

Flash Format Support

Windows Media Format 9 Support

DV Type 1/Type2 for Capturing/Editing/Export Support

Alternative DV Codec Support

Capturing

DV Album

Voice-Over Recording

MPEG-Direct™ Real-time Capture

DVD-VR Support

Direct Capture to WMV Format

Seamless Capture in FAT32 System

Split by Scene DV Capturing

Customized Capture Preset Template

Plug & Play Capture

Color Calibration During Capture

VBR/Field Based MPEG-2 Encoding

Editing

Summary Timeline

Real-time Preview (System-Dependant)

Minimum 3 DV Streams + 2 Graphics

Minimum 2 DV Streams + 1

FX/Filter

Real-time Print to TV / Cam-Monitor Direct From Timeline Render to File First

DV/MPEG Scene Detection

DV Type 1 & 2 Format Converting

Global Filter for All Project

Auto Slideshow

Key-Frameable Variable Speed

Performance / Complexity Indicator Bar

Non-square Pixel Rendering (16:9)

Video Server plug-in

DV SmartPlay

Rolling Credit

Title Animation / Title Effects

Multiple Key Frame Control

Extract Multiple Audio Track

Audio Mixer

Create File over 4G in FAT32 System

Effect

Real-time Transition Effect / Filter Preview

Number of Transition Effects 113 75

Number of Video Filters 57 74

Applying Video Filters to A Region of the Video Only

Moving Path Types 2D, 3D, Cylinder,

Sphere 2D Only

DVD/SVCD/VCD Authoring Integrated Integrated Separated Module

Audio Editing Module

Video Centric Painting Module

Powerful Vector-Based Character Generation Module

Integrated with 3D Title Graphic Package

Page 65: Vídeo. - Presentacióndis.um.es/~jfernand/0405/tsm/tema6.pdf · Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 2/65 Índice ÍNDICE ... de TV. La cinta era bastante

Tema 6.- Vídeo.

Tecnologías para los Sistemas Multimedia – Curso 2004/05 - 65/65