|
MPEG-4: el estándar de vídeo para
multimedia

El MPEG-4, cuyo nombre formal es ISO/IEC
44196, es un estándar desarrollado por el MPEG, el mismo grupo que desarrolló
los estándares MPEG-1 y MPEG-2. El principal objetivo de este nuevo formato es
ofrecer al usuario final un mayor grado de interactividad y control de los
contenidos multimedia, por lo que en vez de basarse en el conjunto de la
secuencia, el MPEG-4 se basa en el contenido. Así, mientras los estándares
MPEG-1 y MPEG-2 codifican secuencias, el MPEG-4 es capaz de crear
representaciones codificadas de los datos de audio y vídeo que la forman. Un
ejemplo simple lo podemos ver en la figura 1. La figura 1A representa el
original sin codificar, mientras que la figura 1B representa una de las muchas
posibles presentaciones de la imagen original tras ser codificada en MPEG-4,
decodificada y manipulada por el usuario. El MPEG-4 ha dividido la imagen
original en diferentes capas: el tipo de fondo, los diferentes objetos y una
capa de texto. Luego ha codificado estos objetos junto con algunos datos
asociados de tal manera que permite al usuario decodificar por separado cada uno
de ellos, reconstruir la secuencia con sus valores originales o, si lo desea,
manipular el resultado, tal y como vemos en la figura 1B.
 
1.A
1.B
El estándar de codificación de vídeo MPEG-4
codifica cada objeto en capas separadas. El contorno y transparencia de cada
objeto, así como las coordenadas espaciales y otros parámetros adicionales como
escala, localización, zoom, rotación o translación, son incluidos como datos
asociados de cada objeto en su propia capa. El usuario puede reconstruir la
secuencia original al decodificar todas las capas de objetos y visualizándolos
sin modificar los parámetros asociados a los objetos. Como alternativa, el
usuario tiene la posibilidad de manipular la secuencia realizando unas
operaciones muy sencillas. Por ejemplo, en la Figura 1B no se han decodificado
ni usado algunos objetos para la reconstrucción, otros han sido representados
con los mismos valores del original, mientras que otros objetos han visto
modificados algunos de sus parámetros de escala, rotación o posición. Los
parámetros de escala, rotación y translación usados para la manipulación de la
secuencia de imagen pueden alterarse e incluirse durante el flujo de bits
mediante operaciones de edición muy simples y sin la necesidad de tener que
realizar nuevas decodificaciones. También es posible añadir objetos que no estén
presentes en la secuencia original. Además, el MPEG-4 no hace distinción entre
objetos naturales y sintéticos. Se entiende por objeto sintético cualquier
recreación informática, como gráficos en tres dimensiones o incluso voz
sintetizada.
Lo nuevo del
MPEG-4
Comparándolo con sus dos antecesores, el
MPEG-4 añade nuevas posibilidades. Principalmente ofrece nuevas y diferentes
variedades de interactividad. Permite integrar los contenidos naturales y
sintéticos en forma de objetos. Estos objetos, pues, pueden representar
entidades "registradas" (una persona, una silla) o material sintético (una voz,
una cara, un modelo de animación en 3D). Por lo tanto, también soporta
contenidos en 2D y 3D. Ofrece mayor versatilidad en cuanto a relaciones de
flujo, desde codificaciones con una relación de flujo muy baja (2 Kb/s para
conversación, 5 Kb/s para vídeo) hasta relaciones muy altas (5 Mb/s para vídeo
con calidad transparente, 64 Kb/s por canal para audio con calidad similar al
CD). A todo ello, el MPEG-4 ofrece una administración y protección mejorada de
la propiedad intelectual. En cuanto a la codificación, el MPEG-1 y MPEG-2
utilizan secciones de imagen rectangular para definir las partes en movimiento,
pero el MPEG-4 es capaz de "perfilar" estas secciones. Al definir el contorno de
los objetos puede despegarlos de los otros objetos que participan en la
secuencia original, así como del fondo. Una vez definidos los objetos y el
fondo, permite la introducción de nuevos objetos naturales o sintéticos. En
ambos casos el MPEG-4 seguirá conociendo la naturaleza de cada uno. La
codificación se realiza de una manera muy similar a la codificación MPEG-1 y
MPEG-2, incluyendo la predicción y compensación de movimiento seguido de una
codificación de textura basada en DCT. Durante la decodificación MPEG-4 se
recupera la información de cada objeto, junto con sus datos asociados,
ofreciendo al usuario la posibilidad de modificar cualquier parámetro disponible
(es el autor quien define qué parámetros pueden o no modificarse, lo que permite
ofrecer diferentes grados de interacción) y sin la necesidad de nuevas
decodificaciones.

Resoluciones del
MPEG-4
El MPEG-4 ha sido diseñado tanto para la
teledifusión como para la difusión por la Web, mejorando la convergencia de
ambos canales, ya que permite la integración de contenidos provenientes de ambos
en la misma escena multimedios. Esta facilidad de difusión viene provista
gracias a las diferentes relaciones de flujo que el estándar permite. Para la
difusión de vídeo con flujos muy bajos (VLBV, very low bit rate video) se
ofrecen diversos algoritmos y herramientas para aplicaciones que trabajen con
flujos entre los 5 y 64 kbit/s. Un ejemplo es claramente la difusión por la Web.
Esta posibilidad soporta la secuencia de imágenes con resoluciones espaciales
muy bajas (desde pocos pixeles por línea y filas hasta resolución CIF) y
relación de cuadro baja (desde los 0 Hz para imágenes fijas hasta los 15 Hz).
Las aplicaciones básicas que soportan esta aplicación pueden codificar
secuencias de imagen rectangular con una alta eficiencia de codificación y una
alta resistencia a los errores, bajo tiempo de recuperación de datos y una baja
complejidad para aplicaciones de comunicación multimedios a tiempo real. Además
pueden ofrecer el acceso remoto, avance rápido y retroceso rápido para
aplicaciones de almacenaje y acceso multimedios. En realidad, las mismas
funciones que soporta el VLBV lo son para el HBV (higher bit rate video, vídeo
de relación de bits alta), aunque con la posibilidad de ofrecer resoluciones muy
cercanas a los parámetros R-601 (PAL estudio), utilizando los mismos algoritmos
y herramientas de en el VLBV. El MPEG-4 soporta tanto la exploración progresiva
como entrelazada.
Interactividad
Para
permitir las funciones de interactividad basadas en el contenido, el estándar de
vídeo MPEG-4 introduce el concepto de "planos de objetos de vídeo" VOP (Video
Object Planes). Cada cuadro de la secuencia de vídeo a codificar es seccionado
en un número de imágenes independientes VOD. En contraposición con el formato de
vídeo de entrada usado con los estándares MPEG-1 y MPEG-2, el vídeo de entrada
para ser codificado por el modelo de verificación del MPEG-4 no tiene que ser
únicamente una imagen de vídeo rectangular. Puede ser también una región VOP con
un contorno arbitrario, cuyos valores de contorno y localización pueden variar
cuadro a cuadro. La sucesión de regiones VOP pertenecientes a un mismo objeto
físico en una escena se conoce como objetos de vídeo VO (Video Objects). La
información del contorno, movimiento y textura de cada VOP perteneciente a un
objeto de vídeo es codificada y transmitida o codificada como una capa de
objetos de vídeo VOL (Video Object Layer) independiente. Además se incluye la
información relevante necesaria para identificar cada capa de objetos de vídeo
VOL y su composición para reconstruir la secuencia original en el receptor. Esto
permite la decodificación separada de cada plano de objetos de vídeo VOP y la
posibilidad de manipulación. Hemos visto que las imágenes MPEG-4 así como las
secuencias de imagen son consideradas como contorneadas arbitrariamente, en
contraste con las definiciones de los estándares MPEG-1 y MPEG-2 que codifican
secuencias de imágenes rectangulares. Una codificación MPEG-4 de una secuencia
de vídeo rectangular sin definición de contornos ofrece una codificación muy
similar al MPEG-1/2. En realidad, el MPEG-4 no especifica una única manera
para codificar información de audio o vídeo, pero ofrece una herramienta para
utilizar diferentes métodos de codificación, que pueden usarse para diferentes
tipos de contenido. Cada uno tiene su codificador optimizado.
Contenido sintético y más
posibilidades
Una de las aportaciones del MPEG-4 es la
posibilidad de converger material registrado con material sintético. Un ejemplo
es el audio estructurado, que permite aprovechar eficientemente el ancho de
banda para la creación de contenidos de audio sintéticos de alta calidad. Está
estrechamente relacionado con el MIDI, ya que permite la difusión de "órdenes
musicales" en vez del propio audio, optimizando el ancho de banda (las
partituras ocupan mucho menos espacio que el propio sonido). Sería como enviar
por la red únicamente la partitura musical, que sería reproducida por nuestra
propia banda de músicos a tiempo real. Otra posibilidad es la animación facial.
Una de las versiones del MPEG-4 es la Interfaz Texto-para-locución, que permite
la difusión de un texto para que el receptor lo lea textualmente y lo reproduzca
utilizando una cabeza sintética inteligente. El teledifusor sólo debe emitir el
texto, y el receptor utilizaría sus propias herramientas para crear una cara que
interpretase el texto incluyendo los movimientos faciales, por ejemplo un
presentador de noticias. La versión 2 del MPEG-4 incluye la animación
corporal. También puede interpretar complejas estructuras lineales en 2D y
3D. De esta manera, junto con información sobre textura, el receptor puede crear
cualquier objeto sintético tomando como referencia la estructura del esqueleto
en 3D y la información de su textura, de la misma manera que un ordenador de
animación 3D interpreta estos datos para la creación de una secuencia de
imágenes generadas por computadora.
Conclusión
El MPEG-4
ofrece numerosas ventajas, sobretodo, en el campo de la difusión por la Web.
Este estándar otorga una mayor importancia y relevancia al receptor y
decodificador, que casi se comporta de la misma manera que un ordenador. La
principal aportación del MPEG-4 es una mayor eficiencia del uso del ancho de
banda, algo necesario dado el auge del Internet. Aprovechando el escaso ancho de
banda que la Internet solo puede ofrecer es posible enviar ciertos datos que
visualizarán secuencias de vídeo complejas y verosímiles. Aun así, el MPEG-4
no encontrará su lugar en el campo de la teledifusión, donde los recursos de
interactividad que ofrece deben antes implantarse en las cajas negras, algo que
obligaría a renovar, una vez más, el parque creciente
actual.
Artículo creado por Ramón
Sendra
|