[MPEG-4릴레이 시리즈-3] 인터넷 방송을 위한 MPEG-4 스트리밍


 

인터넷의 대역폭이 증가하고 멀티미디어 컨텐트가 늘어나면서 '스트리

밍'이란 용어가 심심치 않게 등장하고 있다.

스트리밍이란 그 특성상 데이터 양이 많을 수 밖에 없는 오디오, 비디오

등의 멀티미디어 파일을 다운로드하여 재생하는 대신에, 사용자의 컴퓨터

에 약간의 데이터를 버퍼링한 이후부터 데이터의 수신과 동시에 계속적인

재생을 할 수 있도록 하는 기술이다.

hspace="10">현재 스트리밍 기술로는 RealNetworks의 RealMedia 기술

과 Microsoft의 Windows Media Technology (WMT)가 주로 사용되고 있

다. 그 외에도 Apple의 Quicktime을 비롯한 몇몇 기술들이 있지만 시장

점유율을 놓고 봤을 때 단연 Real과 WMT가 앞서고 있다.

인터넷은 그 탄생 배경 자체에서 알 수 있듯이 데이터 전송을 위해 만들어

진 것이기 때문에, 멀티미디어 컨텐트를 전송하기에 적합한 특성을 갖지

못하고 있다.

시간적인 연속성을 가지는 멀티미디어 데이터를 안정적으로 전송할만한 대

역 폭을 보장하지 못하며 수시로 가용 대역 폭이 변화한다.

따라서 모든 스트리밍 기술은 플레이어에서 일정 시간 초기 버퍼링을 통하

여 이를 보상하려고 하지만 네트웍이 정체되는 시간이 길어지면 버퍼의 데

이터가 소진되고 결국에는 재생에 필요한 데이터를 받기까지 멈추게 되는

현상이 발생한다.

초기 버퍼링에 소요되는 시간과 재생 중에 일어나는 멈춤 현상을 최대한 줄

이기 위해 Real과 WMT에서는 컨텐트를 인코딩할 때 여러 비트율로 코딩을

하는 기술을 내놓았다.(Real의 SureStream과 WMT에서의 다중비트율 옵

션)

네트웍 정체가 일어나는 경우에, 그에 적합하도록 낮은 비트율의 비트스트

림을 전송하고 자연스럽게 화질을 낮춤으로써 끊어짐 없는 멀티미디어 데이

터의 재생을 가능케 하는 것이다.

하지만 이와 같이 인코딩 과정에서 서로 다른 비트율을 가지는 복수개의 비

트스트림을 한 번에 만들어 내기 위해서는, 고급 사양의 시스템이 필요하

고 인코딩 시간이 늘어나는 등 전체적인 컨텐트 제작 비용이 늘어나게 된

다. 또한 사용하는 비트율의 개수에 따라 저장해야 할 데이터의 양이 늘어

나고 이는 저장 매체에 소요되는 비용을 증가시킨다.

이에 반해 MPEG-4 스트리밍을 활용하면 스케일러블(scalable)한 비트스

트림을 지원할 수가 있다.

'스케일러블하다'는 것은 사용하는 데이터의 양을 조절함으로써 하나의 비

트스트림으로부터 여러 품질을 얻어낼 수 있음을 의미한다.

MPEG-4 비쥬얼의 Simple Scalable Profile 사용시에는 동영상은 영상

의 크기와 프레임율에 있어서 스케일러블할 수 있다.(본 연재 2회 “오디

오/비디오 압축재생” 참조).

예를 들어 하나의 비트스트림만으로, 신속한 브라우징 등을 위한 조그마

한 영상에서부터 인코딩 시에 설정한 최대 해상도까지 원하는 해상도를 얻

을 수가 있다. 또한 초당 1프레임에서 30프레임까지 다른 프레임율을 가지

는 동영상을 얻을 수 있다.

최근 MPEG에서는 MPEG-4에 Fine Granular Scalability(FGS)라는 기술

을 채택하였다. FGS는 하나의 비트스트림에서 사용하는 (혹은 전송하는)

데이터의 양을 미세하게 조절하는 것을 가능케 한다. 다시 말해 Real의

SureStream이나 WMT의 다중 비트율 옵션과 같은 효과를 하나의 비트스트

림으로부터 얻어 낼 수 있어 스토리지 비용을 그만큼 줄일 수 있는 것이

다.

더 나아가 FGS를 사용할 경우에는 비트율의 미세 변경이 가능하므로, 가

용 전송 대역폭에 최적화된 데이터의 전송을 이룰 수가 있다. 인코딩 시

에 비트율과 비트스트림의 수가 결정되어야 하고, 그 안에서만 비트율 변

경이 가능한 Real이나 WMT와는 큰 차이를 보이는 부분이다.

뿐만 아니라, 본 MPEG-4 시리즈를 통하여 여러 번 강조되고 있는 바와 같

이, MPEG-4가 가지는 두드러진 특징 중 하나는 객체 기반의 코딩 및 전송

이 가능하다는 것이다. 이를 전송 측면에서 응용하면 네트웍 정체시에 중

요하지 않은 객체들에 대해서는 전송을 하지 않는 좀 더 지능화된 스트리밍

도 가능해진다.

MPEG-4 스트리밍 서버는 일반적으로 Delivery Multimedia

Integration Framework(DMIF)를 통하여 초기 연결 설정을 하고 데이터

를 전달한다.(그림 1 참조).

DMIF는 MPEG-4 응용의 개발자가 하부의 전송 네트웍이나 저장 매체와 무

관하게 DMIF Application Interface(DAI)라고 하는 일관된 인터페이스

를 사용하여 시그널링을 할 수 있도록 하고 전송 및 저장 매체의 사용을 가

능하게 한다.

DMIF로 전달되는 데이터는, 클라이언트에서의 디코딩과 합성에 필요한 시

간지정(time stamp) 등이 포함된 SL(Sync Layer)-패킷화된 구조의 데이

터이다.

DMIF의 하부에 존재하는 네트웍은 여러가지가 될 수있지만, 인터넷 상에

서 스트리밍과 같은 실시간 전송을 위해서는 현재 Realtime Transport

Protocol (RTP)이 주로 사용되고 있다.

RTP 사용을 위해서 전송하는 데이터의 형식에 따라 여러 페이로드

(payload) 타입이 정해져 있으며, 현재 IETF의 Audio/Video

Transport (AVT) 그룹에서는 H.261, H.263, MPEG-1/2, MP3 등을 포

함한 여러 형식을 위한 페이로드 타입을 정의하였거나 정의하고 있다.

MPEG-4 컨텐트도 RTP를 사용하여 전송할 수 있도록 페이로드 포맷과 동기

화 구조를 규정하는 논의가 이루어지고 있으며, 자세한 진행 상황은 본 연

재의 마지막 회인 “MPEG-4 표준화 최신 동향”에서 다루어질 것이다.

여러 객체 데이터들이 DMIF를 통하여 MPEG-4 클라이언트로 전송되면, 클

라이언트에서는 함께 전달되는 BIFS(Binary Format for Scene) 정보

를 이용하여 그림 1의 Compositor에서 오디오, 비디오, 그래픽 데이터

등의 객체들을 2차원, 3차원 공간에 시간적, 공간적으로 구성한다.

전송된 각각의 데이터는 시간 정보를 포함하고 있어서 특정한 시간에 화면

상에 나타나거나 사라질 수 있다.

그림 2는 2, 3차원 공간에 정지 영상, 동영상, 오디오 뿐만 아니라 그래

픽 데이터를 시공간적으로 구성하여 표현한 예이다. MPEG-4 클라이언트에

서는 단순히 PLAY/STOP/FF/REW와 같은 제어만이 아니라 훨씬 다양하고

강력한 사용자 상호 작용이 가능하다.

현재 WWW의 하이퍼링크와 같이 특정 객체를 클릭하여 다른 컨텐트로 전환

하는 것은 물론이고, 마우스 드래그나 클릭을 통하여 화면 상에서 특정 객

체의 위치를 바꾸거나 크기를 변화시킬 수도 있다.

예를 들어 그림 2(b)에서 앞쪽의 TV나 뒤쪽의 화면을 드래그하여 위치를

옮길 수 있다. 또한 필요한 경우에는 특정한 객체를 삭제하거나 새로운 객

체를 추가할 수도 있다. MPEG-4만으로 가능한 이러한 기능들은 앞으로 인

터넷 방송에 있어 무궁무진한 가능성을 제공할 것으로 판단된다.

차세대 인터넷 방송을 위한 mp4cast의 솔루션에는 MPEG-4를 기반으로 하

는 스트리밍 서버와 클라이언트가 포함되어 있다. 이들의 기본 방향은 현

존하는 스트리밍 기술의 장점을 최대한 살리면서 MPEG-4 기술로 새롭게 창

출되는 기능들을 제공하는 것이다.

네트웍 자원의 효율적인 활용은 물론 전자상거래와 양방향 방송 등 현재 수

익 모델의 부재로 고심하는 인터넷 방송에서 요구하는 시급한 기술들을 우

선적으로 구현하여 부가가치의 극대화를 꾀할 수 있도록 한다는 것이다.

(MPEG-4 클라이언트 관련하여 원고 작성에 많은 도움을 주신 김종득 연구

원께 감사를 드립니다.)

/이재용 새롬기술 책임연구원






포토뉴스