Начальная

Windows Commander

Far
WinNavigator
Frigate
Norton Commander
WinNC
Dos Navigator
Servant Salamander
Turbo Browser

Winamp, Skins, Plugins
Необходимые Утилиты
Текстовые редакторы
Юмор

File managers and best utilites

Аналоговая и цифровая аудио и видеоинформация. Видеоинформация реферат


Представление нечисловой информации в компьютере

Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 10 классы | Планирование уроков на учебный год | Представление видеоинформации в компьютере

Представление видеоинформации в компьютере

Когда говорят о видеозаписи, прежде всего имеют в виду движущееся изображение на экране телевизора или монитора.

Преобразование оптического изображения в последовательность электрических сигналов осуществляется видеокамерой. Эти сигналы несут информацию о яркости и цветности отдельных участков изображения. Они сохраняются на носителе в виде изменения намагниченности видеоленты (аналоговая форма) или в виде последовательности кодовых комбинаций электрических импульсов (цифровая форма).

Процесс превращения непрерывного сигнала в набор кодовых слов называется аналого-цифровым преобразованием. Это сложный процесс, состоящий из:

- дискретизации, когда непрерывный сигнал заменяется последовательностью мгновенных значений через равные промежутки времени; - квантования, когда величина каждого отсчета заменяется округленным значением ближайшего уровня; - кодирования, когда каждому значению уровней квантования, полученных на предыдущем этапе, сопоставляются их порядковые номера в двоичном виде.

Видеоинформация может храниться в файлах форматов AVI и MPEG.

AVI (Audio Video Interleave) — формат несжатого видео. Это наиболее ресурсоемкий формат, с минимальной потерей данных.

MPEG (Moving Picture Expert Group) — формат, предназначенный для сжатия звуковых и видеофайлов для загрузки или пересылки, например через Интернет. Разработан Экспертной группой кинематографии, которая занимается разработкой стандартов кодирования и сжатия видео- и аудиоданных.

Средства и технологии обработки видеоинформации

Кодирование видеоинформации

Чтобы хранить и обрабатывать видео на компьютере, необходимо закодировать его особым образом. При этом кодирование звукового сопровождения видеоинформации ничем не отличается от кодирования звука, описанного в предыдущей теме. Изображение в видео состоит из отдельных кадров, которые меняются с определенной частотой. Кадр кодируется как обычное растровое изображение, то есть разбивается на множество пикселей. Закодировав отдельные кадры и собрав их вместе, можно описать все видео.

Видеоданные характеризуются частотой кадров и экранным разрешением. Скорость воспроизведения видеосигнала составляет 30 или 25 кадров в секунду, в зависимости от телевизионного стандарта. Наиболее известными из таких стандартов являются: SECAM, принятый в России и Франции, PAL, используемый в Европе, и NTSC, распространенный в Северной Америке и Японии. Разрешение для стандарта NTSC составляет 768 на 484 точек, а для PAL и SECAM – 768 на 576 точек. Не все пиксели используются для хранения видеоинформации. Так, при стандартном разрешении 768 на 576 пикселей, на экране телевизора отображается всего 704 на 540 пикселей. Поэтому для хранения видеоинформации в компьютере или цифровой видеокамере, размер кадра может отличаться от телевизионного. Например, в формате Digital Video или, как его еще называют DV, размер кадра составляет 720 на 576 пикселей. Такое же разрешение имеет кадр стандарта DVD Video. Размер кадра формата Video-CD составляет 352 на 288 пикселей.

В основе кодирования цветного видео лежит известная модель RGB. В телевидении же используется другая модель представления цвета изображения, а именно модель YUV. В такой модели цвет кодируется с помощью яркости Y и двух цветоразностных компонент U и V, определяющих цветность. Цветоразностная компонента образуется путем вычитания из яркостной компоненты красного и зеленого цвета. Обычно используется один байт для каждой компоненты цвета, то есть всего для обозначения цвета используется три байта информации. При этом яркость и сигналы цветности имеют равное число независимых значений. Такая модель имеет обозначение 4:4:4.

Опытным путем было установлено, что человеческий глаз менее чувствителен к цветовым изменениям, чем к яркостным. Без видимой потери качества изображения можно уменьшить количество цветовых оттенков в два раза. Такая модель обозначается как 4:2:2 и принята в телевидении. Для бытового видео допускается еще большее уменьшении размерности цветовых составляющих, до 4:2:0.

Если представить каждый кадр изображения как отдельный рисунок указанного выше размера, то видеоизображение будет занимать очень большой объем, например, одна секунда записи в системе PAL будет занимать 25 Мбайт, а одна минута – уже 1,5 Гбайт. Поэтому на практике используются различные алгоритмы сжатия для уменьшения скорости и объема потока видеоинформации. Если использовать сжатие без потерь, то самые эффективные алгоритмы позволяют уменьшить поток информации не более чем в два раза. Для более существенного снижения объемов видеоинформации используют сжатие с потерями.

Среди алгоритмов с потерями одним из наиболее известных является MotionJPEG или MJPEG. Приставка Motion говорит, что алгоритм JPEG используется для сжатия не одного, а нескольких кадров. При кодировании видео принято, что качеству VHS соответствует кодирование MJPEG с потоком около 2 Мбит/с, S-VHS – 4 Мбит/с.

Свое развитие алгоритм MJPEG получил в алгоритме DV, который обеспечивает лучшее качество при таком же потоке данных. Это объясняется тем, что алгоритм DV использует более гибкую схему компрессии, основанную на адаптивном подборе коэффициента сжатия для различных кадров видео и различных частей одного кадра. Для малоинформативных частей кадра, например, краев изображения, сжатие увеличивается, а для блоков с большим количеством мелких деталей уменьшается.

Еще одним методом сжатия видеосигнала является MPEG. Поскольку видеосигнал транслируется в реальном времени, то нет возможности обработать все кадры одновременно. В алгоритме MPEG запоминается несколько кадров. Основной принцип состоит в предположении того, что соседние кадры мало отличаются друг от друга. Поэтому можно сохранить один кадр, который называют исходным, а затем сохраняются только изменения от исходного кадра, называемые предсказуемыми кадрами. Считается, что за 10-15 кадров картинка изменится настолько, что необходим новый исходный кадр. В результате при использовании MPEG можно добиться уменьшения объема информации более чем в двести раз, хотя это и приводит к некоторой потере качества. В настоящее время используются алгоритм сжатия MPEG-1, разработанный для хранения видео на компакт-дисках с качеством VHS, MPEG-2, используемый в цифровом, спутниковом телевидении и DVD, а также алгоритм MPEG-4, разработанный для передачи информации по компьютерным сетям и широко используемый в цифровых видеокамерах и для домашнего хранения видеофильмов.

Видеооборудование и программы

Обычный компьютер не имеет в своем составе оборудования для ввода и обработки видео. Поэтому на него необходимо устанавливать дополнительное оборудование. Это оборудование может быть самым различным в зависимости от того, какие задачи вы хотите решать. Кроме того, сам компьютер должен отвечать определенным требованиям.

Для захвата и обработки видео особых требований к компьютеру не предъявляется, лишь бы он был оборудован звуковой платой и имел жесткий диск достаточного объема и скорости. Следует учитывать, что один час видео в хорошем качестве будет занимать на диске около 20 Гбайт информации. При этом результат работы программы обработки видео необходимо куда-то сохранять, поэтому необходимый объем должен быть больше в два раза. Что касается скорости работы диска, то лучше выбирать жесткие диски, имеющие скорость вращения 7200 оборотов в минуту и больше. Для того чтобы снимать на видео и обрабатывать полученные фильмы на компьютере, прежде всего, необходима видеокамера. В настоящее время используются три разновидности видеокамер: аналоговые, цифровые и Web-камеры.

В аналоговых видеокамерах изображение хранится на магнитной ленте в видеокассете. При записи на магнитную ленту изображение сохраняется в ней будучи преобразованной в магнитные импульсы. При воспроизведении происходит обратное преобразование магнитных импульсов в изображение. Аналоговыми же видеокамеры называют потому, что записанная магнитная информация по возможности наиболее приближена (является аналогом) к оригиналу. Существует несколько стандартов для записи аналогового видеосигнала: VHS, S-VHS, VHS-compact, Video-8, Hi-8 др. Они различаются параметрами записываемых сигналов, формой и размером видеокассеты. Аналоговые камеры могут содержать встроенные возможности редактирования видео.

Аналоговая видеокамера

Для того чтобы вводить в компьютер фильмы, снятые аналоговой видеокамерой, понадобится плата оцифровки и ввода видеосигнала. К этой плате подключается аналоговая видеокамера или видеомагнитофон. Основными характеристиками таких плат являются максимальное разрешение изображения (обычно 768 на 576 пикселей), скорость оцифровки (25 или 30 кадров в секунду), пропускная способность (до 8-10 Мбайт/с) и возможность оцифровки звукового сопровождения. Результатом работы этих плат является файл на диске компьютере, содержащий записанное изображение.

Выпускаются также устройства видеозахвата, выполненные в виде отдельных устройств, подключаемых к компьютеру по шине USB. Однако пропускная способность шины USB не достаточна для передачи несжатого видео в компьютер. Поэтому все подобные устройства используют сжатие с потерями.

Популярными аналоговыми видеоустройствами являются телевизионные тюнеры, сочетающие в себе телевизионные приемники и платы ввода изображений в компьютер. Телевизионный тюнер позволяет просматривать на экране компьютера телепередачи или видеофильмы, как на полный экран, так и в окне. При этом тюнер работает как обычный телевизор, только в качестве экрана используется монитор компьютера. Данное устройство представляет собой плату расширения, вставляемую внутрь компьютера и содержащую ряд разъемов. Телевизионный тюнер имеет антенный вход для подключения телевизионной антенны, композитный видеовход для подключения бытовых источников видеосигнала, таких как видеокамера, видеомагнитофон или проигрыватель видеодисков. Некоторые модели тюнеров могут принимать и радиосигнал, позволяя слушать передачи радиостанций на компьютере. Фактически, после установки платы тюнера, компьютер становится и телевизором и радиоприемником.

Web-камеры предназначены для общения в Интернете. Эти камеры не содержат средств хранения видеоинформации, а просто транслируют закодированный видеосигнал в компьютер, где он или отображается на экране, или сохраняется на диске. Соединяются такие камеры с компьютером при помощи интерфейса USB. Возможности Web-камер ограничены, и качество получаемого изображения невысокое.

Web-камера

С помощью таких камер и соответствующего программного обеспечения можно общаться с другими людьми в Интернете, устраивая видеоконференции. В этом случае все участники видят друг друга в реальном времени. Используя микрофон, колонки и звуковую карту, собеседники могут также слышать друг друга.

Наибольшего качества можно добиться при использовании цифровых видеокамер. Эти видеокамеры записывают изображение в цифровой форме. Внешне они почти не отличаются от аналоговых видеокамер. Однако по принципу действия эти устройства отличаются принципиально.

Цифровая камера

В качестве носителя информации в этих устройствах выступает специальная кассета с магнитной лентой, набор микросхем памяти, жесткий диск, записываемый компакт-диск или записываемый DVD-диск. То, что информация хранится в цифровом виде, позволяет легко переносить эту информацию в компьютер. Существует несколько форматов хранения цифровой видеоинформации: Digital-8, Mini-DV, MPEG-4.

Выпускаются различные варианты цифровых видеокамер от самых простых до профессиональных. В большинстве камер одной серии возможности хранения видео одинаковы, а камеры различаются наличием дополнительных возможностей. Это может быть размер жидкокристаллического экрана для просмотра снятого материала или наличие карты памяти для хранения цифровых фотографий. Некоторые цифровые видеокамеры можно использовать и как цифровые фотоаппараты.

Большинство цифровых камер подключаются к компьютеру с помощью интерфейса IEEE-1394, также называемый FireWire. Вариантом этого интерфейса является I-Link, разработанный фирмой Sony. Данный интерфейс отсутствует в большинстве современных компьютеров, поэтому чтобы подключить цифровую видеокамеру к компьютеру потребуется дополнительная плата, реализующая этот интерфейс.

Подключив цифровую камеру с помощью такой платы, можно много раз переписывать видео с камеры в компьютер и обратно без потери качества, а также управлять видеокамерой с компьютера. При работе как с цифровой камерой, так и с аналоговыми видеосигналами, следует использовать комбинированные устройства видеозахвата. Такие устройства содержат в своем составе интерфейс FireWire IEEE-1394, а также микросхему оцифровки аналогового видеосигнала в цифровой формат DV. На диск информация в любом случае записывается в формате DV. Устройства могут выпускаться как в виде платы, вставляемой в компьютер, так и в виде внешнего устройства, подключаемого к компьютеру по интерфейсу IEEE-1394.

Естественно, для редактирования на компьютере видео потребуется специальное программное обеспечение. Для простейшей работы можно использовать встроенную в Windows Me и Windows XP программу Windows Movie Maker. Для более сложного видеомонтажа можно воспользоваться программой Ulead Media Studio Pro.

Ulead Media Studio Pro

Видеомонтаж подразумевает получение видеоизображения с одного или нескольких источников, выполнение над видео различных действий и сохранение полученного в результате монтажа видео. Известны два вида монтажа – монтаж сборкой и монтаж вставкой. Монтаж сборкой используется для создания отредактированного видео путем перезаписи из нескольких других записей или источников видеосигнала. Новая сцена добавляется к концу предыдущей. Монтаж вставкой используется для замены одной сцены на другую.

Различают также линейный и нелинейный видеомонтаж. Особенность линейного видеомонтажа состоит в том, что все операции происходят в реальном времени. Чтобы добиться высокой скорости работы, эффекты и операции осуществляют с помощью специальной аппаратуры. В этом случае роль компьютера сводится к координации работы устройств линейного монтажа и автоматизации рутинной ручной работы.

При использовании нелинейного видеомонтажа все фрагменты исходного видео должны быть введены в компьютер, а затем с помощью специальной программы над этим фрагментом выполняются различные операции. При этом в зависимости от используемой программы можно выполнить практически любые преобразования над исходными фрагментами видео. В результате полученное видео можно сохранить на диске компьютера, записать на видеомагнитофон или цифровую камеру.

В настоящее время наиболее распространен нелинейный видеомонтаж. Для нелинейного видеомонтажа используются специальные программы, среди которых упомянутая выше программа Ulead Media Studio Pro, а также программа Adobe Premiere. Эти программы являются универсальными и позволяют оцифровывать видеосигнал, производить его обработку, а также кодировать полученное изображение в различные форматы.

Adobe Premiere

Кроме универсальных программ существует большое количество специализированных, которые решают отдельные задачи.

Любой созданный фильм можно просмотреть не только на экране компьютерного монитора. При наличии платы оцифровки видео, имеющей видеовыход, или видеоадаптера с видеовыходом, можно подключить телевизор и просматривать на нем изображения. Также можно подключить обычный видеомагнитофон, и записать фильм на кассету.

При работе с цифровой видеокамерой можно не только получить с нее отснятый материал, но и записать отредактированный фильм обратно. В дальнейшем имеется возможность просматривать фильм на обычном телевизоре, подключив к нему цифровую видеокамеру. Достоинством данного способа работы является отсутствие дополнительных искажений, вносимых при преобразовании видеоматериала из цифровой формы в аналоговую. Видеофильм будет храниться в цифровом формате.

Существует ряд программ, позволяющих записать видеоинформацию на заготовку CD или DVD. Одной из таких программ является программа Ulead DVD Workshop. Лучше всего записывать видеоинформацию на DVD-диск. Однако можно использовать и устройство CD-RW для записи видео на компакт-диск. Хотя на таком диске поместится не слишком длинный фильм, себестоимость хранения видео будет чрезвычайно низкой, а качество записи достаточно высоким. При этом современные проигрыватели DVD могут воспроизводить как записываемые диски CD-R, так и перезаписываемые диски CD-RW.

xn----7sbbfb7a7aej.xn--p1ai

7 Кодирование видеоинформации

Видеоинформация – наиболее сложный вид для хранения, обработки и воспроизведения. Впервые движущиеся изображения были сохранены на кинопленке в виде большого количества отдельных кадров изображения, заснятых через небольшие промежутки времени (24 кадра в секунду). Позднее на ту же пленку стала записываться и звуковая дорожка (в последующем несколько дорожек для многоканального звука). Далее появилось телевидение с аналоговой записью движущегося изображения на магнитные ленты (системы телевидения PAL и SECAM используют 25 кадров в секунду, система NTSC – 29,97 кадров в секунду). С появлением компьютеров широкое распространение получили цифровые методы записи и кодирования видеоинформации, которые постоянно совершенствуются.

Качество видеоизображения в цифровых методах постоянно улучшается. Широкое распространение цифрового видео было связано с появление вначале CD-дисков, затем DVD, далее Blu-Ray дисков, на которых, в основном, и распространялись кинофильмы, и емкостью которых ограничивались качественные возможности. В таблице 1.4 приведены характеристики некоторых видеоформатов.

Алгоритмы кодирования видео очень сложны, их описания можно найти в специальной литературе или на сайте http://www.mpeg.org.

Все форматы сжатия семейства MPEG (MPEG-1, MPEG-2, MPEG-4, MPEG-7) используют высокую избыточность информации в изображениях, разделенных малым интервалом времени

Алгоритмы MPEG сжимают только опорные кадры – I-кадры (Intra frame – внутренний кадр). В промежутки между ними включаются кадры, содержащие только изменения между двумя соседними I-кадрами – P-кадры (Predicted frame – прогнозируемый кадр). MPEG-4 использует технологию фрактального сжатия изображений. Фрактальное (контурно-основанное) сжатие подразумевает выделение из изображения контуров и текстур объектов. Контуры представляются в виде сплайнов (полиномиальных функций) и кодируются опорными точками. Текстуры могут быть представлены в качестве коэффициентов пространственного частотного преобразования (например, дискретного косинусного или вейвлет-преобразования).

Форматы файлов Microsoft AVI и MKV – контейнеры, предназначенные для хранения видеоинформации, синхронизованной с аудиоинформацией. AVI может содержать в себе потоки 4 типов – Video, Audio, MIDI, Text. Причем видеопоток может быть только один, тогда как аудио – несколько.

0 Архивация различных видов информации

Дискретное двоичное представление информации обычно имеет некоторую избыточность. Часто в информации присутствуют последовательности одинаковых битов или их групп. Объём информации имеет большое значение не только для хранения, но также непосредственно влияет на скорость передачи информации по компьютерным сетям. Поэтому были разработаны специальные методы (алгоритмы) сжатия информации (data compression), с помощью которых можно существенно уменьшить ее объём. Существуют как универсальные алгоритмы, так и специализированные.

Основными техническими характеристиками процессов сжатия и результатов их работы являются:

степень сжатия (compress rating) или отношение (ratio) объемов исходного и результирующего потоков;

скорость сжатия – время, затрачиваемое на сжатие некоторого объема информации входного потока, до получения из него эквивалентного выходного потока;

качество сжатия – величина, показывающая, насколько сильно упакован выходной поток, при помощи применения к нему повторного сжатия по этому же или иному алгоритму.

Все способы сжатия можно разделить на две категории: обратимое и необратимое сжатие.

Необратимое сжатие – такое преобразование входного потока информации, при котором выходной поток, основанный на определенном формате информации, представляет собой объект, достаточно похожий по внешним характеристикам на входной поток, однако отличается от него объемом.

Степень сходства входного и выходного потоков определяется степенью соответствия некоторых свойств объекта (до сжатия и после), представляемого данным потоком информации. Такие подходы и алгоритмы используются для сжатия информации растровых графических файлов, видео и звука. При таком подходе используется свойство структуры данного формата файла и возможность представить информацию приблизительно схожую по качеству для восприятия человеком. Поэтому, кроме степени или величины сжатия, в таких алгоритмах возникает понятие качества, т.к. исходная информация в процессе сжатия изменяется.

Обратимое сжатие всегда приводит к снижению объема выходного потока информации без изменения его информативности, т.е. без потери информационной структуры.

Из выходного потока, при помощи восстанавливающего или декомпрессирующего алгоритма, можно получить входной, а процесс восстановления называется декомпрессией или распаковкой и только после процесса распаковки информация пригодна для использования в соответствии с их внутренним форматом.

Способы обратимого сжатия информации

  1. Сжатие способом кодирования серий (RLE)

Наиболее известный простой подход и алгоритм сжатия информации обратимым путем – это кодирование серий последовательностей (Run Length Encoding – RLE).

  1. Алгоритм Хаффмана

Сжимая файл по алгоритму Хаффмана, первое, что необходимо сделать – прочитать файл полностью и подсчитать сколько раз встречается каждый символ из расширенного набора ASCII.

  1. Арифметическое кодирование

Арифметическое кодирование является методом, позволяющим упаковывать символы входного алфавита без потерь при условии, что известно распределение частот этих символов и является наиболее оптимальным, т.к. достигается теоретическая граница степени сжатия.

  1. Двухступенчатое кодирование. Алгоритм Лемпеля-Зива

Гораздо большей степени сжатия можно добиться при выделении из входного потока повторяющихся цепочек блоков, и кодирования ссылок на эти цепочки с построением хеш-таблиц от первого до n-го уровня с последующим

studfiles.net

Аналоговая и цифровая аудио и видеоинформация - реферат

АСТРАХАНСКИЙГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Факультетматематики и информационных технологийКафедра Информационные системы Курс:«Введение в специальность                              РЕФЕРАТ        на тему: «Аналоговая ицифровая аудио и видеоинформация».                                                                                                                                                                          Выполнил: студент  гр. ИМ-11                                                                                           Юдин М.А.                                                                                                                                                                                                                                                 Проверила:                                                                                    Чернышова  Н.А.                                                                                        г.Астрахань 2006                               Содержание.  TOC o «1-3» u 1.   Введение.… PAGEREF_Toc155019051 h 3 2.  Отличия цифрового представления сигналов отаналогового.… PAGEREF_Toc155019052 h 3 3.    Способыпредставления звука в цифровом виде.… PAGEREF_Toc155019053 h 4 4.    MPEGLayer3.… PAGEREF_Toc155019054 h 5 5.      Видеоинформация.… PAGEREF_Toc155019055 h 7 5.1.   В началебыл аналог.… PAGEREF_Toc155019056 h 7 5.2.   Цифровоевидео.… PAGEREF_Toc155019057 h 7 5.3.    Основныехарактеристики цифрового видео.… PAGEREF_Toc155019058 h 8 6.   Сжатие видеоинформации.… PAGEREF_Toc155019059 h 9 6.1.   Основныепринципы  сжатия видеоданных.… PAGEREF_Toc155019060 h 9 6.2.   Методысжатия видеоданных.… PAGEREF_Toc155019061 h 10 7.    Основы MPEG-кодирования видео.… PAGEREF_Toc155019062 h 11 7.1.  Стандарт компрессии видеоданных MPEG-2.… PAGEREF_Toc155019063 h 11 7.2.        MPEG-4. Что этотакое?… PAGEREF_Toc155019064 h 11 8.  Преимущества цифровой передачи видеоданных.… PAGEREF_Toc155019065 h 12 9.  Заключение.… PAGEREF_Toc155019066 h 12 10.  Список использованной литературы.… PAGEREF_Toc155019067 h 13

  1.   Введение.           Появление систем мультимедиа,безусловно, произвело революционные изменения в таких областях, какобразование, компьютерный тренинг, во многих сферах профессиональнойдеятельности, науки, искусства, в компьютерных играх и т.д. Но, согласитесь, невозможнопредставить себе современные мультимедиа системы без  звука и видео. В данной работе я хотел быостановиться на рассмотрении принципиальных отличий представления цифровыхсигналов от аналоговых, особенностях цифровой аудио и видеоинформации,алгоритмах  их сжатия (компрессии).      2.  Отличия цифрового представления сигналов отаналогового. Традиционное аналоговое представлениесигналов основано на подобии (аналогичности) электрических сигналов (измененийтока и напряжения) представленным ими исходным сигналам (звуковому давлению,температуре, скорости и т.п.), а также подобии форм электрических сигналов вразличных точках усилительного или передающего тракта. Форма электрическойкривой, описывающей (также говорят — переносящей) исходный сигнал, максимальноприближена к форме кривой этого сигнала.          Такое представление наиболее точно,однако малейшее искажение формы несущего электрического сигнала неизбежноповлечет за собой такое же искажение формы и сигнала переносимого. В терминахтеории информации, количество информации в несущем сигнале в точности равноколичеству информации в сигнале исходном, и электрическое представление несодержит избыточности, которая могла бы защитить переносимый сигнал отискажений при хранении, передаче и усилении.         Цифровое представление электрическихсигналов призвано внести в них избыточность, предохраняющую от воздействия паразитныхпомех. Для этого на несущий электрический сигнал накладываются серьезныеограничения — его амплитуда может принимать только два предельных значения — 0и 1.          Вся зона возможных амплитуд в этомслучае делится на три зоны: нижняя представляет нулевые значения, верхняя — единичные, а промежуточная является запрещенной — внутрь нее могут попадатьтолько помехи. Таким образом, любая помеха, амплитуда которой меньше половиныамплитуды несущего сигнала, не оказывает влияния на правильность передачизначений 0 и 1. Помехи с большей амплитудой также не оказывают влияния, еслидлительность импульса помехи ощутимо меньше длительности информационногоимпульса, а на входе приемника установлен фильтр импульсных помех.         Сформированный таким образом цифровойсигнал может переносить любую полезную информацию, которая закодирована в видепоследовательности битов — нулей и единиц; частным случаем такой информацииявляются электрические и звуковые сигналы. Здесь количество информации внесущем цифровом сигнале значительно больше, нежели в кодированном исходном,так что несущий сигнал имеет определенную избыточность относительно исходного,и любые искажения формы кривой несущего сигнала, при которых еще сохраняетсяспособность приемника правильно различать нули и единицы, не влияют надостоверность передаваемой этим сигналом информации. Однако в случаевоздействия значительных помех форма сигнала может искажаться настолько, чтоточная передача переносимой информации становится невозможной — в ней появляютсяошибки, которые при простом способе кодирования приемник не сможет не толькоисправить, но и обнаружить. Для еще большего повышения стойкости цифровогосигнала к помехам и искажениям применяется цифровое избыточное кодирование двухтипов: проверочные (EDC — Error Detection Code, обнаруживающий ошибку код) икорректирующие (ECC — Error Correction Code, исправляющий ошибку код) коды.Цифровое кодирование состоит в простом добавлении к исходной информациидополнительных битов и/или преобразовании исходной битовой цепочки в цепочкубольшей длины и другой структуры. EDC позволяет просто обнаружить факт ошибки — искажение или выпадение полезной либо появление ложной цифры, однакопереносимая информация в этом случае также искажается; ECC позволяет сразу жеисправлять обнаруженные ошибки, сохраняя переносимую информацию неизменной. Дляудобства и надежности передаваемую информацию разбивают на блоки (кадры),каждый из которых снабжается собственным набором этих кодов.         Каждый вид EDC/ECC имеет свой пределспособности обнаруживать и исправлять ошибки, за которым опять начинаютсянеобнаруженные ошибки и искажения переносимой информации. Увеличение объемаEDC/ECC относительно объема исходной информации в общем случае повышаетобнаруживающую и корректирующую способность этих кодов.         В качестве EDC популярен циклическийизбыточный код CRC (Cyclic Redundancy Check), суть которого состоит в сложномперемешивании исходной информации в блоке и формированию коротких двоичныхслов, разряды которых находятся в сильной перекрестной зависимости от каждогобита блока. Изменение даже одного бита в блоке вызывает значительное изменениевычисленного по нему CRC, и вероятность такого искажения битов, при котором CRCне изменится, исчезающе мала даже при коротких (единицы процентов от длиныблока) словах CRC. В качестве ECC используются коды Хэмминга (Hamming) иРида-Соломона (Reed-Solomon), которые также включают в себя и функции EDC.         Информационная избыточность несущегоцифрового сигнала приводит к значительному (на порядок и более) расширениюполосы частот, требуемой для его успешной передачи, по сравнению с передачейисходного сигнала в аналоговой форме. Кроме собственно информационнойизбыточности, к расширению полосы приводит необходимость сохранения достаточнокрутых фронтов цифровых импульсов.          Кроме целей помехозащиты, информацияв цифровом сигнале может быть подвергнута также линейному или канальномукодированию, задача которого — оптимизировать электрические параметры сигнала(полосу частот, постоянную составляющую, минимальное и максимальное количествонулевых/единичных импульсов в серии и т.п.) под характеристики реального каналапередачи или записи сигнала.          Полученный несущий сигнал, в своюочередь, также является обычным электрическим сигналом, и к нему применимылюбые операции с такими сигналами — передача по кабелю, усиление, фильтрование,модуляция, запись на магнитный, оптический или другой носитель и т.п.Единственным ограничением является сохранение информационного содержимого — так,чтобы при последующем анализе можно было однозначно выделить и декодироватьпереносимую информацию, а из нее — исходный сигнал.3.      Способы представления звука в цифровом виде.Исходная форма звукового сигнала- непрерывное изменение амплитуды во  времени- представляется в цифровой форме с помощью «перекрестной  дискретизации» — по времени и по уровню.         Согласно теореме Котельникова, любойнепрерывный процесс с ограниченным спектром может быть полностью описандискретной последовательностью его мгновенных значений, следующих с частотой,как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота Fdвыборки мгновенных значений (отсчетов) называется частотой дискретизации.          Из теоремы следует, что сигнал счастотой Fa может быть успешно дискретизирован по времени на частоте 2Fa тольков том случае, если он является чистой синусоидой, ибо любое отклонение отсинусоидальной формы приводит к выходу спектра за пределы частоты Fa. Такимобразом, для временной дискретизации произвольного звукового сигнала (обычноимеющего, как известно, плавно спадающий спектр), необходим либо выбор частотыдискретизации с запасом, либо принудительное ограничение спектра входногосигнала ниже половины частоты дискретизации.          Одновременно с временнойдискретизацией выполняется амплитудная — измерение мгновенных значенийамплитуды и их представление в виде числовых величин с определенной точностью.Точность измерения (двоичная разрядность N получаемого дискретного значения)определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретическиэто — взаимно-обратные величины, однако любой реальный тракт имеет также исобственный уровень шумов и помех).            Полученный поток чисел (серийдвоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовоймодуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульсдискретизованного по времени сигнала представляется собственным цифровым кодом.             Чаще всего применяют линейноеквантование, когда числовое значение отсчета пропорционально амплитуде сигнала.Из-за логарифмической природы слуха более целесообразным было былогарифмическое квантование, когда числовое значение пропорционально величинесигнала в децибелах, однако это сопряжено с трудностями чисто техническогохарактера.             Временная дискретизация иамплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения,уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C(дБ), где константа C варьируется для разных типов сигналов: для чистойсинусоиды это 1.7 дБ, для звуковых сигналов — от -15 до 2 дБ. Отсюда видно, чток снижению шумов в рабочей полосе частот 0..Fмакс приводит не только увеличениеразрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс,поскольку шумы квантования «размазываются» по всей полосе вплоть дочастоты дискретизации, а звуковая информация занимает только нижнюю часть этойполосы.           В большинстве современных цифровыхзвуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц,однако частотный диапазон сигнала обычно ограничивается возле 20 кГц дляоставления запаса по отношению к теоретическому пределу. Также наиболеераспространено 16-разрядное квантование по уровню, что дает предельное соотношениесигнал/шум около 98 дБ. В студийной аппаратуре используются более высокиеразрешения — 18-, 20- и 24-разрядное квантование при частотах дискретизации 56,96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звуковогосигнала, которые непосредственно не воспринимаются слухом, но влияют наформирование общей звуковой картины.           Для оцифровки более узкополосных именее качественных сигналов частота и разрядность дискретизации могутснижаться; например, в телефонных линиях применяется 7- или 8-разряднаяоцифровка с частотами 8..12 кГц.          Представление аналогового сигнала вцифровом виде называется также импульсно-кодовой модуляцией (ИКМ, PCM — PulseCode Modulation), так как сигнал представляется в виде серии импульсовпостоянной частоты (временнАя дискретизация), амплитуда которых передаетсяцифровым кодом (амплитудная дискретизация). PCM-поток может быть какпараллельным, когда все биты каждого отсчета передаются одновременно понескольким линиям с частотой дискретизации, так и последовательным, когда битыпередаются друг за другом с более высокой частотой по одной линии.           Сам цифровой звук и относящиеся кнему вещи принято обозначать общим термином Digital Audio; аналоговая ицифровая части звуковой системы обозначаются терминами Analog Domain и DigitalDomain.4.    MPEGLayer3.            Для эффективного кодирования  аудиоданных применяются наиболее прогрессивныеметоды, в основе которых лежит свойство их универсальности и независимости откачества исходного звукового фрагмента, равно как и результирующего, взависимости от установок, применяемых в ходе сжатия.В настоящее время наиболееизвестны mp3, wma и divx audio. Все они используют так называемое кодированиедля восприятия (perceptual coding), при котором из звукового сигнала удаляетсяинформация, малозаметная для слуха. В результате, несмотря на изменение формы,и спектра сигнала, его слуховое восприятие практически не меняется, а степеньсжатия оправдывает незначительное уменьшение качества. Такое кодирование относитсяк методам сжатия с потерями, когда из сжатого сигнала уже невозможно точно восстановитьисходную волновую форму.                                                                                   Приемы   удаления части информации базируются наособенностях человеческого слуха, называемой маскированием: при наличии вспектре звука выраженных пиков (преобладающих гармоник) более слабые частотныесоставляющие в непосредственной близости от них на слух практически невоспринимаются (маскируются). При кодировании весь звуковой поток разбиваетсяна мелкие кадры, каждый из которых преобразуется в спектральное представление иделится на ряд частотных полос.            Внутри полос происходит определениеи удаление маскируемых звуков, после чего каждый кадр подвергается адаптивномукодированию прямо в спектральной форме. Все эти операции позволяют значительно(в несколько раз) уменьшить объем данных при сохранении качества, приемлемогодля большинства слушателей. Каждый из описанных методов кодированияхарактеризуется скоростью битового потока, с которой сжатая информация должнапоступать в декодер при восстановлении звукового сигнала. Декодер преобразуетсерию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму. Влюбом видео или аудио потоке содержится значительное количество избыточнойинформации, которая независимо от ее присутствия или отсутствия не может бытьвоспринята человеческим ухом или глазом. Информация в MPEG-файле записанапоследовательными блоками — кадрами (frames), которые последовательносчитываются, а затем декодируются. Естественно, что чем больше поток, тембольшее количество информации остается в файле и соответственно тем большеепредставление об оригинальном звуке в нем содержится. Аудиоинформация, сжатая поданной схеме, может передаваться потоком (streaming), а может храниться вфайлах формата MP3 или WAV-MP3. Отличие второго от первого состоит в наличиидополнительного заголовка WAV-файла, что позволяет при наличии MP3-кодека всистеме для работы с таким файлом использовать стандартные средства Windows.          Основная идея, на которой основаны всеметодики сжатия аудио сигнала с потерями, — отказ от кодирования тонких деталейзвучания оригинала, лежащих вне пределов возможностей человеческогослуха.  Звуки, находящиеся на границах резких перепадов уровня: послеочень громкого звука на протяжении небольшого отрезка времени около 100 мс иперед ним на протяжении 5 мс, человеческое ухо неспособно воспринимать другие,более тихие звуки.            Говоря об этом, обычно имеют в видувозможности сознательного восприятия, игнорируя часто встречающийся эффект подпорогового восприятия различных мелких, сравнительно тихих деталей; с ихпомощью, например, нередко обеспечивается эмоциональная окраска композиции. Ноесли при кодировании все же ограничиваться только действительно невоспринимаемыми потерями, то можно говорить о сохранении исходного качествазакодированного аудио.            Как известно, наиболее важную роль впередаче звукового сигнала играют вершины огибающей, в то время как переходамивблизи нулевой отметки можно пожертвовать. После такой обработки звуковаявыборка без труда сжимается с помощью обычных алгоритмов кодирования LZ илиHuffman. Но полученная ширина потока не yдовлетвоpила разработчиков. Радидальнейшего уменьшения объема потока была разработана подробнаяпсихоакустическая модель возможностей человеческого слуха, и из потока сталаисключаться информация о деталях звука, полностью или частично маскируемыхболее сильным сигналом. В данную категорию из-за низкого уровня автоматическипопадает большая часть сознательно не воспринимаемого сигнала (в принципе, навысших потоках происходил аналогичный процесс, но в несравнимо меньшей степени,с сохранением практически всех существенных деталей). Кроме того, для сниженияуровня потерь на низких потоках применяются особые виды техники, главный изкоторых – режим кодирования объединенного стерео (joint stereo). Потери прикодировании в режиме joint stereo на низких потоках (и только на них) оказываютсянамного ниже, чем при кодировании в режиме нормального стерео, еслистереоэффект особого значения не имеет; но, к сожалению, оно же приводит кплачевным результатам в часто встречающихся случаях записей с фазовым сдвигом,созданным при записи намеренно или появившимся в процессе эксплуатации записи.            Суть кодирования в соответствии стехникой joint stereo состоит в пpеобpазовании всего стереосигнала в среднийсигнал между каналами и разность между ними. Но это только один вариант jointstereo, называемый MS Stereo. На особо низких потоках, таких как 96 Кбит/с,применяется техника MS/IS Stereo, в которой для некоторых частотных диапазоноввместо разницы между каналами хранится лишь информация о соотношении мощностейсигнала в разных каналах. Продукция FhG IIS так кодирует только высокиечастоты, но некоторые кодеры позволяют выбрать нужный диапазон вручную. К сожалению,выбор заключается в указании нужного значения одной из маловразумительныхвнутренних переменных формата, не разъясняемой в документации.               Окончательной версии вышеупоминаемой психоакустической модели пока не существует, как нет иопределенного стандартного алгоритма кодирования. В связи с этим в общем случаеобъем и степень ощутимости потерь определяются, с одной стороны, потоком, а сдругой — особенностями конкретной разновидности психоакустической модели,использованной в каждом конкретном кодере. Последний момент имеет особенно большоезначение на низких потоках. Существует набор эффектов, которые на таких потокахкрайне плохо поддаются кодированию.                И еще одна особенностьчеловеческого слуха  была учтена при разработке алгоритма компрессии —использование минимального порога слышимости. Наибольшей чувствительностью (2-4дБ) органы слуха обладают в среднем диапазоне частот порядка 2-5 кГц. На другихчастотах порогом чувствительности может стать значение громкости звука в 40 дБ.Иными словами, звуки, лежащие за порогом чувствительности, нет смысласохранять, поскольку они все равно не будут услышаны.                На основании подобных эффектовсоздается так называемая психоакустическая модель, разбивающая весь частотныйспектр на части, в которых уровень звука примерно одинаков, после чего удаляетзвуки, не воспринимаемые человеком, как это было описано выше. Существует три уровня  audioMPEG для сжатия стереофонических сигналов: ·                     коэффициентсжатия 1:4 при допустимом потоке данных 384 Кбит/с; ·                     1:6..1:8при 256..192 Кбит/с; ·                     1:10..1:12при 128..112 Кбит/с.            Теперь попробуем понять, каковаразница между уровнями (Layers). Например, в Layer 3 части разбитого спектранамного меньше, чем в первых двух, и по этой причине сжатие этим методомявляется наиболее продуктивным, а коэффициент  его достигает 1:12 беззаметной на слух потери качества. Поэтому столь широкое распространенное получилорасширение файлов MP3 (MPEG Layer 3).           Для получения звука с качеством CDнеобходимо компрессировать аудиофайлы с потоком 256 Кбит/с, но для большинстваслушателей и большинства применений вполне достаточно 128 Кбит/с (по 64 Кбит/сна канал). Однако среди великого множества кодеров MP3-файлов следует отметитьнемногие, позволяющие сжимать звуковой ряд с переменным потоком (variablebitrate), обеспечивая, таким образом, максимальное качество и экономя дисковоепространство. Основой таких кодеков является использование в каждый моментвремени определенного значения потока и, как следствие, изменяющейся во времениприроды звукового сигнала (частоты и амплитуды звуковых колебаний). Для сжатияречи с отличным качеством вполне достаточно 24  или 32 Кбит/с.                                                  Построение той самойпсихоакустической модели — сложный математический процесс, изобилующийвычислениями с плавающей запятой. Как следствие, подобный процесс, равно как ипроцесс сжатия, методом Хаффмана, требует солидной вычислительной мощности ипри декодировании файлов формата MPEG, и особенно — при кодировании.Первоначально для этой цели использовались специализированные устройства, выполнявшиевсе математические преобразования на аппаратном уровне, и лишь в последниегоды, после появления достаточно мощных процессоров, способных справляться сподобными вычислениями без особого ущерба для остальных приложений,  этостало возможным и с помощью специальных программ. 5.      Видеоинформация.5.1.   В начале был аналог.            Самым ранним методом передачивидеосигналов является аналоговый метод. Одним из первых видеоформатов наоснове этого принципа стал композитный видеосигнал. Композитное аналоговоевидео комбинирует все видеокомпоненты (яркость, цвет, синхронизацию и т. п.) водин сигнал. Из-за объединения этих элементов в одном сигнале качествокомпозитного видео далеко от совершенства. В результате мы имеем неточнуюпередачу цвета, недостаточно «чистую» картинку и другие факторыпотери качества.             Композитное видео быстро уступилодорогу компонентному видео, в котором различные видеокомпоненты представленыкак независимые сигналы. Дальнейшие усовершенствования этого формата привели кпоявлению различные его вариаций: S-Video, RGB, Y, Pb, Pr и др.             Тем не менее, всевышеперечисленные форматы остаются аналоговыми по своей сути, и, следовательно,обладают одним существенным недостатком: при копировании дубль всегда уступаетпо качеству оригиналу. Потеря качества при копировании видеоматериалааналогична фотокопированию, когда копия никогда не бывает такой же четкой ияркой, как оригинал. 5.2.   Цифровое видео.Недостатки,присущие аналоговому способу воспроизведения видео, в конце концов привели кразработке цифрового видеоформата. На смену аналоговому видео пришло цифровое.В области профессионального видео применяется несколько цифровых видеоформатов:D1, D2, Digital BetaCam и др. В отличие от аналогового видео, качество которогопадает при копировании, каждая копия цифрового видео идентична оригиналу.Хотя современныйвидеоряд базируется на цифровой основе, практически все цифровые видеоформатыдо сих пор в качестве носителя исходного сигнала используют пленку споследовательным доступом. Поэтому большинству профессионалов в области видеовсе еще привычней работать с пленкой, чем с компьютером.Конечно, пленка вкачестве источника данных все еще остается более предпочтительной, чем жесткийдиск компьютера, поскольку вмещает значительно больший объем данных. Но затодля цифрового видеомонтажа использование компьютеров дает ряд существенныхпреимуществ: не только обеспечивает прямой доступ к любому видеофрагменту (чтоневозможно при работе с пленкой, поскольку к необходимым участкам можнодобраться лишь последовательно просматривая видеоматериал), но и предполагаетширокие возможности обработки изображения (редактирование, сжатие).Это достаточновеские причины для перехода видеопроизводства с традиционного оборудования накомпьютерное. Компьютерноецифровое видео представляет собой последовательность цифровых изображений исвязанный с ними звук. Элементы видео хранятся в цифровом формате.              Существует множество способовзахвата, хранения и воспроизведения видео на компьютере. С появлениемкомпьютерного цифрового видео стихийно стали возникать самые разнообразныеформаты представления видеоданных, что поначалу привело к некоторой путанице ивызвало проблемы совместимости. Однако в последние годы благодаря усилиямМеждународной организации по стандартизации (ISO — International StandardsOrganisation)[1] выработаны единыестандарты на форматы видеоданных, которые мы позже рассмотрим. 5.3.    Основные характеристики цифрового видео.               Цифровое видео характеризуется четырьмяосновными факторами: частота кадра (Frame Rate), экранное разрешение (SpatialResolution), глубина цвета (Color Resolution) и качество изображения (ImageQuality).               Частотакадра (Frame Rate). Стандартная скорость воспроизведения видеосигнала — 30кадров/с (для кино этот показатель составляет 24 кадра/с). Каждый кадр состоитиз определенного количества строк, которые прорисовываются не последовательно,а через одну, в результате чего получается два полукадра, или так называемых«поля». Поэтому каждая секунда аналогового видеосигнала состоит из 60полей (полукадров). Такой процесс называется interlaced видео.               Между тем монитор компьютера дляпрорисовки экрана использует метод «прогрессивного сканирования»(progressive scan), при котором строки кадра формируются последовательно,сверху вниз, а полный кадр прорисовывается 30 раз каждую секунду. Разумеется,подобный метод получил название non-interlaced видео. В этом заключается основноеотличие между компьютерным и телевизионным методом формирования видеосигнала.               Глубинацвета (Color Resolution). Этот показатель является комплексным и определяетколичество цветов, одновременно отображаемых на экране. Компьютеры обрабатываютцвет в RGB-формате (красный-зеленый-синий), в то время как видео использует идругие методы. Одна из наиболее распространенных моделей цветности длявидеоформатов — YUV. Каждая из моделей RGB и YUV может быть представленаразными уровнями глубины цвета (максимального количества цветов).               Для цветовой модели RGB обычнохарактерны следующие режимы глубины цвета: 8 бит/пиксель (256 цветов), 16бит/пиксель (65,535 цветов) и 24 бит/пиксель (16,7 млн. цветов). Для модели YUVприменяются режимы: 7 бит/пиксель (4:1:1 или 4:2:2, примерно 2 млн. цветов), и8 бит/пиксель (4:4:4, примерно 16 млн. цветов).                Экранноеразрешение (Spatial Resolution). Еще одна характеристика — экранноеразрешение, или, другими словами, количество точек, из которых состоитизображение на экране. Так как мониторы PC и Macintosh обычно рассчитаны набазовое разрешение в 640 на 480 точек (пикселей), многие считают, что такойформат является стандартным. К сожалению, это не так. Прямой связи междуразрешением аналогового видео и компьютерного дисплея нет.Стандартный аналоговый видеосигналдает полноэкранное изображение без ограничений размера, так часто присущихкомпьютерному видео. Телевизионный стандарт NTSC (National Television StandardsCommitte), разработан Национальным комитетом по телевизионным стандартам США.Используемый в Северной Америке и Японии, он предусматривает разрешение 768 на484. Стандарт PAL (Phase Alternative), распространенный в Европе, имеетнесколько большее разрешение — 768 на 576 точек.                Поскольку разрешение аналогового и компьютерного видео различается, припреобразовании аналогового видео в цифровой формат приходится иногдамасштабировать и уменьшать изображение, что приводит к некоторой потерекачества.Качествоизображения (Image Quality). Последняя, и наиболее важная характеристика — это качество видеоизображения. Требования к качеству зависят от конкретнойзадачи. Иногда достаточно, чтобы картинка была размером в четверть экрана спалитрой из 256-ти цветов (8 бит), при скорости воспроизведения 15 кадров/с. Вдругих случаях требуется полноэкранное видео (768 на 576) с палитрой в 16,7млн. цветов (24 бит) и полной кадровой разверткой (24 или 30 кадров/с).6.   Сжатиевидеоинформации.Следует исходитьиз разумной достаточности при определении необходимой степени сжатия. При этомнеобходимо учитывать, как четыре характеристики (частота кадра, экранноеразрешение, глубина цвета и качество изображения) влияют на объем и качествовидео. Вы

2dip.su

Реферат Аналоговая и цифровая аудио и видеоинформация

АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Факультет математики и информационных технологий

Кафедра Информационные системы

Курс: "Введение в специальность

РЕФЕРАТ

на тему: «Аналоговая и цифровая аудио и видеоинформация".

Выполнил:

студент гр. ИМ-11

Юдин М.А.

Проверила:

Чернышова Н.А.

г. Астрахань 2006

Содержание.

1. Введение. 3

2. Отличия цифрового представления сигналов от аналогового. 3

3. Способы представления звука в цифровом виде. 4

4.MPEG Layer 3. 5

5. Видеоинформация. 7

5.1. В начале был аналог. 7

5.2. Цифровое видео. 7

5.3. Основные характеристики цифрового видео. 8

6. Сжатие видеоинформации. 9

6.1. Основные принципы сжатия видеоданных. 9

6.2. Методы сжатия видеоданных. 10

7.Основы MPEG-кодирования видео. 11

7.1. Стандарт компрессии видеоданных MPEG-2. 11

7.2.MPEG-4. Что это такое? 11

8. Преимущества цифровой передачи видеоданных. 12

9. Заключение. 12

10. Список использованной литературы. 13

1. Введение.

Появление систем мультимедиа, безусловно, произвело революционные изменения в таких областях, как образование, компьютерный тренинг, во многих сферах профессиональной деятельности, науки, искусства, в компьютерных играх и т.д. Но, согласитесь, невозможно представить себе современные мультимедиа системы без звука и видео. В данной работе я хотел бы остановиться на рассмотрении принципиальных отличий представления цифровых сигналов от аналоговых, особенностях цифровой аудио и видеоинформации, алгоритмах их сжатия (компрессии).

2. Отличия цифрового представления сигналов от аналогового.

Традиционное аналоговое представление сигналов основано на подобии (аналогичности) электрических сигналов (изменений тока и напряжения) представленным ими исходным сигналам (звуковому давлению, температуре, скорости и т.п.), а также подобии форм электрических сигналов в различных точках усилительного или передающего тракта. Форма электрической кривой, описывающей (также говорят - переносящей) исходный сигнал, максимально приближена к форме кривой этого сигнала.

Такое представление наиболее точно, однако малейшее искажение формы несущего электрического сигнала неизбежно повлечет за собой такое же искажение формы и сигнала переносимого. В терминах теории информации, количество информации в несущем сигнале в точности равно количеству информации в сигнале исходном, и электрическое представление не содержит избыточности, которая могла бы защитить переносимый сигнал от искажений при хранении, передаче и усилении.

Цифровое представление электрических сигналов призвано внести в них избыточность, предохраняющую от воздействия паразитных помех. Для этого на несущий электрический сигнал накладываются серьезные ограничения - его амплитуда может принимать только два предельных значения - 0 и 1.

Вся зона возможных амплитуд в этом случае делится на три зоны: нижняя представляет нулевые значения, верхняя - единичные, а промежуточная является запрещенной - внутрь нее могут попадать только помехи. Таким образом, любая помеха, амплитуда которой меньше половины амплитуды несущего сигнала, не оказывает влияния на правильность передачи значений 0 и 1. Помехи с большей амплитудой также не оказывают влияния, если длительность импульса помехи ощутимо меньше длительности информационного импульса, а на входе приемника установлен фильтр импульсных помех.

Сформированный таким образом цифровой сигнал может переносить любую полезную информацию, которая закодирована в виде последовательности битов - нулей и единиц; частным случаем такой информации являются электрические и звуковые сигналы. Здесь количество информации в несущем цифровом сигнале значительно больше, нежели в кодированном исходном, так что несущий сигнал имеет определенную избыточность относительно исходного, и любые искажения формы кривой несущего сигнала, при которых еще сохраняется способность приемника правильно различать нули и единицы, не влияют на достоверность передаваемой этим сигналом информации. Однако в случае воздействия значительных помех форма сигнала может искажаться настолько, что точная передача переносимой информации становится невозможной - в ней появляются ошибки, которые при простом способе кодирования приемник не сможет не только исправить, но и обнаружить. Для еще большего повышения стойкости цифрового сигнала к помехам и искажениям применяется цифровое избыточное кодирование двух типов: проверочные (EDC - Error Detection Code, обнаруживающий ошибку код) и корректирующие (ECC - Error Correction Code, исправляющий ошибку код) коды. Цифровое кодирование состоит в простом добавлении к исходной информации дополнительных битов и/или преобразовании исходной битовой цепочки в цепочку большей длины и другой структуры. EDC позволяет просто обнаружить факт ошибки - искажение или выпадение полезной либо появление ложной цифры, однако переносимая информация в этом случае также искажается; ECC позволяет сразу же исправлять обнаруженные ошибки, сохраняя переносимую информацию неизменной. Для удобства и надежности передаваемую информацию разбивают на блоки (кадры), каждый из которых снабжается собственным набором этих кодов.

Каждый вид EDC/ECC имеет свой предел способности обнаруживать и исправлять ошибки, за которым опять начинаются необнаруженные ошибки и искажения переносимой информации. Увеличение объема EDC/ECC относительно объема исходной информации в общем случае повышает обнаруживающую и корректирующую способность этих кодов.

В качестве EDC популярен циклический избыточный код CRC (Cyclic Redundancy Check), суть которого состоит в сложном перемешивании исходной информации в блоке и формированию коротких двоичных слов, разряды которых находятся в сильной перекрестной зависимости от каждого бита блока. Изменение даже одного бита в блоке вызывает значительное изменение вычисленного по нему CRC, и вероятность такого искажения битов, при котором CRC не изменится, исчезающе мала даже при коротких (единицы процентов от длины блока) словах CRC. В качестве ECC используются коды Хэмминга (Hamming) и Рида-Соломона (Reed-Solomon), которые также включают в себя и функции EDC.

Информационная избыточность несущего цифрового сигнала приводит к значительному (на порядок и более) расширению полосы частот, требуемой для его успешной передачи, по сравнению с передачей исходного сигнала в аналоговой форме. Кроме собственно информационной избыточности, к расширению полосы приводит необходимость сохранения достаточно крутых фронтов цифровых импульсов.

Кроме целей помехозащиты, информация в цифровом сигнале может быть подвергнута также линейному или канальному кодированию, задача которого - оптимизировать электрические параметры сигнала (полосу частот, постоянную составляющую, минимальное и максимальное количество нулевых/единичных импульсов в серии и т.п.) под характеристики реального канала передачи или записи сигнала.

Полученный несущий сигнал, в свою очередь, также является обычным электрическим сигналом, и к нему применимы любые операции с такими сигналами - передача по кабелю, усиление, фильтрование, модуляция, запись на магнитный, оптический или другой носитель и т.п. Единственным ограничением является сохранение информационного содержимого - так, чтобы при последующем анализе можно было однозначно выделить и декодировать переносимую информацию, а из нее - исходный сигнал.

  1. Способы представления звука в цифровом виде.

Исходная форма звукового сигнала - непрерывное изменение амплитуды во времени - представляется в цифровой форме с помощью "перекрестной дискретизации" - по времени и по уровню.

Согласно теореме Котельникова, любой непрерывный процесс с ограниченным спектром может быть полностью описан дискретной последовательностью его мгновенных значений, следующих с частотой, как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота Fd выборки мгновенных значений (отсчетов) называется частотой дискретизации.

Из теоремы следует, что сигнал с частотой Fa может быть успешно дискретизирован по времени на частоте 2Fa только в том случае, если он является чистой синусоидой, ибо любое отклонение от синусоидальной формы приводит к выходу спектра за пределы частоты Fa. Таким образом, для временной дискретизации произвольного звукового сигнала (обычно имеющего, как известно, плавно спадающий спектр), необходим либо выбор частоты дискретизации с запасом, либо принудительное ограничение спектра входного сигнала ниже половины частоты дискретизации.

Одновременно с временной дискретизацией выполняется амплитудная - измерение мгновенных значений амплитуды и их представление в виде числовых величин с определенной точностью. Точность измерения (двоичная разрядность N получаемого дискретного значения) определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретически это - взаимно-обратные величины, однако любой реальный тракт имеет также и собственный уровень шумов и помех).

Полученный поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.

Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.

Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения, уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), где константа C варьируется для разных типов сигналов: для чистой синусоиды это 1.7 дБ, для звуковых сигналов - от -15 до 2 дБ. Отсюда видно, что к снижению шумов в рабочей полосе частот 0..Fмакс приводит не только увеличение разрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс, поскольку шумы квантования "размазываются" по всей полосе вплоть до частоты дискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20- и 24-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются слухом, но влияют на формирование общей звуковой картины.

Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться; например, в телефонных линиях применяется 7- или 8-разрядная оцифровка с частотами 8..12 кГц.

Представление аналогового сигнала в цифровом виде называется также импульсно-кодовой модуляцией (ИКМ, PCM - Pulse Code Modulation), так как сигнал представляется в виде серии импульсов постоянной частоты (временнАя дискретизация), амплитуда которых передается цифровым кодом (амплитудная дискретизация). PCM-поток может быть как параллельным, когда все биты каждого отсчета передаются одновременно по нескольким линиям с частотой дискретизации, так и последовательным, когда биты передаются друг за другом с более высокой частотой по одной линии.

Сам цифровой звук и относящиеся к нему вещи принято обозначать общим термином Digital Audio; аналоговая и цифровая части звуковой системы обозначаются терминами Analog Domain и Digital Domain.

  1. MPEG Layer 3.

Для эффективного кодирования аудиоданных применяются наиболее прогрессивные методы, в основе которых лежит свойство их универсальности и независимости от качества исходного звукового фрагмента, равно как и результирующего, в зависимости от установок, применяемых в ходе сжатия.В настоящее время наиболее известны mp3, wma и divx audio . Все они используют так называемое кодирование для восприятия (perceptual coding), при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы, и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями, когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.

Приемы удаления части информации базируются на особенностях человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них на слух практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос.

Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей. Каждый из описанных методов кодирования характеризуется скоростью битового потока, с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму. В любом видео или аудио потоке содержится значительное количество избыточной информации, которая независимо от ее присутствия или отсутствия не может быть воспринята человеческим ухом или глазом. Информация в MPEG-файле записана последовательными блоками — кадрами (frames), которые последовательно считываются, а затем декодируются. Естественно, что чем больше поток, тем большее количество информации остается в файле и соответственно тем большее представление об оригинальном звуке в нем содержится. Аудиоинформация, сжатая по данной схеме, может передаваться потоком (streaming), а может храниться в файлах формата MP3 или WAV-MP3. Отличие второго от первого состоит в наличии дополнительного заголовка WAV-файла, что позволяет при наличии MP3-кодека в системе для работы с таким файлом использовать стандартные средства Windows.

Основная идея, на которой основаны все методики сжатия аудио сигнала с потерями, — отказ от кодирования тонких деталей звучания оригинала, лежащих вне пределов возможностей человеческого слуха.  Звуки, находящиеся на границах резких перепадов уровня: после очень громкого звука на протяжении небольшого отрезка времени около 100 мс и перед ним на протяжении 5 мс, человеческое ухо неспособно воспринимать другие, более тихие звуки.

Говоря об этом, обычно имеют в виду возможности сознательного восприятия, игнорируя часто встречающийся эффект под порогового восприятия различных мелких, сравнительно тихих деталей; с их помощью, например, нередко обеспечивается эмоциональная окраска композиции. Но если при кодировании все же ограничиваться только действительно не воспринимаемыми потерями, то можно говорить о сохранении исходного качества закодированного аудио.

Как известно, наиболее важную роль в передаче звукового сигнала играют вершины огибающей, в то время как переходами вблизи нулевой отметки можно пожертвовать. После такой обработки звуковая выборка без труда сжимается с помощью обычных алгоритмов кодирования LZ или Huffman. Но полученная ширина потока не yдовлетвоpила разработчиков. Ради дальнейшего уменьшения объема потока была разработана подробная психоакустическая модель возможностей человеческого слуха, и из потока стала исключаться информация о деталях звука, полностью или частично маскируемых более сильным сигналом. В данную категорию из-за низкого уровня автоматически попадает большая часть сознательно не воспринимаемого сигнала (в принципе, на высших потоках происходил аналогичный процесс, но в несравнимо меньшей степени, с сохранением практически всех существенных деталей). Кроме того, для снижения уровня потерь на низких потоках применяются особые виды техники, главный из которых – режим кодирования объединенного стерео (joint stereo). Потери при кодировании в режиме joint stereo на низких потоках (и только на них) оказываются намного ниже, чем при кодировании в режиме нормального стерео, если стереоэффект особого значения не имеет; но, к сожалению, оно же приводит к плачевным результатам в часто встречающихся случаях записей с фазовым сдвигом, созданным при записи намеренно или появившимся в процессе эксплуатации записи.

Суть кодирования в соответствии с техникой joint stereo состоит в пpеобpазовании всего стереосигнала в средний сигнал между каналами и разность между ними. Но это только один вариант joint stereo, называемый MS Stereo. На особо низких потоках, таких как 96 Кбит/с, применяется техника MS/IS Stereo, в которой для некоторых частотных диапазонов вместо разницы между каналами хранится лишь информация о соотношении мощностей сигнала в разных каналах. Продукция FhG IIS так кодирует только высокие частоты, но некоторые кодеры позволяют выбрать нужный диапазон вручную. К сожалению, выбор заключается в указании нужного значения одной из маловразумительных внутренних переменных формата, не разъясняемой в документации.

Окончательной версии выше упоминаемой психоакустической модели пока не существует, как нет и определенного стандартного алгоритма кодирования. В связи с этим в общем случае объем и степень ощутимости потерь определяются, с одной стороны, потоком, а с другой — особенностями конкретной разновидности психоакустической модели, использованной в каждом конкретном кодере. Последний момент имеет особенно большое значение на низких потоках. Существует набор эффектов, которые на таких потоках крайне плохо поддаются кодированию.

И еще одна особенность человеческого слуха  была учтена при разработке алгоритма компрессии — использование минимального порога слышимости. Наибольшей чувствительностью (2-4 дБ) органы слуха обладают в среднем диапазоне частот порядка 2-5 кГц. На других частотах порогом чувствительности может стать значение громкости звука в 40 дБ. Иными словами, звуки, лежащие за порогом чувствительности, нет смысла сохранять, поскольку они все равно не будут услышаны.

На основании подобных эффектов создается так называемая психоакустическая модель, разбивающая весь частотный спектр на части, в которых уровень звука примерно одинаков, после чего удаляет звуки, не воспринимаемые человеком, как это было описано выше.

Существует три уровня  audio MPEG для сжатия стереофонических сигналов:

  • коэффициент сжатия 1:4 при допустимом потоке данных 384 Кбит/с;

  • 1:6..1:8 при 256..192 Кбит/с;

  • 1:10..1:12 при 128..112 Кбит/с.

Теперь попробуем понять, какова разница между уровнями (Layers). Например, в Layer 3 части разбитого спектра намного меньше, чем в первых двух, и по этой причине сжатие этим методом является наиболее продуктивным, а коэффициент  его достигает 1:12 без заметной на слух потери качества. Поэтому столь широкое распространенное получило расширение файлов MP3 (MPEG Layer 3).

Для получения звука с качеством CD необходимо компрессировать аудиофайлы с потоком 256 Кбит/с, но для большинства слушателей и большинства применений вполне достаточно 128 Кбит/с (по 64 Кбит/с на канал). Однако среди великого множества кодеров MP3-файлов следует отметить немногие, позволяющие сжимать звуковой ряд с переменным потоком (variable bitrate), обеспечивая, таким образом, максимальное качество и экономя дисковое пространство. Основой таких кодеков является использование в каждый момент времени определенного значения потока и, как следствие, изменяющейся во времени природы звукового сигнала (частоты и амплитуды звуковых колебаний). Для сжатия речи с отличным качеством вполне достаточно 24  или 32 Кбит/с.

Построение той самой психоакустической модели — сложный математический процесс, изобилующий вычислениями с плавающей запятой. Как следствие, подобный процесс, равно как и процесс сжатия, методом Хаффмана, требует солидной вычислительной мощности и при декодировании файлов формата MPEG, и особенно — при кодировании. Первоначально для этой цели использовались специализированные устройства, выполнявшие все математические преобразования на аппаратном уровне, и лишь в последние годы, после появления достаточно мощных процессоров, способных справляться с подобными вычислениями без особого ущерба для остальных приложений,  это стало возможным и с помощью специальных программ.

5. Видеоинформация.

5.1. В начале был аналог.

Самым ранним методом передачи видеосигналов является аналоговый метод. Одним из первых видеоформатов на основе этого принципа стал композитный видеосигнал. Композитное аналоговое видео комбинирует все видеокомпоненты (яркость, цвет, синхронизацию и т. п.) в один сигнал. Из-за объединения этих элементов в одном сигнале качество композитного видео далеко от совершенства. В результате мы имеем неточную передачу цвета, недостаточно "чистую" картинку и другие факторы потери качества.

Композитное видео быстро уступило дорогу компонентному видео, в котором различные видеокомпоненты представлены как независимые сигналы. Дальнейшие усовершенствования этого формата привели к появлению различные его вариаций: S-Video, RGB, Y, Pb, Pr и др.

Тем не менее, все вышеперечисленные форматы остаются аналоговыми по своей сути, и, следовательно, обладают одним существенным недостатком: при копировании дубль всегда уступает по качеству оригиналу. Потеря качества при копировании видеоматериала аналогична фотокопированию, когда копия никогда не бывает такой же четкой и яркой, как оригинал.

5.2. Цифровое видео.

Недостатки, присущие аналоговому способу воспроизведения видео, в конце концов привели к разработке цифрового видеоформата. На смену аналоговому видео пришло цифровое. В области профессионального видео применяется несколько цифровых видеоформатов: D1, D2, Digital BetaCam и др. В отличие от аналогового видео, качество которого падает при копировании, каждая копия цифрового видео идентична оригиналу.

Хотя современный видеоряд базируется на цифровой основе, практически все цифровые видеоформаты до сих пор в качестве носителя исходного сигнала используют пленку с последовательным доступом. Поэтому большинству профессионалов в области видео все еще привычней работать с пленкой, чем с компьютером.

Конечно, пленка в качестве источника данных все еще остается более предпочтительной, чем жесткий диск компьютера, поскольку вмещает значительно больший объем данных. Но зато для цифрового видеомонтажа использование компьютеров дает ряд существенных преимуществ: не только обеспечивает прямой доступ к любому видеофрагменту (что невозможно при работе с пленкой, поскольку к необходимым участкам можно добраться лишь последовательно просматривая видеоматериал), но и предполагает широкие возможности обработки изображения (редактирование, сжатие).

Это достаточно веские причины для перехода видеопроизводства с традиционного оборудования на компьютерное.

Компьютерное цифровое видео представляет собой последовательность цифровых изображений и связанный с ними звук. Элементы видео хранятся в цифровом формате.

Существует множество способов захвата, хранения и воспроизведения видео на компьютере. С появлением компьютерного цифрового видео стихийно стали возникать самые разнообразные форматы представления видеоданных, что поначалу привело к некоторой путанице и вызвало проблемы совместимости. Однако в последние годы благодаря усилиям Международной организации по стандартизации (ISO -- International Standards Organisation)1 выработаны единые стандарты на форматы видеоданных, которые мы позже рассмотрим.

5.3. Основные характеристики цифрового видео.

Цифровое видео характеризуется четырьмя основными факторами: частота кадра (Frame Rate), экранное разрешение (Spatial Resolution), глубина цвета (Color Resolution) и качество изображения (Image Quality).

Частота кадра (Frame Rate). Стандартная скорость воспроизведения видеосигнала -- 30 кадров/с (для кино этот показатель составляет 24 кадра/с). Каждый кадр состоит из определенного количества строк, которые прорисовываются не последовательно, а через одну, в результате чего получается два полукадра, или так называемых "поля". Поэтому каждая секунда аналогового видеосигнала состоит из 60 полей (полукадров). Такой процесс называется interlaced видео.

Между тем монитор компьютера для прорисовки экрана использует метод "прогрессивного сканирования" (progressive scan), при котором строки кадра формируются последовательно, сверху вниз, а полный кадр прорисовывается 30 раз каждую секунду. Разумеется, подобный метод получил название non-interlaced видео. В этом заключается основное отличие между компьютерным и телевизионным методом формирования видеосигнала.

Глубина цвета (Color Resolution). Этот показатель является комплексным и определяет количество цветов, одновременно отображаемых на экране. Компьютеры обрабатывают цвет в RGB-формате (красный-зеленый-синий), в то время как видео использует и другие методы. Одна из наиболее распространенных моделей цветности для видеоформатов -- YUV. Каждая из моделей RGB и YUV может быть представлена разными уровнями глубины цвета (максимального количества цветов).

Для цветовой модели RGB обычно характерны следующие режимы глубины цвета: 8 бит/пиксель (256 цветов), 16 бит/пиксель (65,535 цветов) и 24 бит/пиксель (16,7 млн. цветов). Для модели YUV применяются режимы: 7 бит/пиксель (4:1:1 или 4:2:2, примерно 2 млн. цветов), и 8 бит/пиксель (4:4:4, примерно 16 млн. цветов).

Экранное разрешение (Spatial Resolution). Еще одна характеристика - экранное разрешение, или, другими словами, количество точек, из которых состоит изображение на экране. Так как мониторы PC и Macintosh обычно рассчитаны на базовое разрешение в 640 на 480 точек (пикселей), многие считают, что такой формат является стандартным. К сожалению, это не так. Прямой связи между разрешением аналогового видео и компьютерного дисплея нет.

Стандартный аналоговый видеосигнал дает полноэкранное изображение без ограничений размера, так часто присущих компьютерному видео. Телевизионный стандарт NTSC (National Television Standards Committe), разработан Национальным комитетом по телевизионным стандартам США. Используемый в Северной Америке и Японии, он предусматривает разрешение 768 на 484. Стандарт PAL (Phase Alternative), распространенный в Европе, имеет несколько большее разрешение -- 768 на 576 точек.

Поскольку разрешение аналогового и компьютерного видео различается, при преобразовании аналогового видео в цифровой формат приходится иногда масштабировать и уменьшать изображение, что приводит к некоторой потере качества.

Качество изображения (Image Quality). Последняя, и наиболее важная характеристика - это качество видеоизображения. Требования к качеству зависят от конкретной задачи. Иногда достаточно, чтобы картинка была размером в четверть экрана с палитрой из 256-ти цветов (8 бит), при скорости воспроизведения 15 кадров/с. В других случаях требуется полноэкранное видео (768 на 576) с палитрой в 16,7 млн. цветов (24 бит) и полной кадровой разверткой (24 или 30 кадров/с).

6. Сжатие видеоинформации.

Следует исходить из разумной достаточности при определении необходимой степени сжатия. При этом необходимо учитывать, как четыре характеристики (частота кадра, экранное разрешение, глубина цвета и качество изображения) влияют на объем и качество видео. Вы должны ясно себе представлять, какую "цену" придется заплатить за качественное изображение. Чем больше глубина цвета, выше разрешение и лучше качество, тем большая производительность компьютера вам потребуется, не говоря уж о громадных объемах дискового пространства, необходимого под цифровое видео. Учитывая эти характеристики, можно выбрать оптимальный коэффициент сжатия. Надо отметить, что в профессиональном видео действует простое правило - чем ниже коэффициент сжатия, тем лучше.

Простейшие расчеты показывают, что 24-битное цветное видео, при разрешении 640 на 480 и частоте 30 кадров/с потребует передачи 26 Мбайт данных в секунду! Этот поток не только выходит за рамки пропускной способности компьютерной шины, но и моментально "съест" любое дисковое пространство. Для наглядности приводим здесь наши расчеты.

6.1. Основные принципы сжатия видеоданных.

Очевидно, что сжатие видео нужно для уменьшения объема цифровых видео файлов, предназначенных для хранения, при этом желательно максимально сохранить качество оригинала. Различают сжатие обычное в режиме реального времени, симметричное или асимметричное, с потерей качества или без потери, сжатие видеопотока или покадровое сжатие.

Сжатие обычное (в режиме реального времени). Термин real-time (реальное время) имеет много толкований. Применительно к сжатию данных используется его прямое значение, т. е. работа в реальном времени. Многие системы оцифровывают видео и одновременно сжимают его, иногда параллельно совершая и обратный процесс декомпрессии и воспроизведения. Для качественного выполнения этих операций требуются очень мощные специальные процессоры, поэтому большинство плат ввода/вывода видео для PC бытового класса не способны оперировать с полнометражным видео и часто пропускают кадры.

Недостаточная частота кадров является одной из основных проблем для видео на PC. При производительности ниже 24 кадров/с видео перестает быть плавным, что нарушает комфортность восприятия. К тому же, пропущенные кадры могут содержать необходимые данные по синхронизации звука и изображения.

Симметричное или асимметричное сжатие. Этот показатель связан с соотношением способов сжатия и декомпрессии видео. Симметричное сжатие предполагает возможность проиграть видеофрагмент с разрешением 640 на 480 при скорости в 30 кадров/с, если оцифровка и запись его выполнялась с теми же параметрами. Асимметричное сжатие - это процесс обработки одной секунды видео за значительно большее время. Степень асимметричности сжатия обычно задается в виде отношения. Так цифры 150:1 означают, что сжатие одной минуты видео занимает примерно 150 минут реального времени.

Асимметричное сжатие обычно более удобно и эффективно для достижения качественного видео и оптимизации скорости его воспроизведения. К сожалению, при этом кодирование полнометражного ролика может занять слишком много времени, вот почему подобный процесс выполняют специализированные компании, куда отсылают исходный материал на кодирование (что увеличивает материальные и временные расходы на проект).

Сжатие с потерей или без потери качества. Как мы уже говорили, чем выше коэффициент сжатия, тем больше страдает качество видео. ВСЕ методы сжатия приводят к некоторой потере качества. Даже если это не заметно на глаз, всегда есть разница между исходным и сжатым материалом. Пока существует всего один алгоритм (разновидность Motion-JPEG для формата Kodak Photo CD), который выполняет сжатие без потерь, однако он оптимизирован только для фотоизображений и работает с коэффициентом 2:1.

Сжатие видеопотока или покадровое сжатие. Это, возможно, наиболее обсуждаемая проблема цифрового видео. Покадровый метод подразумевает сжатие и хранение каждого видеокадра как отдельного изображения. Сжатие видеопотока основано на следующей идее: не смотря на то, что изображение все время претерпевает изменения, задний план в большинстве видеосцен остается постоянным - отличный повод для соответствующей обработки и сжатия изображения. Создается исходный кадр, а каждый следующий сравнивается с предыдущим и последующим изображениями, а фиксируется лишь разница между ними. Этот метод позволяет существенно повысить коэффициент сжатия, практически сохранив при этом исходное качество. Однако в этом случае могут возникнуть трудности с покадровым монтажом видеоматериала, закодированного подобным образом.

Коэффициент сжатия. Этот показатель особенно важен для профессионалов, работающих с цифровым видео на компьютерах. Его ни в коем случае нельзя путать с коэффициентом асимметричности сжатия. Коэффициент сжатия - это цифровое выражение соотношения между объемом сжатого и исходного видеоматериала. Для примера, коэффициент 200:1 означает, что если принять объем полученного после компрессии ролика за единицу, то исходный оригинал занимал объем в 200 раз больший.

Обычно, чем выше коэффициент сжатия, тем хуже качество видео. Но многое, конечно, зависит от используемого алгоритма. Для MPEG сейчас стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные варианты Motion- JPEG работают с коэффициентами от 5:1 до 100:1, хотя даже при уровне в 20:1 уже трудно добиться нормального качества изображения. Кроме того, качество видео зависит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации компьютера и даже от программного обеспечения (к этим вопросам мы вернемся чуть позже в сравнительном обзоре видеоплат).

6.2. Методы сжатия видеоданных.

Как выбрать метод сжатия? Методы сжатия данных используют математические алгоритмы для устранения, группировки и/или усреднения схожих данных, присутствующих в видеосигнале. Выбор конкретного алгоритма зависит от вашей конечной цели. Существует большое разнообразие алгоритмов сжатия, включая PLV, Compact Video, Indeo, RTV и AVC, но только Motion JPEG (Joint Photographic Experts Group), MPEG-1 и MPEG-2 признаны международными стандартами для сжатия видео.

Практически все рассматриваемые ниже видеоплаты построены на основе одного из двух методов компрессии: Motion-JPEG или MPEG. Нелегко судить о преимуществе одного формата над другим, тем более что области применения этих форматов несколько различаются, так как технология MPEG кодирования и монтажа до последнего времени была более дорогостоящей и сложной. Большую роль сыграло и анонсирование спецификаций формата MPEG-2, который ляжет в основу новых видеотехнологий не только на компьютерах, но и применительно к телевидению и кино. Судя по всему, этот формат в совокупности с новыми CD-дисками высокой плотности (DVD) основательно изменит привычный видеорынок. Без сжатия очень трудно обеспечить непрерывную передачу видео со скоростью 21 Мбайт/с (требования CCIR 6012 - признанного в мире стандарта цифрового телевидения), а объемы и стоимость хранения несжатых видеоданных на дисках фактически делает невозможным применение PC для чернового монтажа. Качество сжатия варьирует в довольно широких пределах; обычными для современных видеосистем являются коэффициенты сжатия от 1:4 до 1:100. Для цифрового оборудования, которое используется при нелинейном монтаже видео с вещательным (1:4 и менее) качеством влияние сжатия может быть особенно заметным. На сегодняшний день наибольшее распространение получили два стандарта сжатия: Motion-JPEG и MPEG. Сейчас разрабатываются новые методы сжатия изображения и видеопотока, но какие бы совершенные алгоритмы при этом ни применялись, неизменным остается одно: чем выше коэффициент сжатия - тем хуже качество. Методы сжатия сводятся к анализу изображения, на основании которого делаются предположения обо всем изображении в целом, что изначально допускает возможность погрешности. Применение подобных интегральных оценок к разным картинкам при сжатии дает разные результаты. И даже если сжатие позволяет достичь прекрасных результатов на картинке с плавными переходами и небольшими шумами, то обработка резкого и зашумленного изображения может привести к худшим результатам.

  1. Основы MPEG-кодирования видео.

Основа кодирования у группы алгоритмов MPEG общая. Основные идеи, применяемые в ходе сжатия видеоданных с ее помощью, следующие:

Устранение пространственной избыточности изображений путем подавления мелких деталей сцены, несущественных для визуального восприятия человеком.

Использование более низкого цветового разрешения при yuv-предеставлении изображений (y — яркость, u и v — цветоразностные сигналы) — установлено, что глаз менее чувствителен к пространственным изменениям оттенков цвета по сравнению с изменениями яркости.

Повышение информационной плотности результирующего цифрового потока путем выбора оптимального математического кода для его описания (например, использование более коротких кодовых слов для наиболее часто повторяемых значений).

Кроме того, основная идея заключается в разделении кадров на опорные (I — intra), а также так называемые предсказанные (то есть строящиеся на основе опорных) — как однонаправленные (P – predicted), так и двунаправлено предсказываемые (B – bi-directionally predicted) кадры (под направлением здесь следует понимать временную последовательность представления кадров видео).

7.1. Стандарт компрессии видеоданных MPEG-2.

Стандарт MPEG-2 был специально разработан для кодирования ТВ сигналов вещательного телевидения. Он позволяет получить полную четкость декодированного ТВ изображения, соответствующую Рекомендации 601 МККР. (При скорости передачи видеоданных 9 Мбит/с качество ТВ изображения соответствует студийному).

С принятием стандарта MPEG-2 работы по компрессии видеоданных перешли в область практической реализации. На данный момент можно назвать, по крайней мере, десяток фирм, которые выпускают для продажи кодеры и декодеры по стандарту MPEG-2. Наиболееизвестныизних Philips, Panasonic, Page Micro Technology, CLJ Communi-cation, Wegener Communications, Scientific-Atlanta, NTL, Segem Group идр. В октябре 1995 г. через спутник Pan Am Sat начато 20-канальноеТВ вещание по стандарту MPEG-2, осуществляемое на территории Скандинавии, Бельгии, Нидерландов, Люксембурга, Ближнего Востока и Африки. В этой сети будет использовано более миллиона декодеров MPEG-2.

    1. MPEG-4. Что это такое?

Основы разработки стандарта MPEG-4 заложены группой ученых из MPEG еще в 1993 году, и уже к концу 1998 года произошло утверждение первого стандарта. Впоследствии стандарт неоднократно дорабатывался, в 1999 году получил официальный статус и затем был стандартизован со стороны ISO/IEC.

Целью создания MPEG-4 была выработка стандарта кодирования, который обеспечил бы разработчиков универсальным средством сжатия видеоданных, позволяющим обрабатывать аудио- и видеоданные как естественного (снятого с помощью видеокамеры или записанного с помощью микрофона), так и искусственного (синтезированного или сгенерированного на компьютере) происхождения.  Это обстоятельство кардинальным образом отличает MPEG-4 как видеостандартов предшественников MPEG-1 и MPEG-2, в которых эффективное сжатие данных достигается лишь применительно к естественному видео и аудио.

MPEG-4 обеспечивает необходимые средства для описания взаимного расположения объектов (элементов) сцены в пространстве и времени с целью их последующего представления потенциальным зрителям в ходе воспроизведения. Разумеется, такая трактовка предполагает разделение сцены на составляющие ее объекты, что само по себе является весьма трудоемкой задачей, к которой, по сути, и сводится MPEG-4 кодирование. Кроме того, при разработке стандарта MPEG-4 решались проблемы обеспечения воспроизведения объектов сцены в различных условиях пропускной способности сетей передачи данных. Был разработан формат, допускающий «универсальный доступ» к мультимедийной информации с учетом возможных ограничений полосы пропускания, возникающих в сетях при самых разных условиях. Другими словами, один и тот же видеофрагмент может быть представлен с различным качеством для различных каналов в зависимости от их пропускной способности.

Кодирование в формате MPEG-4 раздельное. Это означает, что для кодирования видео составляющей применяются одни способы и алгоритмы сжатия, а для кодирования аудио составляющей – другие. Естественной издержкой такого специфичного подхода к сжатию является необходимость сопоставления двух потоков в ходе их последующего совместного воспроизведения в режиме реального времени.

В основу функций сжатия видео составляющей стандарта MPEG-4 была положена технология применения целого арсенала алгоритмов сжатия, применяемых как в зависимости от исходного качества и природы сжимаемого видеофрагмента, так и в совокупности и (или) последовательно обрабатывающих исходное видео с помощью различных по природе алгоритмов сжатия. Это методы прогрессивного и словарного кодирования, кодирования  с использованием чересстрочного сканирования, технологии RLE (Run Length Encoding), технологии векторной квантизации (Vector Quantization), а также всевозможные преобразования (Фурье, Дискретное Косинусное, Wavelet).

8. Преимущества цифровой передачи видеоданных.

Кроме очевидных преимуществ формата, сам способ формирования цифрового изображения также несет в себе существенные преимущества. Цифровой сигнал не ослабляется при передаче на расстояние, как аналоговый сигнал. Поэтому если он принимается вообще, то принимается без искажений. Цифровой сигнал не подвержен помехам, характерным для работы нецифрового оборудования, таким как тени, «туман» или «снег». Передается же цифровой сигнал в компрессированном виде, что намного сужает требуемую полосу пропускания канала. В цифровом телевидении применяется схема компрессии MPEG-2 — та же, что и на DVD.

Любая компрессия — это компромисс. Самое высокое качество у некомпрессированного цифрового видео, но для этого необходимо передавать невероятное количество данных. Такую пропускную способность можно обеспечить только в локальной сети. Чтобы передавать цифровой сигнал по существующим каналам, изображение с разрешением примерно вчетверо выше по сравнению с обычным нецифровым компрессируется в соотношении 55:1.

«Чудо компрессии» позволяет не только передавать в эфир превосходное изображение. Благодаря запасу полосы пропускания, появляется возможность передавать цифровое аудио 5.1, то есть настоящий окутывающий звук (surround sound).

Важнейшим компонентом HDTV служит совсем крошечная деталь... скромный пиксел. В аналоговом телевидении элементы изображения, из которых состоит красная, зеленая и синяя компоненты, представляют собой вертикальные прямоугольники. В HDTV они квадратные, как на компьютерных мониторах, и более, чем в четверо меньше пикселов аналогового ТВ, так что мелкие детали получаются намного четче, что позволяет разглядеть каждую пору на коже кинозвезды.

9. Заключение.

В данной работе мы остановились на основных принципах представления аналоговой и цифровой аудио и видеоинформации, затронули популярные стандарты её компрессии, такие как MPEG Layer 3, MPEG-2 и MPEG-4. Формат этой работы, естественно, не позволяет подробно исследовать затронутые темы, но представление о них все-таки сформировано.

Никто не знает каких высот достигнет лет через 5-10 технический прогресс и информатика, в частности, как будут реализованы системы мультимедиа, но мне кажется что цифровой звук и цифровое видео также будут играть огромную роль в таких системах.

10. Список использованной литературы.

NN

Наименование документа

1

Александр Колганов, Системы мультимедиа сегодня // HARD&SOFT №4 апрель 1995г.

2

Антон Веснушкин, «Живое» видео на PC // HARD&SOFT №6 декабрь 1994г.

3

Андрей Борзенко, Программное обеспечение для мультимедиа // HARD&SOFT №2 февраль 1995г

4

Мультимедиа — синтез трех стихий. С. Новосельцев // Компьютер–Пресс №7 1991г.

5

Мультимедиа–ПК. В. Дьяконов // Домашний Компьютер №1 1996г

6

Константин Гласман «Методы передачи данных в цифровом телевидении»

7

Лев Севальнев «Международный стандарт кодирования с информационным сжатием MPEG-2»

nreferat.ru


Смотрите также

 

..:::Новинки:::..

Windows Commander 5.11 Свежая версия.

Новая версия
IrfanView 3.75 (рус)

Обновление текстового редактора TextEd, уже 1.75a

System mechanic 3.7f
Новая версия

Обновление плагинов для WC, смотрим :-)

Весь Winamp
Посетите новый сайт.

WinRaR 3.00
Релиз уже здесь

PowerDesk 4.0 free
Просто - напросто сильный upgrade проводника.

..:::Счетчики:::..

 

     

 

 

.