А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом.
При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационное сообщение как последовательность знаков определенной знаковой системы.
Проще всего разобраться в этом на примере текста, написанного на каком-нибудь языке. Для нас удобнее, чтобы это был русский язык.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.
Полное количество символов алфавита принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.
Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение.
В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле, каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит.
Вот сколько информации несет один символ в русском тексте! А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.
Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.
При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.
При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации. Интересно, что сама единица измерения информации «бит» получила свое название от английского сочетания «binary digit» — «двоичная цифра».
Применение алфавитного подхода удобно прежде всего при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые — старые», «понятные — непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.
Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит.
Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы скоро встретимся при работе с компьютером. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания....
Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название — байт.
1 байт = 8 бит.
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.
В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.
В любой системе единиц измерения существуют основные единицы и производные от них.
Для измерения больших объемов информации используются следующие производные от байта единицы:
1 килобайт = 1Кб = 210 байт = 1024 байта.
1 мегабайт = 1Мб = 210 Кб = 1024 Кб.
1 гигабайт = 1Гб = 210 Мб = 1024 Мб.
Название | Условное обозначение | Соотношение с другими единицами |
Килобит | Кбит | 1 Кбит = 1024 бит = 210 бит ≈ 1000 бит |
Мегабит | Мбит | 1 Мбит = 1024 Кбит = 220 бит ≈ 1 000 000 бит |
Гигабит | Гбит | 1 Гбит = 1024 Мбит = 230 бит ≈ 1 000 000 000 бит |
Килобайт | Кбайт (Кб) | 1 Кбайт = 1024 байт = 210 байт ≈ 1000 байт |
Мегабайт | Мбайт (Мб) | 1 Мбайт = 1024 Кбайт = 220 байт ≈ 1 000 000 байт |
Гигабайт | Гбайт (Гб) | 1 Гбайт = 1024 Мбайт = 230 байт ≈ 1 000 000 000 байт |
Прием-передача информации могут происходить с разной скоростью. Количество информации, передаваемое за единицу времени, есть скорость передачи информации или скорость информационного потока.
Очевидно, эта скорость выражается в таких единицах, как бит в секунду (бит/с), байт в секунду (байт/с), килобайт в секунду (Кбайт/с) и т.д.
www.ronl.ru
1. Уже в процесс зарождения человеческого общества возникла необходимость согласования совместных действий (добывание пищи, охота, отражение врагов и др.), что предполагает средства общения между членами коллективных действий. Вначале это были жесты, мимика, отдельные звуки, а затем — устная и письменная речь, средства связи. Люди стали иметь возможность обмениваться сведениями, опытом знаниями между собой, а также передавать все это, что сегодня называется информацией, из поколения в поколение. Мы получаем информацию из окружающего мира с помощью органов чувств и путем обработки ее нашим мозгом.
Сообщения и информация – это центральные понятия информатики. Хотя в обыденной жизни эти понятия употребляются как синонимы, но в более строгом пономании между ними есть определенные отличия. Эти отличия проявляются уже в токой фразе, “из этого сообщения я не получил никакой информации”.
Так вот первое положение «Информация – это знания человека. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и непонятными» — является содержательным подходом к измерению информации.
Данный подход основывается на том, что должны присутствовать какая-то неопределенность в знаниях. Навпример. Вы бросаете монету, загадывая, что выпадет: орел или решка? Есть всего два варианта возможного реального результата бросания монеты. Причем, ни один из этих вариантов не имеет преимущества перед другим. В таком случае говорят, что они равноверорятны.
Так вот, в этом случае перед подбрасыванием монеты неопределенность знаний о результате равна 2.
Следовательно: неопределенность знаний о некотором событии – это количество возможных результатов события (бросания монеты, кубика; вытаскивание жребия).
Вернемся к примеру с монетой. После того, как вы бросили монету и посмотрели на нее, вы получили зрительное сообщение, что выпал, например, орел. Произошло одно из двух возможных событий. Неопределенность знаний уменьшилась в 2 раза: было 2 варианта, остался один. Значит, узнав результат бросания монеты, вы получили 1 бит информации.
А сейчас попробуем получить формулу, по которой вычимсляется количество информации, содердащейся в сообщении о том, что произошло одно из множества равновероятных событий.
Обозначим буквой N количество возможных событий, или, как мы это еще называли, — неопределенность знаний. Буквой i будем обозначать количество информации в сообщении о том, что произошло одно из N событий.
2i=N
В примере с монетой N=2, i=1.
А теперь познакомимся с другим способом измерения информации. Этот способ не связывает количество информации с содержанием сообщения, и он называется алфавитным подходом.
Проще всего разобраться на примере текста, написанного на русском языке.
Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, но поскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавите также следует включить и пробел.
Полное число символов алфавита принято называть мощностью алфавита. Будем обозначать буквой N. Например, мощность алфавита из русских букв и дополнительных символов равна 54.
Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита.
В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет i бит информации.
2i=N
Для N = 54, используя таблицу количества информации в сообщении об одном из N равновероятных событий получаем i=5,755бит.
Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста и от мощности алфавита.
Например. Посчитать количество информации одной странице книги, если на одной странице 50 строк по 60 символов в каждой.
50*60=3000 знаков, следовательно объем равен 5,755*3000=17265 бит.
Количество информации, содержащееся в символьном сообщении, равно K*i, где K – число символов в тексте сообщения, а I – информационный вес символа, который находится из уравнения 2i=N, где N – мощность используемого алфавита.
Для опредиления количества информации используется единица измерения – бит (от англ. Bit, образовано от сочетания binary digit —двоичная цифра). Один бит – количество информации, содержащееся в сообщении «да» или «нет» (в двоичном коде «1» и «0»).
Так как бит – это наименьшее количество информации, то для измерения больших объемов применяются более крупные единицы измерения. Отношение между единицами следующие. 1байт- 8 бит
1килобайт (Кбайт)- 2610бита==1024 байта
1мегабайт (Мбайт)- 1024 Кбайт
1гигабайт (Гбайт)- 1024 Мбайт
www.ronl.ru
Понятие «информация» является сложным и ещё до конца не познанным.Поэтому его чёткого общепринятого определения не существует. Разные авторы дают свои оригинальные трактовки, которые в некоторых случаях сводятся к постулированию неких нематериальных субстанций. Так, на сайте Интернета «Наука и техника» инженер-математик С.Я.Янковский, не отрицая материальности самих сигналов, постулирует, что информация, в отличие от энергии и вещества, не подчиняется законам сохранения. Информацию он определяет как субстанцию, которую принимающая система получает, а передающая система при этом ничего не теряет [48].
В обыденном понимании для большинства людей слово «информация» означает то, что люди получают из общения друг с другом, читая книги, журналы и газеты, слушая радио, смотря телевизор. Однако зайцы, дождевые черви и прочая живность газет не читают и телевизор не смотрят, но тем не менее мы их относим к информационным системам. Из этого следует, что информация бывает разная, а чтобы определить какая, нужно провести специальное исследование.
На основании изложенного в п.9.1 информацию можно определить как совокупность воздействий, на основании которой сложная система принимает решение о том, что следует делать, какие взаимодействия с окружающей средой предпринять, что следует изменить в среде или в себе самой для достижения имеющейся цели. Решение, например, может состоять в том, что вообще ничего предприниматься не будет (цель достигнута) или будет принято решение поменять цель.
Для того чтобы произвести любое изменение, необходимо наличие соответствующей энергии. Следовательно, управляющие сигналы, формируемые после обработки поступившей информации, должны приводить систему либо в состояние, в котором имеющаяся энергия расходуется, либо в состояние, в котором энергия поглощается системой из окружающей среды и накапливается для последующего расходования. Для надёжного выживания, успешного достижения цели система должна иметь большой запас энергии, т.е. находиться далеко от состояния термодинамического равновесия. Тогда информацию можно назвать видом взаимодействия системы со средой, при котором обеспечивается поддержание состояния устойчивого неравновесия.
Получая информацию, система из состояния, в котором было не известно как себя вести (какие действия совершать), переходит в состояние, в котором точно известно, что делать. Информация позволяет устранять имеющуюся неопределённость. Это даёт возможность попытаться количественно измерить информацию по величине устранённой неопределённости. В свою очередь неопределённость можно измерить в тех случаях, когда известно количество ожидаемых вариантов. Если полученная информация указывает точно, какой из этих вариантов будет реализован, то неопределённость полностью устраняется. А устранённая неопределённость будет определяться числом ожидаемых вариантов. Это число и можно принять за количество получаемой информации для случаев, когда сообщение предсказывает только один вариант. Чем больше ожидаемых вариантов, тем больше устраняемая неопределённость и больше величина полученной информации. Имеем прямо пропорциональную зависимость. Обозначив количество информацииI,а количество вариантов n,получимпредельно простую формулу
I = kn.(9.1)
Для начала можно принять k=1.
Может быть и такая ситуация, когда информация указывает на возможную реализацию нескольких вариантов из ожидаемых. Тогда при том же количестве ожидаемых вариантов устраняемая неопределённость становится меньше, поскольку указывается не один реализуемый вариант, а несколько. Причём устраняемая неопределённость, а следовательно, и информация находятся уже в обратной зависимости от указанных в информации вариантах. Если число этих вариантов обозначить m, то формула 9.1 получит вид
I = k(n/m). (9.2)
Например, в конкретной ситуации известно, что возможны четыре варианта событий, которые обозначим а, б, в, г (n=4).Полученная информация говорит о том, что будет реализовано событие б (m =1). Тогда в соответствии с формулой 9.2 при k=1 имеем количество полученной информации I = 4/1 = 4. Количество информации, указывающей на два события из возможных четырёх, составит: I = 4/2 = 2. Если же сообщение говорит о 4 реализуемых вариантах из четырёх ожидаемых, мы получаем минимальное в данной ситуации количество информации: I = 4/4 =1. Однако в последнем случае получение информации никак не изменило существовавшую неопределённость, она осталась такой же, как и до получения информации. Тогда желательно, чтобы информация в этом случае равнялась нулю. Это можно осуществить, если в формуле 9.2 использовать логарифм:
I = k logx(n/m). (9.3)
При n = m, I = logx1 = 0. Логарифм единицы при любом основании всегда равен нулю. Осталось выбрать наиболее целесообразную величину основания логарифмов х. Это можно сделать, если принять во внимание, что при устранении минимальной неопределённости желательно, чтобы информация оценивалась единицей. Минимальная неопределённость устраняется при указании одного варианта из двух возможных (n = 2, m = 1), так как при ожидании одного варианта никакой неопределённости не существует вообще. Отсюда следует, что для определения основания логарифмов нужно найти хиз уравнения I = 1 = logx2. Получаем х= 2. Тогда окончательная формула будет иметь вид I = k log2(n/m), а для случаев m = 1 и k = 1 имеем
I = log2 n. (9.4)
Минимальное количество информации равное единице, получило название 1 бит (в английском варианте bit). Не следует путать с используемой в компьютерной технике единицей байт (1 байт = 8 битам).
Формула 9.4 была предложена Хартли в 1928 г. в связи с необходимостью измерения количества информации, передаваемой в технических системах связи. Удобство данной двоичной системы измерения объясняется тем, что в технике часто используют кодирование сигналов в виде комбинации из двух простейших элементов или состояний системы. Например, 0 и 1, точка и тире, наличие или отсутствие электрического импульса, прямой и обратный электрический ток, две меняющиеся частоты переменного тока и т.д.
Позднее американский инженер К.Э. Шеннон (1916-2001) предложил заменить в формуле Хартли число возможных вариантов n вероятностью их ожидания 1/n и перед знаком логарифма поставить минус:
I = — log2 (1/n). (9.5)
Эта формула даёт те же численные значения количества информации, что и формула 9.4.
Несколько примеров:
1. Информацию в один бит мы получаем, когда узнаём, на какую сторону упала подброшенная монета: I = — log2 (1/2) = log2 2 = 1 бит.
2. Брошенная игральная кость даёт информациюI = — log2 (1/6) = log26 = 2,585 бита.
3. Одна карта, взятая из колоды с оставшимися 32 картами, несёт информацию, равную -log2 (1/32) = 5 бит.
4. Путник, идущий по незнакомой дороге из пункта А в пункт Б (рис.9.1), должен на каждой развилке получить от кого-то сведение, по какой из двух дорог ему двигаться дальше. Каждая развилка требует получения информации в 1 бит. А для успешного прохождения всего пути с тремя развилками необходимо получить суммарную информацию 3 бита [33].
|
5. Каждый сигнал, приходящий по каналу связи, в котором используются только два вида сигналов (например, 0 и 1), несёт 1 бит информации, следовательно, передав n сигналов, мы отправим n бит информации.
6. Если сигналы передаются в виде букв русского алфавита (33 буквы), то количество информации на одну букву в среднем составит: log2 33 = 5,0444 бита. Зная количество букв, можно определить приблизительное количество переданной информации. Приблизительность расчёта определяется тем, что буквы обычных языков обладают сильно отличающимися вероятностями, которые определяются по частоте их встречаемости в текстах данного языка. Поэтому, например, на часто встречающуюся букву «а» будет приходиться гораздо меньше информации, чем на букву «ъ».
|
где n– количество видов сигналов, рi– вероятность (частота встречаемости) каждого i-го сигнала.
Данный подход позволил Шеннону решить ряд таких важных для систем связи практических проблем, как определение скорости передачи информации, пропускной способности канала, надёжности (способности противостоять помехам (шумам)). Шеннон ввёл понятие избыточности информации как характеристики, определяющей надёжность работы канала связи.
Величина, пропорциональная логарифму вероятности, в математической теории вероятностей называется энтропией [17, с.558]. По этой причине многие авторы используют понятия «энтропия» и «информация» как синонимы.
Не следует смешивать энтропию в математике с энтропией в физике, потому что математическая и термодинамическая вероятности вычисляются по-разному, и формула физической энтропии содержит физическую константу Больцмана (п.2.5). Тем не менее просматривается явная связь между физической энтропией и информацией. Все процессы, связанные с повышением упорядоченности и с удалением материальных систем от термодинамического равновесия, сопровождаются понижением энтропии и увеличением использования информации. При этом энтропия окружающей среды возрастает (п.7.4). Это можно рассматривать как намёк на ошибочность процитированного выше утверждения [48] о том, что система, передающая информацию, сама никак не изменяется.
www.ronl.ru