Российской Федерации
Федеральное агентство по образованию
АМУРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
(ГОУВПО «АМГУ»)Факультет математики и информатикиРеферат по дисциплине:
«Информатика»
Тема: «История кодировки информации»Выполнил: студент группы
Проверил: ____
г. Благовещенск, 2010СОДЕРЖАНИЕВведение
1. Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными
2. Ранняя история кодирования символов естественных языков
3. Таблицы символов и методы кодирования, применяемые для работы с многоязычными текстами
Заключение
Библиографический список
ВВЕДЕНИЕВажнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения. И с тем, что сейчас сложно будет найти компьютер, на котором не была бы установлена какая-либо программа для обработки текстов. 1 КОДИРОВАНИЕ СИМВОЛОВ: ОСНОВА ДЛЯ ОБЕСПЕЧЕНИЯ ВОЗМОЖНОСТИ РАБОТЫ КОМПЬЮТЕРОВ С ТЕКСТОВЫМИ ДАННЫМИ.В современных компьютерных системах символы, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления. Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции.
Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее. Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках.2. РАННЯЯ ИСТОРИЯ КОДИРОВАНИЯ СИМВОЛОВ ЕСТЕСТВЕННЫХ ЯЗЫКОВ.Телеграфия и начало электронной обработки данных
Каждый, кто когда-нибудь смотрел кино об американском Западе XIX-го века, знает, что первым методом кодирования, широко применяемым для преобразования символов и текстов в электронный вид, был метод, предложенный Морзе. То, что этот метод кодирования был изобретён для передачи сообщений по телеграфным линиям, а не для обработки текстов в компьютерах, общеизвестно. Однако гораздо меньшее количество людей знает, что его изобретатель, американец Сэмюэл Финли Бриз Морзе (1791-1872), был также известным художником. В своё время он изучал рисование в Лондоне и там узнал об исследованиях электромагнетизма, проводимых британскими учёными. Возвращаясь по морю в США в 1832-м году, он задумал создать свою собственную систему телеграфа. Именно с этой системы началось движение в сторону того мира электронных сетей, в котором мы сейчас живём, и именно за её разработку Морзе снискал славу "американского Леонардо да Винчи". Морзе изобрёл метод кодирования, который он использовал для посылки своего исторического сообщения, в 1838-м году. Метод кодирования Морзе напоминает двоичный код, используемый в современных компьютерах, тем, что он тоже базировался на двух возможных значениях - в случае метода кодирования Морзе, это были точка или тире. Однако в отличие от современных методов кодирования, используемых для нумерации символов в современных компьютерах, комбинации точек и тире, используемые для представления символов в методе кодирования Морзе, были разной длины. Морзе использовал принцип, по которому наиболее часто употребляемым буквам ставились в соответствие наиболее короткие последовательности из точек и тире, что существенно сокращало длину сообщения. Например, наиболее часто используемой в английском языке букве "E" в методе кодирования Морзе соответствует одна точка; второй по частоте использования букве английского языка - "T" - одно тире. Интересно, что Морзе подсчитывал частоту использования букв не путём изучения текстов, а путём подсчёта литер каждого типа в типографском наборе. Результатом его поистине каторжного труда стал высокоэффективный метод кодирования, который с некоторыми изменениями используется до сих пор, хотя с момента его изобретения прошло уже более 160 лет.
Следующим существенным прорывом вперёд в технологии телеграфа был примитивный печатающий телеграфный аппарат, или "телетайп"; его запатентовал во Франции в 1874-м году Жан Морис Эмиль Бодо (1845-1903). Как и телеграф Морзе, это изобретение привело к созданию новой системы кодирования символов - 5-битного метода кодирования Бодо. Метод кодирования Бодо стал первым в мире методом кодирования текстовых данных с помощью двоичных последовательностей. Сообщения, для передачи которых использовалась система кодирования Бодо, распечатывались операторами на узкие ленты для двухканальной связи с помощью специальных 5-клавишных клавиатур. В более поздних версиях устройства использовались клавиатуры с буквами, которые уже автоматически генерировали соответствующую той или иной букве 5-битную последовательность. Другой особенностью телетайпа Бодо было мультиплексирование, обеспечивающее возможность одновременной работы до 6-ти операторов благодаря применению системы временного распределения. Это позволило значительно увеличить пропускную способность телеграфной линии. Предложенная Бодо аппаратура зарекомендовала себя весьма положительно и оставалась в широком применении в XX-м веке, пока её не вытеснили телефоны и персональные компьютеры.
1890-й год: американское Бюро статистики и появление в нём новой системы для кодирования символов
Конец XIX-го века ознаменовался изобретением ещё одной системы для кодирования символов естественных языков. Он была создана в США для обработки данных, собираемых во время переписей населения, молодым американским* изобретателем, которого звали Герман Холлерит (1860-1929). После окончания Нью-Йоркской Колумбийской школы горного дела в 1879-м году, в 1880-м Холлерит устроился на работу в Бюро статистики при Министерстве внутренних дел США. Последствия этого, казалось бы, незначительного события сказывались впоследствии вплоть до 1970-х годов, "золотой эры" больших вычислительных машин. Герман Холлерит был ни кем иным, как изобретателем кода Холлерита, использовавшегося для записи алфавитно-цифровой информации на бумажных перфорированных картах. С появлением перфокарт в американских массах возникло шуточное выражение 'do not fold, spindle, or mutilate' ("не гнуть, не тянуть, не мять"), которое оставляло у многих американцев впечатление, что компьютеры скоро будут полностью контролировать их общество.
В системе кодирования Холлерита, на первый взгляд, двоичная последовательность, соответствующая одному алфавитно-цифровому символу, регистрировалась в 12-ти горизонтальных рядах перфокарты, и поскольку каждый из рядов мог быть перфорирован или не перфорирован (содержать 1 или 0), это давало бы 12-битный метод кодирования. Максимально возможное количество элементов, которое могло бы быть представлено с помощью такого метода кодирования - 212, то есть 4096. На самом же деле таблица символов, используемая в системе Холлерита, содержала только 69 символов - это были заглавные латинские буквы, арабские цифры, знаки препинания и некоторые другие символы. Таким образом, реальные возможности системы кодирования Холлерита по представлению текстовых данных были сравнимы даже с таковыми возможностями системы кодирования Бодо. Зачем же тогда, спросит читатель, на перфокарте было предусмотрено так много горизонтальных рядов? Одной из причин этому является тот факт, что большее количество рядов позволяет кодировать данные, производя меньшее количество перфораций, а это было критично, так как работа с перфораторами карт в течение многих лет производилась вручную. Поскольку рядов было много, для кодирования каждой из 10 арабских цифр (а также 2-х букв латинского алфавита) было достаточно сделать всего одну перфорацию на один вертикальный ряд. Оставшиеся 24 буквы латинского алфавита кодировались с помощью двух перфораций. Для кодирования знаков препинания и прочих символов требовалось сделать 2 или больше перфораций, поэтому нередко они вообще не использовались.
3. ТАБЛИЦЫ СИМВОЛОВ И МЕТОДЫ КОДИРОВАНИЯ, ПРИМЕНЯЕМЫЕ ДЛЯ РАБОТЫ С МНОГОЯЗЫЧНЫМИ ТЕКСТАМИРанние многоязычные таблицы символов и методы кодирования
Изначально таблицы символов применялись только для удовлетворения нужд по обмену информацией и редактированию текстов на национальных языках конкретных государств, однако в реальном мире нередко бывает необходимо использовать в одном документе символы нескольких разных языков одновременно. Так, книгоиздательской промышленности нужно использовать множество символов иностранных языков при выпуске словарей иностранных слов или, например, книг иностранных авторов на языке оригинала. А с тех пор, как появилась сеть Internet, похоже, каждый человек по мере работы в ней будет сталкиваться с данными на иностранном языке, написанными набором символов, используемых другими нациями.
По этой причине эффективные многоязычные таблицы символов и методы для кодирования этих символов совершенно необходимы для жизни в XXI-м веке, но проблема в том, что они слишком долго не являлись предметом научных исследований и разработок. Самые первые такие таблицы и методы кодирования появились в первой половине 1980-х, в те времена, когда большинство компьютеров были 8-битными и 16-битными.
Наиболее достойными внимания среди них были рабочие станции Star, производимые корпорацией Xerox и имеющие программу для обработки многоязычных текстов, называемую ViewPoint, а также офисные компьютеры модели 5550, производимые корпорацией IBM. Обе эти системы позволяли работать с большим количеством азиатских языков, в дополнение к большому количеству языков, использующих латинский алфавит, но они так никогда и не вошли в широкое употребление из-за дороговизны. Однако многоязычная таблица символов, предложенная корпорацией Xerox, была взята на вооружение специалистами по компьютерной технике и лингвистами в США. Это в конце концов привело к созданию движения Unicode, предложившего свою многоязычную таблицу символов (и методы кодирования этих символов), которая сейчас является одним из главных соперников в борьбе за международное признание.
Проект TRON - многоязычная таблица символов и многоязычное окружение.
Таблица символов и метод кодирования TRON, а также многоязычное окружение TRON были впервые описаны на английском языке во время проведения 3-го симпозиума по проекту TRON в 1987-м году. В применённом в TRON подходе к обработке многоязычных документов существует ряд особенностей, делающих его уникальным. Одна из них состоит в том, что таблица символов TRON расширяема практически до бесконечности, что позволяет включить в нес символы всех без исключения языков, когда-либо использовавшихся (и используемых сейчас) человечеством, и даже символы тех языков, которые ещё не изобретены. Это реализовано с помощью escape-последовательностей, которые используются для переключения между очень большим количеством ("внутренних") таблиц, которые содержат символы, кодируемые с помощью 8-ми и 16-ти бит. Кроме того, в TRON имеются коды для идентификации языка, которые необходимы, например, для возможности реализации программ для правильной сортировки текстовых данных, содержащих символы разных языков.
Unicode и ISO 10646
Как уже было сказано выше, американские компьютерные корпорации начали в первой половине 1980-х гг. работу над созданием многоязычной таблицы символов и методов для кодирования этих символов. Результаты исследовательских работ в данной области, проведённых корпорациями Xerox и IBM, были успешно воплощены этими корпорациями в своих компьютерных системах. Исследователи из Xerox в последующем "обратили в свою веру" представителей других компьютерных корпораций США, и в конце концов они вместе начали проект американской индустрии, названный Unification Code, или Unicode, главной задачей которого было сведение всех существующих в мире таблиц символов в единую таблицу символов. ЗАКЛЮЧЕНИЕКак знает каждый, кто имеет хотя бы самое общее представление о мире компьютерной техники, будущее компьютеров начинает обращаться вокруг компьютерных сетей мирового масштаба. Сегодняшняя сеть Internet представляет из себя эту глобальную общемировую сеть пока в эмбриональном состоянии. Тем не менее, эти компьютерные сети мирового масштаба не смогут стать эффективными до тех пор, пока не будет проложено больше высокоскоростных линий связи, пока они не будут подключены к заводам, офисам и жилищам, и пока не будет создано новых стандартов, регламентирующих процессы обмена информацией. Среди прочих стандартов этого рода, одним из наиболее важных будет стандарт, определяющий многоязычную таблицу символов и способ для кодирования этих символов, используемые для обеспечения обработки данных на всех языках мира.
На данный момент для решения этой задачи предложено два стандарта. Один из них - это TRON, включающий в себя таблицу символов TRON и многоязычное окружение TRON, а другой - это Unicode. Тем временем многоязычный текстовый редактор Mule, работающий в UNIX и Unix-совместимых ОС, представляет собой временное решение.
Что произойдёт в будущем? Это сложно предсказать, но поскольку американские корпорации-поставщики компьютерной техники и ПО с помощью правительства США или без таковой пытаются внедрить Unicode в окружающий их мир своими традиционными методами, в виде открытия рыночной кампании, наиболее вероятным исходом будет битва между соперничающими стандартами, один из которых в конце концов будет решено использовать в качестве базового. И это будет тот стандарт, который, подчеркнём, выберут пользователи (а не производители) компьютерных систем.
Коммерчески доступная, базированная на BTRON операционная система работает на том же самом аппаратном обеспечении, что и базированная на Unicode Microsoft Windows NT, поэтому в Японии всем пользователям достаточно всего лишь переключиться с одной используемой на жёстком диске файловой системы на другую, для того, чтобы сделать выбор по своему усмотрению. Более того, поскольку протоколы Internet, как было сказано выше, позволяют использовать любые таблицы символов и методы кодирования символов, эта битва стандартов окажет лишь незначительное влияние на строение сетей передачи данных.
И поэтому можно с уверенностью сказать, что у пользователей персональных компьютеров, впервые за долгое время, реально появился выбор!
БИБЛИОГРАФИЧЕСКИЙ СПИСОК1. Катаев. "Текстовый процессор ЛЕКСИКОН (от Н до С)". Москва, 1992, изд-во "Радио и связь. 2. А.Е. Борзенко. "IBM PC: устройство, ремонт, модернизация". 2-е изд., 1996, Москва, изд-во "КомпьютерПресс". 3. В.Д. Пекелис. "Кибернетика от А до Я". 3-е изд., 1990, Москва, изд-во "Детская литература".4. Дмитриев В.И. Прикладная теория информации. М.: Высшая школа, 1989.
www.coolreferat.com
Введение
Человек живет в мире информации и воспринимает окружающий мир с помощью органов чувств. Чтобы правильно воспринимать все происходящее в мире, он запоминает полученные сведения, т.е. хранит информацию, человек принимает решения, т.е. обрабатывает информацию, а при общении с другими людьми – передает и принимает информацию.
Кодирование информации необычайно разнообразно. Дорожные знаки, ноты, кодирующие музыку на бумаге, обозначения на географических картах, химические формулы – это маленькая часть кодирования различной информации, которую мы получаем почти каждый день.
Мы с моей сестрой Алиной иногда пишем друг другу сообщения и оставляем в различных местах. И чтоб было интереснее, решили придумать свой алфавит (прилагается). Уже потом, я узнала, что с помощью придуманных нами картинок мы кодировали наши письма. Мне стало интересно, а кто придумал кодирование, где использовали кодирование, где применяют сейчас.
Еще было интересно – что знают мои одноклассники о кодировании. Я провела анкетирование среди своих одноклассников.
Что вы знаете о кодировании?
Встречались ли вы с кодами в жизни?
Как вы думаете, зачем люди кодируют информацию?
Что нужно знать, чтоб кодировать информацию?
Наиболее частыми ответами на первый вопрос были:
- запись слов так, чтоб никто не понял
- вставка рисунков вместо слов
- шифрование текста
- запись слов на непонятном языке
-не знаю
Наиболее частыми ответами на второй вопрос были:
- в кино радисты передают шифровки
- иностранные языки
- на этикетках товаров цифры вместо слов
- не встречались
Наиболее частыми ответами на третий вопрос были:
- что бы скрыть от других
- записывают короче длинные предложения
- удобно передавать информацию
- спрятать от любопытных людей
- просто так
Наиболее частыми ответами на четвертый вопрос были:
- знаки для кодирования
- придумать картинки
- таблицу, чтобы закодировать и раскодировать информацию
- не знаю
Так как в ответах на каждый вопрос были такие, что одноклассники не знают ответ, я решила найти различную информацию по этому вопросу и довести ее до них.
Возникновение кодирования.
Кoды появились еще в глубокой древноcти в виде криптограмм (по-гречески — тайнописи), когда ими пользoвались для засекречивaния важного сообщения от тех, кому оно не было предназначенo.
Уже знаменитый грeческий истoрик Геродот (V век до н. э.) приводил примеры писем, понятных лишь для одного адресата. Спартанцы имели специальный механический прибор, при помощи которого важные сoобщения можно было писать осoбым способом, oбеспечивающим сохранение тайны. В средние века и эпоху Вoзрождения над изобретением тaйных шифрoв трудились многие выдающиеся люди, в их числе философ Фрэнсис Бэкон, крупные мaтематики Франсуa Виет, Джероламо Кардано.С течением времени начали появляться по-настоящему сложные шифры. Один из них, употребляемый и поныне, связан с именем ученого аббата из Вюрцбурга Тритемиуса, которого к занятиям криптографией толкало, не только монастырское уединение, но и потребность сохранять от огласки некоторые духoвные тайны. Различные хитроумные приемы кодирования применяли шифровальщики при папском дворе и дворах европейских королей. Вместе с искусством шифрования развивалось и искусство дешифровки, или, как говорят, криптоанализа.
Еще один дрeвнейший шифр - код Цeзаря. При шифровании каждый симвoл заменяется другим, отстоящим от него в алфавите на фиксированное число позиций. Про шифр Цезаря можно сказать, что это шифр подстановки— шифр простой замены.
Шифр назван в честь римского императора Гая Юлия Цезаря, использовавшего его для секретной переписки. Естественным рaзвитием шифра Цезаря стал шифр Виженера. На пример: шифрование с использованием ключа k = 3. Буква «С» как бы сдвигается на три буквы впeред и становится буквой «Ф». Твердый знак, перемещённый на три буквы вперед, становится буквой «э», и так далее:
Оригинальный текст: | Шифрованный текст: |
Съешь ещё этих булок. | Фэзыя зьи ахлш дцосн. |
Метод кодирования Морзе был изобретён для передачи сообщений по телеграфным линиям. Eго изобретатель, американец Сэмюэл Финли Бриз Морзе (1791-1872), был также известным художником. В своё время он изучал рисование в Лондоне и там узнал об исследованиях электромагнетизма, проводимых британскими учёными. Возвращаясь по морю в США в 1832-м году, он задумал создать свою собственную систему телеграфа. Именно с этой системы началось движение в сторону того мира электронных сетей, в котором мы сейчас живём, и именно за её разработку Морзе снискал славу "американского Леонардо да Винчи". Морзе изобрёл метод кодирования, который он использовал для посылки своего исторического сообщения, в 1838-м году. Метод кодирования Морзе напоминает двоичный код, используемый в современных компьютерах, тем, что он тоже базировался на двух возможных значениях - в случае метода кодирования Морзе, это были точка или тире (рис.1). Однако в отличие от современных методов кодирования, используемых для нумерации символов в современных компьютерах, комбинации точек и тире, используемые для представления символов в методе кодирования Морзе, были разной длины. Морзе использовал принцип, по которому наиболее часто употребляемым буквам ставились в соответствие наиболее короткие последовательности из точек и тире, что существенно сокращало длину сообщения. Например, наиболее часто используемой в английском языке букве "E" в методе кодирования Морзе соответствует одна точка; второй по частоте использования букве английского языка - "T" - одно тире.
рис.1
Кoнец XIX-го века ознаменoвался изобретением ещё oдной системы для кодирoвания символов eстественных языков. Онa была создана в США для обработки данных, собираемых во время перeписей населения, молодым американским изобретателем Германoм Холлеритoм (1860-1929). После окончания Нью-Йоркской Колумбийской школы горного дела в 1879-м году, в 1880-м Холлерит устроился на работу в Бюро статистики при Министерстве внутренних дел США. Последствия этого, казалось бы, незначительного события сказывались впоследствии вплоть до 1970-х годов, "золотой эры" больших вычислительных машин. Герман Холлерит был ни кем иным, как изобретателем кода Холлерита, использовавшегося для записи алфавитно-цифровой информации на бумажных перфорированных картах.
АЗБУКА БРАЙЛЯ — специальная азбука, созданная Л. Брайлем (1809—1852) для воспроизведения текста в изданиях для слепых (рис.2). Каждый знак в тексте печатают в виде комбинации одной — шести выпуклых точек, расположенных на площади прямоугольника. Чтение текста, основано на осязании рельефных точек и восприятии их комбинаций.
рис.2
Код Трисиме (рис.3) является примером, так называемoго, равномерногo кода - такoго, в котором все кодовые кoмбинации содержат одинакoвое числo знaков - в данном случае три- знакам лaтинского алфавита ставятся в соответствие кoмбинации из трех знаков: 1,2,3:
А 111 H 132 O 223 V 321
В 112 I 133 P 231 W 322
С 113 J 211 Q 232 X 323
В 121 K 212 R 233 Y 331
D 122 L 213 S 311 Z 332
F 123 M 221 T 312 . 333
G 131 N 222 U 313 рис.3
Для кодирования текстовой информации принят международный стандарт ASCII (American Standard Code for Information Interchange) (рис.4), в кодовой таблице которого занято 128 7-ми разрядных кодов для:
символов латинского алфавита
цифр
знаков препинания
математических символов
Добавление 8-го разряда позволяет увеличить количество кодов таблицы ASCII до 255. Коды от 128 до 255 представляют собой расширение таблицы ASCII. Эти коды в таблице ASCII использованы для кодирования некоторых символов, отличающихся от латинского алфавита, и встречающихся в языках с письменностью, основанной на латинском алфавите, - немецком, французском, русском и др. Кроме этого, часть кодов использована для кодирования символов псевдографики, которые можно использовать, например, для оформления в тексте различных рамок и текстовых таблиц.
В русском алфавите буква А имеет первое место, а буква Б - второе. У каждой буквы есть своя позиция. Буква Я имеет позицию номер 33. Мы можем считать, что алфавит - это таблица для кодирования букв.
Стандарт ASCII -- это тоже как бы «алфавит», только компьютерный. Он тоже определяет номер каждого символа. Но символов больше, чем букв, потому что к ним относятся еще и цифры, и знаки препинания, и некоторые специальные символы.
Самый первый символ стандарта ASCII - это ПРОБЕЛ. Он имеет код 32.
За ним идут специальные символы и знаки препинания (коды с 33 по 47).
Далее идут десять цифр (коды 48-57).
Коды 58-64 используют некоторые математические символы и знаки препинания.
Самое интересное начинается с кодов 65--90. Ими обозначают прописные английские буква от А до Z
Коды 91--96 используются для специальных символов.
Коды 97--122 -- строчные буквы английского алфавита.
Коды 123-127 -- специальные символы.
Рис.4
В относительно древние времена учёные люди очень любили публиковать различного рода послания в необычных кодировках.
Самый яркий кодировочный пример — творчество Мишеля Нострадамуса. Популярность Мишеля Нострадамуса – знаменитого французского прорицателя – просто грандиозна. Уже несколько веков люди усердно изучают его катрены (четверостишия), пытаясь угадать тайны будущего. Нострадамус был не только прорицателем, но и врачом, алхимиком, астрономом. Это был человек с энциклопедическими познаниями.
Его сборники предсказаний постоянно ставили в тупик многочисленных толкователей. И не только из-за туманных и многозначных выражений. В некоторых из них содержатся видимые противоречия и явные ошибки, которые вроде бы не мог допускать столь выдающийся человек.
Одна из самых известных и загадочных центурий Нострадамуса – «Послание к Генриху». Оно адресовано королю Франции Генриху Второму и написано в 1558 году. Множество ошибок и неточностей наводило исследователей на мысль о скороспелости и недостаточной проработанности центурии. Однако Нострадамус писал это послание почти год, постоянно исправляя и выверяя текст. Вдобавок вряд ли Нострадамус решился преподнести королю сырое и неудачное произведение. А ошибочные цитаты из Библии вообще в те времена могли стоить обвинения в ереси. Поэтому очевидно: ошибки сделаны преднамеренно. Видимо в них кроется какой-то секретный код, который толкователи не смогли разгадать, хотя тщательнейшим образом проработали каждое слово.
Многие полагают, что еще задолго до Кирилла и Мефодия (которых называют изобретателями славянской письменности), славяне имели свою оригинальную систему письма, - так называемую узелковую письменность. Знаки этой «письменности» не записывались, а передавались с помощью узелков, завязанных на нитях, которые заматывались в клубки-книги.
В древности узелковая письменность была распространена довольно широко. Это подтверждают археологические находки. На многих предметах, поднятых из захоронений языческого времени, видны несимметричные изображения узлов, служившие не только для украшения (рис.5).
рис.5
Каждому узлу соответствовало свое слово. С помощью дополнительных узелков сообщали дополнительные сведения о нем, например его число, часть речи и пр.
Часто в сочинениях христианского времени встречаются иллюстрации с изображениями сложных переплетений, вероятно, перерисованных с предметов языческой эпохи. Следы узелковой письменности можно найти и на стенах храмов, построенных в эпоху «двоеверия», когда христианские храмы украшались не только ликами святых, но и языческими узорами.
Исследователи предприняли попытку расшифровать некоторые из этих знаков (рис.6).
Рис.6
Существующую сегодня на флоте русскую семафорную
азбуку (рис.7) разработал в 1895 году вице-адмирал Степан Осипович Макаров.
Русская семафорная азбука составлена в соответствии с русским алфавитом, включает 29 буквенных и 3 служебных знака. Она не содержит цифр и знаков препинания. Их передача производится по буквам, словами. Например, цифра «7» будет передана словом «семь», а знак «,» — словом «запятая».
Каждой букве и условному знаку соответствует определенное положение рук с флажками. Семафорное сообщение состоит из слов, составленных из букв, изображаемых соответствующим положением флажков.
Передача информации семафором производится сигнальщиками с помощью флажков, размер ткани которых составляет 30x35 см. Цвет ткани флажков зависит от времени суток: в тёмное время суток используются флажки с тканью светлого тона (желтый, белый), а в светлое время суток — с тканью тёмного тона (красный, чёрный).
Средняя скорость передачи флажным семафором обученным сигнальщиком составляет 60-80 знаков в минуту.
рис.7
Стенография – это скоростное письмо особыми знаками, настолько краткими, что ими можно записать живую речь. Стенография пришла к нам из древнейших времен. Еще в Древнем Египте скорописцы записывали речь фараонов. Широкое распространение стенография получила в Древней Греции. В 1883 г. в Акрополе была найдена мраморная плита, на которой были высечены стенографические знаки. По мнению ученых, эти записи были сделаны в 350 г. до н.э. Но общепризнанным днем рождения стенографии считается 5 декабря 63 года до н.э. Тогда в Древнем Риме возникла необходимость дословной записи устной речи. Автором древнеримской стенографии считается Тирон – секретарь знаменитого оратора Цицерона.
В современном мире, несмотря на обилие средств механической фиксации слова (магнитофонов, диктофонов), владение навыками стенографии по-прежнему ценится. Мы записываем в среднем в пять раз медленнее, чем говорим. Стенография же ликвидирует этот разрыв. Она особенно полезна при конспектировании лекций, публичных выступлений, бесед, составлении докладов, подготовке статей и т. п.
рис.8
Применение кодирования информации
Персональные данные.
В последнее время очень актуален вопрос о персональных данных. ИИН - Индивидуальный Идентификационный Номер, 12-значный цифровой код, который присваивается физическому лицу один раз и пожизненно. с 1 января 2012 года заменит РНН и СИК.
Расшифровка ИИН :
первые 6 разрядов - это дата рождения ггммдд, то есть 12 августа 1985 года в ИИНе будет 850812
7 разряд отвечает за век рождения и пол. Если цифра нечетная - пол мужской, четная - женский. 1,2 - девятнадцатый век, 3,4 - двадцатый, 5,6 - двадцать первый.
8-11 разряды - заполняет орган Юстиции.
12 разряд - контрольная цифра, которая расчитывается по определенному алгоритму.
Штрих-коды.
С развитием информационной техники, широким внедрением средств вычислительной техники во многие сферы деятельности все острее встает вопрос быстрого и надежного ввода информации. Ручной ввод кода изделия требуют больших затрат ручного труда, времени, часто приводит к ошибкам.
В настоящее время ведутся большие работы по созданию автоматизированных систем обработки данных с применением машиночитаемых документов (МЧД), одной из разновидностей которых являются документы со штриховыми кодами. К машиночитаемым относятся товаросопроводительные документы, ярлыки и упаковки товаров, чековые книжки и пластиковые карточки для оплаты услуг, магнитные носители. В связи с этим появились термины “электронные ведомости”, “электронные деньги” и т. д.
Штриховой код представляет собой чередование темных и светлых полос разной ширины (рис.9).
В настоящее время штриховые коды широко используются не только при производстве и в торговле товарами, но и во многих отраслях промышленного производства.
Товарный штриховой код присваивается продукции (товару) на этапе запуска его в производство. Штрих-коды получили широкое практическое применение почти во всех сферах деятельности человека:
На удостоверении личности;
На продуктах в магазинах «Метро», «Рубиком», «Гринвич»;
Карты безопасности;
Пройти в метро;
рис.9
Смайлики.
С появлением электронного общения, появилась необходимость передачи своих чувств через компьютер. В обычном тексте сделать это достаточно сложно, из-за чего и появились специфические знаки препинания (так называемые смайлики). Смайликами (от smile – улыбка) в Интернете называют значки, составленные из знаков препинания, букв и цифр, обозначающие какие-то эмоции.
Смайлик – это лучший способ «закодировать» чувства и эмоции при виртуальном общении! Маленькие забавные рожицы, которые вставляются в текст, избавляют от необходимости писать излияния о ваших переживаниях. Без него невозможно обойтись ни в одной форме виртуального общения. Он крайне прост в употреблении, информативен и при всей своей простоте дает широкий простор воображению. Неудивительно, что его переняли sms-коммуникация, реклама, дизайн, обычная почта, при обмене записками на уроках.
Смайлики настолько прочно вошли в нашу жизнь, что перекочевали из виртуального пространства в науки. Так в психологии, смайлики используют для обозначения типов темпераментов или отслеживают настроение человека.
Заключение
Множество кодов очень прочно вошло в нашу жизнь. Заинтересовавшись вопросами кодирования информации, я стала искать примеры художественных произведений, в которых говорилось о кодировании информации. Вот, что я нашла:
Артур Конан Дойль “Пляшущие человечки”;
Эдгар По “Золотой жук”;
Жюль Верн “Путешествие к центру земли”;
Дэн Браун “Код да Винчи”.
Получается, что вопросы кодирования интересовали не только ученых, но и писателей, которые включили сцены кодирования информации в свои произведения.
Я не читала еще эти произведения, но, думаю, в ближайшее время их прочту.
После поиска информации, меня очень заинтересовал вопрос о штрих-кодах. Думаю, я продолжу работу по изучению штрих-кодов на различных товарах.
Нужно, чтобы люди (не только программисты-профессионалы, но и простые пользователи) имели понятие о кодировании информации и о возможных способах кодирования разных видов информации.
Список использованной литературы
Л.Л. Босова, УМК по информатике для 5-7 классов
http://otherreferats.allbest.ru/programming/00029252_0.html
http://xreferat.ru/33/2153-1-kodirovanie-informacii.html
www.grandars.ru
http://www.yoursmileys.ru/smileys.php
Угринович Н.Д. Информатика и информационные технологии. Учебник для 10-11 классов / Н.Д.Угринович. – М.: БИНОМ. Лаборатория знаний, 2003. –
13
kopilkaurokov.ru
Общепринятым на сегодняшний день, дающим достаточно реалистичные монохромные изображения, считается кодирование состояния одного пикселя с помощью одного байта, которое позволяет передавать 256 различных оттенков серого цвета от полностью белого до полностью черного. В этом случае для передачи всего растра из 640x480 пикселов потребуется уже не 38 400, а все 307 200 байтов.
Цветное изображение может формироваться различными способами. Один из них – метод RGB (от слов Red, Green, Blue – красный, зеленый, синий), который опирается на то, что глаз человека воспринимает все цвета как сумму трех основных цветов – красного, зеленого и синего. Например, сиреневый цвет – это сумма красного и синего, желтый цвет – сумма красного и зеленого и т. д. Для получения цветного пикселя в одно и то же место экрана направляется не один, а сразу три цветных луча. Опять упрощая ситуацию, будем считать, что для кодирования каждого из цветов достаточно одного бита. Нуль в бите будет означать, что в суммарном цвете данный основной отсутствует, а единица – присутствует. Следовательно, для кодирования одного цветного пиксела потребуется 3 бита – по одному на каждый цвет. Пусть первый бит соответствует красному цвету, второй – зеленому и третий – синему. Тогда код 101(2) обозначает сиреневый цвет – красный есть, зеленого нет, синий есть, а код 110(2) – желтый цвет – красный есть, зеленый есть, синего нет. При такой схеме кодирования каждый пиксел может иметь один из восьми возможных цветов. Если же каждый из цветов кодировать с помощью одного байта, как это принято для реалистического монохромного изображения, то появится возможность передавать по 256 оттенков каждого из основных цветов. А всего в этом случае обеспечивается передача 256x256x256=16 777 216 различных цветов, что достаточно близко к реальной чувствительности человеческого глаза. Таким образом, при данной схеме кодирования цвета на изображение одного пикселя требуется 3 байта, или 24 бита, памяти. Этот способ представления цветной графики принято называть режимом True Color (true color – истинный цвет) или полноцветным режимом.
При записи изображения в память компьютера кроме цвета отдельных точек необходимо фиксировать много дополнительной информации – размеры рисунка, яркость точек и т. д. Конкретный способ кодирования всей требуемой при записи изображения информации образует графический формат. Форматы кодирования графической информации, основанные на передаче цвета каждого отдельного пикселя, из которого состоит изображение, относят к группе растровых или BitMap форматов (bit map – битовая карта).
Кодирование растровых изображений
Растровое изображение представляет собой совокупность точек (пикселей) разных цветов.
Наиболее известными растровыми форматами являются BMP, GIF и JPEG форматы. В формате BMP (от BitMaP) задается цветность всех пикселов изображения. При этом можно выбрать монохромный режим с 256 градациями или цветной с 16 256 или 16 777 216 цветами. Этот формат требует много памяти. В формате GIF (Graphics Interchange Format – графический формат обмена) используются специальные методы сжатия кода, причем поддерживается только 256 цветов. Качество изображения немного хуже, чем в формате BMP, зато код занимает в десятки раз меньше памяти. Формат JPEG (Goint Photographic Experts Group -Уединенная группа экспертов по фотографии) использует методы сжатия, приводящие к потерям некоторых деталей. Однако поддержка 16 777 216 цветов все-таки обеспечивает высокое качество изображения. По требованиям к памяти формат JPEG занимает промежуточное положение между форматами BMP и GIF.
Кодирование векторных изображений
Векторное изображение представляет собой совокупность графических примитивов (точка, отрезок, эллипс…). Каждый примитив описывается математическими формулами. Кодирование зависти от прикладной среды.
Растровая графика обладает существенным недостатком – изображение, закодированное в одном из растровых форматов, очень плохо “переносит” увеличение или уменьшение его размеров – масштабирование. Для решения задач, в которых приходится часто выполнять эту операцию, были разработаны методы так называемой векторной графики. В векторной графике, в отличие от основанной на точке – пикселе – растровой графики, базовым объектом является линия. При этом изображение формируется из описываемых математическим, векторным способом отдельных отрезков прямых или кривых линий, а также геометрических фигур – прямоугольников, окружностей и т. д., которые могут быть из них получены. Фирма Adobe разработала специальный язык PostScript (от poster script – сценарий плакатов, объявлений, афиш), служащий для описания изображений на базе указанных методов. Этот язык является основой для нескольких векторных графических форматов. В частности, можно указать форматы PS (PostScript) и EPS, которые используются для описания как векторных, так и растровых изображений, а также разнообразных текстовых шрифтов. Изображения и тексты, записанные в этих форматах, большинством популярных программ не воспринимаются, они могут просматриваться и печататься только с помощью специализированных аппаратных и программных средств.
Кроме растровой и векторной графики существует еще и фрактальная графика, в которой формирование изображений целиком основано на математических формулах, уравнениях, описывающих те или иные фигуры, поверхности, тела. При этом само изображение в памяти компьютера фактически не хранится – оно получается как результат обработки некоторых данных. Таким способом могут быть получены даже довольно реалистичные изображения природных ландшафтов.
Целые числа кодируются просто переводом чисел из одной системы счисления в другую.
Для кодирования действительных чисел используют 80-разрядное кодирование. При этом число преобразуют в стандартный вид.
Целые числа кодируются двоичным кодом достаточно просто — достаточно взять целое число и делить его пополам до тех пор, пока в остатке не образуется ноль или единица. Совокупность остатков от каждого деления, записанная справа налево вместе с последним остатком, и образует двоичный аналог десятичного числа.
19:2 = 9+1 9:2 = 4 + 1 4:2 = 2 + 0 2:2 = 1 + 0 1
Таким образом, 1910 = 100112.
Для кодирования целых чисел от 0 до 255 достаточно иметь 8 разрядов двоичного кода (8 бит). Шестнадцать бит позволяют закодировать целые числа от 0 до 65 535, а 24 бита — уже более 16,5 миллионов разных значений.
Для кодирования действительных чисел используют 80 разрядное кодирование. При этом число предварительно преобразуется в нормализованную форму:
3,1415926 = 0,31415926 • 101
300 000 = 0,3 • 106
123 456 789 = 0,123456789 • 1010
Первая часть числа называется мантиссой, а вторая — характеристикой. Большую часть из 80 бит отводят для хранения мантиссы (вместе со знаком) и некоторое фиксированное количество разрядов отводят для хранения характеристики (тоже со знаком).
Приёмы и методы кодирования звуковой информацией пришли в вычислительную технику наиболее поздно. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации и очень разнообразны. Всё же можно выделить два основных направления кодирования: метод FM (разложение сложного звука на гармонические ряды) и метод таблично-волнового синтеза (хранение в отдельных таблицах пронумерованных образцов различных музыкальных звуков).
Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, а следовательно, может быть описан числовыми параметрами, то есть кодом. При таких преобразованиях неизбежны потери информации, связанные с методом кодирования, поэтому качество звукозаписи обычно получается не вполне удовлетворительным. Метод таблично волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техники. Если говорить упрощенно, то можно сказать, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкальных инструментов (хотя не только для них). Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые параметры среды, в которой происходит звучание, а также прочие параметры, характеризующие особенности звука.
Если преобразовать звук в электрический сигнал (например, с помощью микрофона), мы увидим плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой --аналоговый -- сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел.
Поступим следующим образом. Будем измерять напряжение через равные промежутки времени и записывать полученные значения в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его -- аналого-цифровым преобразователем (АЦП).
Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование (для него служит цифро-аналоговый преобразователь -- ЦАП), а затем сгладить получившийся ступенчатый сигнал.
Чем выше частота дискретизации (т.е. количество отсчетов за секунду) и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук. Но, естественно, увеличивается и размер звукового файла. Поэтому, в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения. Например, при записи на компакт-диски используются 16-битные отсчеты при частоте дискретизации 44032 Гц. При работе же только с речевыми сигналами достаточно 8-битных отсчетов при частоте 8 кГц.
Описанный способ кодирования звуковой информации универсален, он позволяет представить любой звук, преобразовывать его самыми разными способами. Но бывают случаи, когда выгодней действовать по-иному.
Человек издавна использует довольно компактный способ представления музыки -- нотную запись. В ней специальными символами указывается, какой высоты звук, на каком инструменте и как сыграть. Фактически, ее можно считать алгоритмом для музыканта, записанным на особом формальном языке. А вы уже знаете, что для "перевода" символьной информации в понятную компьютеру форму достаточно иметь таблицу соответствия между символами этого языка и их двоичными кодами.
В 1983 г. ведущие производители компьютеров и музыкальных синтезаторов разработали стандарт, определивший такую систему кодов. Он получил название MIDI.
Конечно, такая система кодирования позволяет записать далеко не всякий звук, она годится только для инструментальной музыки. Но есть у нее и неоспоримые преимущества: чрезвычайно компактная запись, естественность для музыканта (практически любой MIDI-редактор позволяет работать с музыкой в виде обычных нот), легкость замены инструментов, изменения темпа и тональности мелодии. А кроме того, качество звучания зависит исключительно от возможностей синтезатора или звуковой платы компьютера, с помощью которых это происходит.
Грандиозные достижения человечества - письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.
Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.
Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).
Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.
С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами.
Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы - это возможные события): К = 2I = 28 = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.
Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111.
Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.
Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.
yaneuch.ru
Указатель категорий › Информатика › История кодировки информации
Описание.
Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения.Выдержка из работы.
Министерство образования и науки
Российской Федерации
Федеральное агентство по образованию
АМУРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
(ГОУВПО «АМГУ»)
Факультет математики и информатики
Реферат по дисциплине:
«Информатика»
Тема: «История кодировки информации»
Выполнил: студент группы
Проверил: ____
г. Благовещенск, 2010
СОДЕРЖАНИЕ
Введение
1. Кодирование символов: основа для обеспечения возможности работы компьютеров с текстовыми данными
2. Ранняя история кодирования символов естественных языков
3. Таблицы символов и методы кодирования, применяемые для работы с многоязычными текстами
Заключение
Библиографический список
ВВЕДЕНИЕ
Важнейшей для большинства людей возможностью компьютерной техники является не то, что эта техника может просто быстро производить математические вычисления - ведь множество людей до сих пор ведут финансовые расчёты, используя микрокалькуляторы, а не ПК, - а то, что компьютерная техника может быть использована для работы с текстовыми данными. Вероятно, каждый должен согласиться с тем, что подавляющее большинство пользователей ПК используют программы для обработки текстов чаще, чем программы какого-либо другого назначения. И с тем, что сейчас сложно будет найти компьютер, на котором не была бы установлена какая-либо программа для обработки текстов.
1 КОДИРОВАНИЕ СИМВОЛОВ: ОСНОВА ДЛЯ ОБЕСПЕЧЕНИЯ ВОЗМОЖНОСТИ РАБОТЫ КОМПЬЮТЕРОВ С ТЕКСТОВЫМИ ДАННЫМИ.
В современных компьютерных системах символы, которые люди используют для записи и передачи текстов на своём языке, кодируются с помощью чисел, записанных в двоичной системе счисления. Это делается потому, что микропроцессоры, лежащие в основе современных компьютерных систем, могут делать, по сути, лишь две вещи: производить действия двоичной арифметики и выполнять Булевы логические операции.
Поэтому когда ПК, к примеру, записывает букву "A" на дискету, он не создаёт изображения буквы "A" на магнитном носителе, а записывает на него двоичное число (состоящее из нолей и единиц), соответствующее букве "A" в специальной таблице символов. Вы спросите: но ведь ПК создаёт изображение буквы "A" на дисплее, когда я нажимаю клавишу "A"!? Конечно. Когда Вы нажимаете клавишу с буквой "A", первая вещь, которая при этом происходит - в клавиатуре генерируется число, соответствующее букве "A". ПК использует это число для выборки изображения буквы "A" из файла шрифта, в котором изображение каждой буквы пронумеровано в порядке, определяемом той или иной таблицей символов. Лишь после этого соответствующее изображение появляется на экране. То же самое происходит при печати текста, с той лишь разницей, что изображение буквы "A" оказывается на бумаге, а не на дисплее. Такая система, использующая а) пронумерованные таблицы символов и б) числа (двоичные коды) для внутреннего представления в компьютерах символов естественных языков, позволяет ПК гибко и эффективно делать такие вещи, которые невозможно было реализовать на простой пишущей машинке. ПК может не только распечатывать текст на бумаге, но позволяет также хранить, модифицировать, сортировать, принимать и передавать текстовые данные с умопомрачительно высокой скоростью. Наконец, при наличии соответствующего ПО ПК может быть использован для работы с текстами не на каком-то строго заданном одном, а сразу на многих языках.
2. РАННЯЯ ИСТОРИЯ КОДИРОВАНИЯ СИМВОЛОВ ЕСТЕСТВЕННЫХ ЯЗЫКОВ.
Телеграфия и начало электронной обработки данных
Каждый, кто когда-нибудь смотрел кино об американском Западе XIX-го века, знает, что первым методом кодирования, широко применяемым для преобразования символов и текстов в электронный вид, был метод, предложенный Морзе. То, что этот метод кодирования был изобретён для передачи сообщений по телеграфным линиям, а не для обработки текстов в компьютерах, общеизвестно. Однако гораздо меньшее количество людей знает, что его изобретатель, американец Сэмюэл Финли Бриз Морзе (1791-1872), был также известным художником. В своё время он изучал рисование в Лондоне и там узнал об исследованиях электромагнетизма, проводимых британскими учёными. Возвращаясь по морю в США в 1832-м году, он задумал создать свою собственную систему телеграфа. Именно с этой системы началось движение в сторону того мира электронных сетей, в котором мы сейчас живём, и именно за её разработку Морзе снискал славу "американского Леонардо да Винчи". Морзе изобрёл метод кодирования, который он использовал для посылки своего исторического сообщения, в 1838-м году. Метод кодирования Морзе напоминает двоичный код, используемый в современных компьютерах, тем, что он тоже базировался на двух возможных значениях - в случае метода кодирования Морзе, это были точка или тире. Однако в отличие от современных методов кодирования, используемых для нумерации символов в современных компьютерах, комбинации точек и тире, используемые для представления символов в методе кодирования Морзе, были разной длины. Морзе использовал принцип, по которому наиболее часто употребляемым буквам ставились в соответствие наиболее короткие последовательности из точек и тире, что существенно сокращало длину сообщения. Например, наиболее часто используемой в английском языке букве "E" в методе кодирования Морзе соответствует одна точка; второй по частоте использования букве английского языка - "T" - одно тире. Интересно, что Морзе подсчитывал частоту использования букв не путём изучения текстов, а путём подсчёта литер каждого типа в типографском наборе. Результатом его поистине каторжного труда стал высокоэффективный метод кодирования, который с некоторыми изменениями используется до сих пор, хотя с момента его изобретения прошло уже более 160 лет.
Следующим существенным прорывом вперёд в технологии телеграфа был примитивный печатающий телеграфный аппарат, или "телетайп"; его запатентовал во Франции в 1874-м году Жан Морис Эмиль Бодо (1845-1903). Как и телеграф Морзе, это изобретение привело к созданию новой системы кодирования символов - 5-битного метода кодирования Бодо. Метод кодирования Бодо стал первым в мире методом кодирования текстовых данных с помощью двоичных последовательностей. Сообщения, для передачи которых использовалась система кодирования Бодо, распечатывались операторами на узкие ленты для двухканальной связи с помощью специальных 5-клавишных клавиатур. В более поздних версиях устройства использовались клавиатуры с буквами, которые уже автоматически генерировали соответствующую той или иной букве 5-битную последовательность. Другой особенностью телетайпа Бодо было мультиплексирование, обеспечивающее возможность одновременной работы до 6-ти операторов благодаря применению системы временного распределения. Это позволило значительно увеличить пропускную способность телеграфной линии. Предложенная Бодо аппаратура зарекомендовала себя весьма положительно и оставалась в широком применении в XX-м веке, пока её не вытеснили телефоны и персональные компьютеры.
1890-й год: американское Бюро статистики и появление в нём новой системы для кодирования символов
Конец XIX-го века ознаменовался изобретением ещё одной системы для кодирования символов естественных языков. Он была создана в США для обработки данных, собираемых во время переписей населения, молодым американским* изобретателем, которого звали Герман Холлерит (1860-1929). После окончания Нью-Йоркской Колумбийской школы горного дела в 1879-м году, в 1880-м Холлерит устроился на работу в Бюро статистики при Министерстве внутренних дел США. Последствия этого, казалось бы, незначительного события сказывались впоследствии вплоть до 1970-х годов, "золотой эры" больших вычислительных машин. Герман Холлерит был ни кем иным, как изобретателем кода Холлерита, использовавшегося для записи алфавитно-цифровой информации на бумажных перфорированных картах. С появлением перфокарт в американских массах возникло шуточное выражение 'do not fold, spindle, or mutilate' ("не гнуть, не тянуть, не мять"), которое оставляло у многих американцев впечатление, что компьютеры скоро будут полностью контролировать их общество.
В системе кодирования Холлерита, на первый взгляд, двоичная последовательность, соответствующая одному алфавитно-цифровому символу, регистрировалась в 12-ти горизонтальных рядах перфокарты, и поскольку каждый из рядов мог быть перфорирован или не перфорирован (содержать 1 или 0), это давало бы 12-битный метод кодирования. Максимально возможное количество элементов, которое могло бы быть представлено с помощью такого метода кодирования - 212, то есть 4096. На самом же деле таблица символов, используемая в системе Холлерита, содержала только 69 символов - это были заглавные латинские буквы, арабские цифры, знаки препинания и некоторые другие символы. Таким образом, реальные возможности системы кодирования Холлерита по представлению текстовых данных были сравнимы даже с таковыми возможностями системы кодирования Бодо. Зачем же тогда, спросит читатель, на перфокарте было предусмотрено так много горизонтальных рядов? Одной из причин этому является тот факт, что большее количество рядов позволяет кодировать данные, производя меньшее количество перфораций, а это было критично, так как работа с перфораторами карт в течение многих лет производилась вручную. Поскольку рядов было много, для кодирования каждой из 10 арабских цифр (а также 2-х букв латинского алфавита) было достаточно сделать всего одну перфорацию на один вертикальный ряд. Оставшиеся 24 буквы латинского алфавита кодировались с помощью двух перфораций. Для кодирования знаков препинания и прочих символов требовалось сделать 2 или больше перфораций, поэтому нередко они вообще не использовались.
3. ТАБЛИЦЫ СИМВОЛОВ И МЕТОДЫ КОДИРОВАНИЯ, ПРИМЕНЯЕМЫЕ ДЛЯ РАБОТЫ С МНОГОЯЗЫЧНЫМИ ТЕКСТАМИ
Ранние многоязычные таблицы символов и методы кодирования
Изначально таблицы символов применялись только для удовлетворения нужд по обмену информацией и редактированию текстов на национальных языках конкретных государств, однако в реальном мире нередко бывает необходимо использовать в одном документе символы нескольких разных языков одновременно. Так, книгоиздательской промышленности нужно использовать множество символов иностранных языков при выпуске словарей иностранных слов или, например, книг иностранных авторов на языке оригинала. А с тех пор, как появилась сеть Internet, похоже, каждый человек по мере работы в ней будет сталкиваться с данными на иностранном языке, написанными набором символов, используемых другими нациями.
По этой причине эффективные многоязычные таблицы символов и методы для кодирования этих символов совершенно необходимы для жизни в XXI-м веке, но проблема в том, что они слишком долго не являлись предметом научных исследований и разработок. Самые первые такие таблицы и методы кодирования появились в первой половине 1980-х, в те времена, когда большинство компьютеров были 8-битными и 16-битными.
Наиболее достойными внимания среди них были рабочие станции Star, производимые корпорацией Xerox и имеющие программу для обработки многоязычных текстов, называемую ViewPoint, а также офисные компьютеры модели 5550, производимые корпорацией IBM. Обе эти системы позволяли работать с большим количеством азиатских языков, в дополнение к большому количеству языков, использующих латинский алфавит, но они так никогда и не вошли в широкое употребление из-за дороговизны. Однако многоязычная таблица символов, предложенная корпорацией Xerox, была взята на вооружение специалистами по компьютерной технике и лингвистами в США. Это в конце концов привело к созданию движения Unicode, предложившего свою многоязычную таблицу символов (и методы кодирования этих символов), которая сейчас является одним из главных соперников в борьбе за международное признание.
Проект TRON - многоязычная таблица символов и многоязычное окружение.
Таблица символов и метод кодирования TRON, а также многоязычное окружение TRON были впервые описаны на английском языке во время проведения 3-го симпозиума по проекту TRON в 1987-м году. В применённом в TRON подходе к обработке многоязычных документов существует ряд особенностей, делающих его уникальным. Одна из них состоит в том, что таблица символов TRON расширяема практически до бесконечности, что позволяет включить в нес символы всех без исключения языков, когда-либо использовавшихся (и используемых сейчас) человечеством, и даже символы тех языков, которые ещё не изобретены. Это реализовано с помощью escape-последовательностей, которые используются для переключения между очень большим количеством ("внутренних") таблиц, которые содержат символы, кодируемые с помощью 8-ми и 16-ти бит. Кроме того, в TRON имеются коды для идентификации языка, которые необходимы, например, для возможности реализации программ для правильной сортировки текстовых данных, содержащих символы разных языков.
Unicode и ISO 10646
Как уже было сказано выше, американские компьютерные корпорации начали в первой половине 1980-х гг. работу над созданием многоязычной таблицы символов и методов для кодирования этих символов. Результаты исследовательских работ в данной области, проведённых корпорациями Xerox и IBM, были успешно воплощены этими корпорациями в своих компьютерных системах. Исследователи из Xerox в последующем "обратили в свою веру" представителей других компьютерных корпораций США, и в конце концов они вместе начали проект американской индустрии, названный Unification Code, или Unicode, главной задачей которого было сведение всех существующих в мире таблиц символов в единую таблицу символов. ЗАКЛЮЧЕНИЕ
Как знает каждый, кто имеет хотя бы самое общее представление о мире компьютерной техники, будущее компьютеров начинает обращаться вокруг компьютерных сетей мирового масштаба. Сегодняшняя сеть Internet представляет из себя эту глобальную общемировую сеть пока в эмбриональном состоянии. Тем не менее, эти компьютерные сети мирового масштаба не смогут стать эффективными до тех пор, пока не будет проложено больше высокоскоростных линий связи, пока они не будут подключены к заводам, офисам и жилищам, и пока не будет создано новых стандартов, регламентирующих процессы обмена информацией. Среди прочих стандартов этого рода, одним из наиболее важных будет стандарт, определяющий многоязычную таблицу символов и способ для кодирования этих символов, используемые для обеспечения обработки данных на всех языках мира.
На данный момент для решения этой задачи предложено два стандарта. Один из них - это TRON, включающий в себя таблицу символов TRON и многоязычное окружение TRON, а другой - это Unicode. Тем временем многоязычный текстовый редактор Mule, работающий в UNIX и Unix-совместимых ОС, представляет собой временное решение.
Что произойдёт в будущем? Это сложно предсказать, но поскольку американские корпорации-поставщики компьютерной техники и ПО с помощью правительства США или без таковой пытаются внедрить Unicode в окружающий их мир своими традиционными методами, в виде открытия рыночной кампании, наиболее вероятным исходом будет битва между соперничающими стандартами, один из которых в конце концов будет решено использовать в качестве базового. И это будет тот стандарт, который, подчеркнём, выберут пользователи (а не производители) компьютерных систем.
Коммерчески доступная, базированная на BTRON операционная система работает на том же самом аппаратном обеспечении, что и базированная на Unicode Microsoft Windows NT, поэтому в Японии всем пользователям достаточно всего лишь переключиться с одной используемой на жёстком диске файловой системы на другую, для того, чтобы сделать выбор по своему усмотрению. Более того, поскольку протоколы Internet, как было сказано выше, позволяют использовать любые таблицы символов и методы кодирования символов, эта битва стандартов окажет лишь незначительное влияние на строение сетей передачи данных.
И поэтому можно с уверенностью сказать, что у пользователей персональных компьютеров, впервые за долгое время, реально появился выбор!
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
dipland.ru