Сканирование и распознавание
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ. Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Естественно приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.
Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.
Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется значительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.
Рти алгоритмы РјРѕРіСѓС‚ давать разные результаты РЅР° разных документах. Например, упоминавшиеся выше системы OCR СЃРїРѕСЃРѕР±РЅС‹ распознавать только стандартный специально подготовленный шрифт Рё дают РЅР° этом шрифте наилучшие результаты, которые РЅРµ может превзойти РЅРё РѕРґРЅР°, РёР· более универсальных программ.
Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.
Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известна и распространена программа FineReader. Мы подробно остановимся именно на этой программе, обеспечивающей высокое качество распознавания и удобство применения.
Программа FineReader
Программа FineReader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Рта программа предназначена для распознавания текстов РЅР° СЂСѓСЃСЃРєРѕРј, английском, немецком, украинском, французском Рё РјРЅРѕРіРёС… РґСЂСѓРіРёС… языках, Р° также для распознавания смешанных текстов.
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов. Она позволяет редактировать распознанный текст и проверять его орфографию.
FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 7.0
Распознавание документов в программе FineReader
После установки программы FineReader в меню Программ Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows вид и содержит строку меню, ряд панелей инструментов и рабочую область.
Р’ левой части рабочей области располагается панель Пакет, содержащая СЃРїРёСЃРѕРє графических документов, которые должны быть преобразованы РІ текст. Рти графические файлы рассматриваются как части РѕРґРЅРѕРіРѕ документа. Результаты РёС… обрабатываются Рё РІ дальнейшем объединяются РІ единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.
Панель РІ нижней части рабочей области содержит фрагмент графического документа РІ увеличенном РІРёРґРµ. РЎ ее помощью можно оценить качество распознавания. Рту панель используют также РїСЂРё «обучении» программы РІ С…РѕРґРµ распознавания.
Остальную часть рабочей области занимают окна документа. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.
В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут быть использованы в программе FineReader.
Панель инструментов Стандартная содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения рабочей зоны.
Панель Scan&Read содержит кнопки, соответствующие этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.
Панель Рзображение используют РїСЂРё работе СЃ исходным изображением. Р’ частности, РѕРЅР° позволяет управлять сегментацией документа. РЎ помощью элементов управления этой панели задают последовательность фрагментов текста РІ итоговом документе.
Рлементы управления панели Форматирование используют для изменения представления готового текста или РїСЂРё его редактировании.
Как ввести документ за минуту
Включите сканер (если он имеет отдельный от компьютера источник питания).
Внимание! Многие модели сканера необходимо включать до включения компьютера.
Вставьте в сканер страницу, которую Вы хотите распознать.
Нажмите на стрелку справа от кнопки Scan&Read, в открывшемся локальном меню выберите пункт Мастер Scan&Read.
Мастер Scan&Read вызывает специальный режим, при котором Вы можете отсканировать и распознать страницу или открыть и распознать графическое изображение (пример графического файла Вы можете найти в папке Dio. Она находится в папке, в которую Вы установили FineReader). При этом каждый шаг сопровождается подсказками системы.
Далее следуйте указаниям Мастера Scan&Read.
Процесс ввода документов в компьютер состоит из четырех этапов: сканирования, распознавания, проверки и сохранения результатов распознавания.
Р’ результате сканирования появится РѕРєРЅРѕ Рзображение, содержащее "фотографию" страницы. Затем программа РїРѕРїСЂРѕСЃРёС‚ Вас установить параметры распознавания Рё приступит Рє распознаванию изображения, одновременно анализируя его. Обработанные участки изображения закрашиваются голубым цветом.
Результат распознавания Вы увидите в окне Текст. В этом же окне Вы можете проверить и отредактировать распознанный текст. Следуя далее указаниям Мастера Scan&Read, Вы можете либо передать распознанный текст в выбранное Вами приложение или сохранить его на диске, либо продолжить обработку следующих изображений.
Параметры сканирования
Рспользуйте разрешение 300 dpi для стандартных текстов (размер шрифта 10pts. Рё больше) Рё разрешение 400-600 dpi для текстов СЃ меньшим шрифтом (9pts. Рё меньше). Сканирование РІ сером режиме рекомендуется для повышения качества распознавания. РџСЂРё сканировании РІ сером режиме яркость регулируется автоматически. Если Р’С‹ хотите, чтобы диалог Настройки сканера открывался каждый раз перед сканированием РїСЂРё работе РІ режиме - Рспользовать интерфейс FineReader, Меню Сервис — Опции - РЅР° закладке Сканирование / отметьте опцию - Запрашивать опции перед началом сканирования.
Анализ оформления страницы
Анализ оформления страницы может проходить как вручную, так и автоматически. В большинстве случаев программа FineReader сама выполняет сложную задачу анализа страницы. Нажмите кнопку Распознать для запуска автоматического анализа оформления страницы. Распознавание и анализ страницы выполняются одновременно.
Если программа выделила некоторые блоки неправильно, проще и быстрее редактировать неправильно размеченные блоки, используя инструмент для редактирования блоков, чем удалять блоки и выделять их заново вручную.
В некоторых случаях качество автоматического анализа страницы может быть улучшено с помощью изменения опций анализа оформления страницы. Для просмотра текущих опций страницы меню Сервис — Опции / закладка Распознавание.
Улучшение качества распознавания изображений сдвоенных страниц
Чтобы увеличить качество распознавания, разбейте сканируемые изображения так, чтобы каждой РёР· пары сдвоенных страниц РЅР° изображении соответствовала отдельная страница пакета. Рзображения РјРѕРіСѓС‚ быть разбиты как автоматически, так Рё вручную.
Чтобы разбивать изображения автоматически перед добавлением РІ пакет РЅР° стрелке возле РєРЅРѕРїРєРё Сканирование/Открыть РІ диалоге Опции, отметьте опцию - Делить разворот РєРЅРёРіРё. Чтобы разбивать изображения вручную, отметьте опцию - Разбить изображение РІ меню Рзображение. Устранение искажений, анализ оформления страницы Рё распознавание Р±СѓРґСѓС‚ проходить отдельно для каждой страницы.
Неправильно отображаемые символы
Если в окне Текст программы FineReader символы отображаются неправильно (например, "?" или "?" на месте некоторых букв), это означает, что текущий шрифт не поддерживает полностью алфавит выбранного Вами языка распознавания. Выберите шрифт, который поддерживает все символы текста распознаваемой страницы (например, Arial Unicode или Bitstream Cyberbit) на закладке Форматирование (меню Свойства — Опции) в группе Шрифты, и распознайте документ заново.
Редактирование распознанного текста в Microsoft Word
Если Вы предпочитаете редактировать распознанный текст в Microsoft Word, а не в текстовом окне программы FineReader, Вы можете сделать так, чтобы неуверенно распознанные символы остались подсвеченными. В меню Сервис выберите пункт Форматы - на закладке RTF/DOC/Word XML отметьте опцию Цветом фона и/или Цветом символа в группе - Выделять неуверенно распознанные символы. В сохраненном файле все неуверенно распознанные символы будут подсвечены выбранными Вами на этой закладке цветами.
Теперь остановимся немного подробнее на панелях программы и правилах работы с программой.
Основные панели
Главная панель программы Scan&Read
Мастер Scan&Read - запускает специальный режим сканирования и распознавания, во время которого система контролирует действия пользователя и подсказывает ему, что надо делать, чтобы получить тот или иной результат. Сканировать и распознать - запускает сканирование и распознавание документа. Сканировать и распознать несколько страниц - сканирует и распознает несколько страниц в цикле.
Открыть и распознать - позволяет открыть и распознать изображения, выбранные в диалоге Открыть (Open).
Открыть изображение - добавляет изображение в пакет, при этом копия изображения сохраняется в папке пакета.
Сканировать изображение - сканирует изображение. Сканировать несколько страниц – сканирует изображения в цикле. Чтобы остановить сканирование,
в меню Файл выберите пункт Остановить сканирование. Опции - открывает закладку Сканирование/Открытие диалога Опции, на которой Вы может установить опции сканирования и предварительной обработки документа.
Распознать - распознает открытую страницу (или выделенные страницы) пакета.
Распознать все - распознает все нераспознанные страницы пакета.
Опции - открывает закладку Распознавание диалога Опции, на которой Вы может установить опции распознавания документа.
Проверить - позволяет найти в тексте слова, содержащие неуверенно распознанные символы, и неправильно написанные слова.
Опции - открывает закладку Проверка диалога Опции, на которой Вы можете установить опции проверки документа.
Мастер сохранения результатов - открывает диалог Мастер сохранения результатов, в котором Вы можете выбрать приложение для сохранения и установить опции сохранения.
Сохранить текст в файл - сохраняет распознанный текст в файл на диск.
Передать страницы в - напрямую передает распознанный текст в выбранное приложение без сохранения его на диск. При передаче распознанного текста с нескольких страниц пакета сначала выделите их в окне Пакет.
Передать все страницы в - передает все распознанные страницы в выбранное приложение без сохранения их на диск.
Опции - открывает закладку Форматирование диалога Опции, на которой Вы можете установить опции сохранения документа.
Панель Рзображение
Советы и примеры
PDF документ
Одним из наиболее популярных форматов представления электронных документов в Internet, архивах и т.д. является формат PDF (Portable Document Format).
Открыв PDF-файл в FineReader, Вы можете его распознать, отредактировать и сохранить либо в PDF, выбрав один из четырех режимов сохранения оформления документа (только текст и картинки, только изображение, текст поверх изображения картинки, текст под изображением картинки), либо в любом другом поддерживаемом формате сохранения.
Чтобы установить режимы сохранения в формате PDF:
В меню Сервис выберите пункт Форматы.
На закладке PDF диалога Форматы установите требуемый режим.
PDF является распространенным форматом для пересылки документов по электронной почте или публикации документов на web-сайтах. Естественно, что при публикации на web-сайтах очень важна высокая скорость открытия документов. Документ, сохраненный из программы FineReader в формате PDF, отвечает подобным требованиям. Структура PDF такова, что позволяет открывать в пользовательском браузере для просмотра первые страницы PDF документа, не дожидаясь, когда весь файл целиком будет загружен с web-сервера.
Сложная журнальная страница
Описание ситуации: плохое качество распознавания вследствие неправильного выделения блоков.
Решение: В результате автоматического анализа данной страницы были выделены лишние блоки (например, участки текста на картинке). Проверьте количество блоков, а также отредактируйте форму выделенных блоков.
Для этого воспользуйтесь инструментами РЅР° панели Рзображение:
- чтобы удалить выделенные на картинке лишние блоки текста или предварительно, выделив блок, нажмите на клавиатуре кнопку Delete;
Рё
- чтобы нарисовать блоки непрямоугольной формы;
Рё
- чтобы нарисовать текстовый блок и блок-картинку, либо нарисуйте блок самостоятельно, как если вы рисовали просто прямоугольник в графическом редакторе и в контекстном меню (правой кнопкой мыши на блоке) выберите тип требуемого блока.
Замечание: При выделении текстовых блоков следите за тем, чтобы границы блоков совпадали с границами текста.
Книжный разворот
Описание ситуации: за одно сканирование сканируется пара страниц (книжный разворот), при этом каждая страница имеет свой угол наклона, что отрицательно сказывается на качестве распознавания, кроме того, обе страницы сохраняются на одну страницу в две колонки.
(DualPage.tif)
При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию при распознавании программа автоматически определяет и корректирует ориентацию изображения. У изображений со сдвоенными страницами стандартная ориентация отсутствует, так как каждая страница имеет свой угол наклона.
Решение: Р’ программе существует специальный режим, РїСЂРё котором изображение СЃРѕ сдвоенными страницами разрезается РЅР° РґРІРµ части Рё превращается РІ РґРІРµ отдельные страницы пакета. Рто позволяет обработать каждую страницу: автоматически исправить СѓРіРѕР» наклона Рё сохранить распознанный текст СЃ каждой страницы РІ отдельный файл (или РЅР° отдельную страницу).
Чтобы установить данный режим, перед добавлением изображения в пакет на закладке Сканирование/Открытие в группе Обработка изображений отметьте опцию - Делить книжный разворот.
Разрезать изображение со сдвоенными страницами на две части, которые впоследствии будут преобразованы в две отдельные страницы пакета, можно также с помощью опции - Разбить изображение.
Визитные карточки
Конечно, это очень удобно - вся важная информация о человеке сконцентрирована на листке бумаги небольшого формата. Но иногда пугает их количество, и мы тратим массу времени для того, чтобы их упорядочить, привести в систему, найти удобное средство хранения.
Удобный СЃРїРѕСЃРѕР± РІРІРѕРґР° Рё хранения визиток РІ компьютере СЃ помощью программы FineReader. Р’СЃРµ визитки обрабатываются Рё хранятся РІ пакете программы. Рспользуя функцию полнотекстового РїРѕРёСЃРєР° РїРѕ распознанным страницам пакета, Р’С‹ можете найти нужную визитку (РїСЂРё этом РїРѕРёСЃРє возможен РїРѕ любой распознанной информации СЃ визитки - РїРѕ названию компании, фамилии, телефону Рё С‚.Рґ.). РЎРїРёСЃРѕРє найденных визиток показывается РІ РѕРєРЅРµ РџРѕРёСЃРє.
Чтобы открыть визитку, выберите запись в результатах поиска.
Вы можете пополнять пакет новыми визитками, редактировать уже распознанные визитки в окне Текст.
Положите несколько визитных карточек (столько, сколько уместится) в сканер.
Внимание! Визитки должны быть разложены так, чтобы в результате была получена "табличная структура". Между рядами и колонками должно быть некоторое расстояние. Допустимо либо горизонтальное (более длинные стороны визиток расположены вдоль горизонтали), либо вертикальное размещение визиток на листе, но не оба сразу.
Установите следующие параметры сканирования:
разрешение - 400-600 dpi (обычно визитные карточки содержат текст, набранный мелким шрифтом, для хорошего распознавания которого требуется отсканировать документ с более высоким разрешением вместо обычных 300 dpi).
тип изображения - серый или цветной.
Нажмите кнопку - Сканировать.
Для повышения качества распознавания, полученные изображения СЃ визитками следует разделить так, чтобы каждой визитке соответствовала отдельная страница пакета. Р’ этом случае исправление перекоса строк, анализ Рё распознавание будет проводиться для каждой визитки. Для этого РІ меню Рзображение выберите РїСѓРЅРєС‚ - Разбить изображение. Р’ открывшемся диалоге - Разбить изображение нажмите РєРЅРѕРїРєСѓ, Р° затем РєРЅРѕРїРєСѓРћРљ. Р’ РѕРєРЅРµ Пакет появятся новые страницы: каждая страница будет содержать изображение РѕРґРЅРѕР№ визитки. РџСЂРё этом РёСЃС…РѕРґРЅРѕРµ изображение (содержащее несколько визиток) будет удалено РёР· пакета.
Замечание: Если изображение было поделено на визитки неверно, то попробуйте поделить изображение вручную. Для этого воспользуйтесь кнопками и
. Чтобы передвинуть или удалить разделитель, нажмите кнопкуВыбор разделителя -
, мышью переместите разделитель в нужное место. Для удаления разделителя переместите его за границы изображения. Чтобы удалить все разделители, нажмите кнопку
.
Установите язык распознавания. Если требуется, установите несколько языков. При этом помните, что увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2-3 языков. Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в окне Текст (в словах на месте некоторых букв стоят значки "?" или "?").
Нажмите кнопку - Распознать.
Программная распечатка
Описание ситуации: данный пример имеет две особенности, влияющие на качество распознавания:
программа передает отступы от левого края листа не пробелами, а с помощью задания отступов абзаца; при экспорте в .txt левый отступ не сохраняется; некоторые строки объединяются в один абзац и при экспорте объединяются в одну строку;
много ошибок при распознавании конструкций языков программирования.
Решение: Для распознавания таких документов существует специальная опция программы Форматированный пробелами текст. Устанавливается в группе Тип страницы на закладке Распознавание диалога Опции (меню Сервис — Опции).
В этом случае в распознанном тексте сохранится деление на строки; отступы от левого края будут переданы пробелами; каждая строка выделена в отдельный абзац, а расстояния между абзацами переданы пустыми строками. Все это позволит сохранить исходное форматирование текста при сохранении в формате Txt.
Для хорошего распознавания распечаток программ требуется установить специальный язык распознавания. Для этого:
В списке языков на панели - Стандартная выберите значение Выбор из полного списка языков и в открывшемся диалоге Язык распознаваемого текста выберите пункт C++.
Замечание: Если распознаваемая программная распечатка помимо программного кода содержит текстовые комментарии, то для хорошего распознавания необходимо выбрать несколько языков распознавания: язык программирования и язык, на котором написаны комментарии.
Таблица с неполным количеством черных разделителей
Описание ситуации: все строки таблицы между черными горизонтальными линиями (разделителями) объединены в одну строку таблицы.
Если в таблице встречается смешанное разделение на строки и столбцы, при котором некоторые строки разделены черными разделителями, а некоторые нет, программа может разбить таблицу на строки неправильно.
Решение: Программу можно "заставить" выделять каждую строку текста в отдельную строку таблицы, отметив специальную опцию на закладке Распознавание (меню Сервис — Опции) в группе Таблицы: В каждой ячейке таблицы не более одной строки текста.
Сложная таблица
Описание ситуации: неправильный анализ таблиц со сложной нерегулярной структурой: неправильное разделение таблицы на строки и столбцы; неправильное выделение картинок в ячейках таблицы; плохое распознавание вертикального и инвертированного текста.
Решение: Воспользуйтесь инструментами ручной разметки таблиц, расположенными РЅР° панели Рзображение:
- чтобы добавить вертикальную линию;
- чтобы добавить горизонтальную линию;
- чтобы удалить линию.
Для ячеек таблицы, содержащих только картинки, в диалоге Свойства блока (меню Вид — Свойства), отметьте пункт - Считать ячейку картинкой.
studfiles.net
В
В
В
В
В
В
В
В
В
В
В
В
В
В
В
В
В
В
В
2012 РіРѕРґ
РћРґРЅРёРј РёР· основных СЃРїРѕСЃРѕР±РѕРІ РІРІРѕРґР° информации РІ вычислительные системы является сканирование. Рменно сканер стал тем устройством, СЃ помощью которого РІ компьютер попадает РѕРіСЂРѕРјРЅРѕРµ количество информации.
РЎ помощью современной аппаратуры сканирования СЃ высоким разрешением РёСЃС…РѕРґРЅРѕРіРѕ документа довольно просто формируется графический файл специального формата. Такой файл после соответствующей обработки может быть преобразован РІ любой РёР· форматов, которые применяются РІ информационных технологиях. Рто форматы представления текстов Рё графических РІРёРґРѕРІ информации – фотографий, слайдов, СЂРёСЃСѓРЅРєРѕРІ Рё С‚.Рї.
Преобразование документа в электронный вид делится на два этапа: получение графического образа документа и перевод графического образа в текстовый формат. Графический образ документа является результатом сканирования. Перевод графического образа документа в текстовый формат может быть произведен вручную или посредством автоматического распознавания.
Говоря о сканировании, вспомним, что же такое сканер? А так же рассмотрим основные характеристики сканеров.
В
Ска́нер (англ. scanner) — устройство, выполняющее преобразование расположенного на плоском носителе (чаще всего бумаге) изображения в цифровой формат.
В 1857 году флорентийский аббат Джованни Казелли (итал. Giovanni Caselli) изобрёл прибор для передачи изображения на расстояние, названный впоследствии пантелеграф. Передаваемая картинка наносилась на барабан токопроводящими чернилами и считывалась с помощью иглы.
Р’В 1902 РіРѕРґСѓ, немецким физиком Артуром РљРѕСЂРЅРѕРјВ (нем.В Arthur Korn) была запатентована технология фотоэлектрического сканирования, получившая впоследствии название телефакс. Передаваемое изображение закреплялось РЅР° прозрачном вращающемся барабане, луч света РѕС‚ лампы, перемещающейся вдоль РѕСЃРё барабана, РїСЂРѕС…РѕРґРёР» СЃРєРІРѕР·СЊ оригинал Рё через расположенные РЅР° РѕСЃРё барабана призму и объектив попадал населеновый фотоприёмник. Рта технология РґРѕ СЃРёС… РїРѕСЂ применяется РІ барабанных сканерах.
В дальнейшем, с развитием полупроводников, усовершенствовался фотоприёмник, был изобретен планшетный способ сканирования, но сам принцип оцифровки изображения остаётся почти неизменным.
Основные характеристики сканеров.
Виды сканеров.
Принцип действия
Сканируемый объект кладется на стекло планшета сканируемой поверхностью вниз. Под стеклом располагается подвижная лампа, движение которой регулируется шаговым двигателем. Свет, отраженный от объекта, через систему зеркал попадает на чувствительную матрицу, далее на АЦП и передается в компьютер. За каждый шаг двигателя сканируется полоска объекта, которые потом объединяются программным обеспечением в общее изображение.
Рзображение всегда сканируется в формат RAW — а затем конвертируется РІ обычный графический формат СЃ применением текущих настроек яркости, контрастности, Рё С‚. Рґ. Рта конвертация осуществляется либо РІ самом сканере, либо РІ компьютере — РІ зависимости РѕС‚ модели конкретного сканера. РќР° параметры Рё качество RAW-данных влияют такие аппаратные настройки сканера, как время экспозиции матрицы, СѓСЂРѕРІРЅРё калибровки белого Рё чёрного, Рё С‚. Рї.
В
Для пользователей компьютеров единственным путём просмотра электронных файлов является сканирование изображения. Во время этого процесса сканер преобразовывает текст, графику листа и плёнку в цифровой образ, процесс преобразования может быть аналоговым и цифровым.
Процесс сканирования изображения является лёгким и доступным и чаще всего работают СЃРѕ сканером, при использовании РѕРЅ является наиболее эффективным Рё разнообразным. Его широко используют для коммерческих целей, РЅРѕ любителям также нравится сканировать изображения, особенно если РѕРЅРё увлекаются фотографиями. Также часто его используют РІ художественном творчестве, это заодно Рё весело, Рё полезно.В
Обучающая программа по сканированию всегда доступна, как и для рисунка, так и для документов. Не для пользователей компьютеров единственным путём просмотра электронных файлов является сканирование изображения. Во время этого процесса сканер преобразовывает текст, графику листа и плёнку в цифровой образ, процесс преобразования может быть аналоговым и цифровым.
Для сканирования изображения нужно следовать нескольким основным шагам, для любого типа сканера или программного обеспечения метод сканирования фотографий РЅР° планшетном сканере РѕРґРёРЅ Рё тот же. РљРѕРіРґР° лампа светит РЅР° фотографию, оптические ячейки сканера фиксируют цвета, отражающиеся СЃ точек изображения. Такими цветами являются красный, зелёный Рё СЃРёРЅРёР№. (РљР—РЎ).В
Пиксель или элемент СЂРёСЃСѓРЅРєР° передаётся Рє каждой точке Рё измеряется РІ пикселях РёР· расчёта РЅР° РґСЋР№Рј, это является разрешением образа. РўСЂРё числа представляют каждый пиксель РЅР° образе, Рё эти числа показывают яркость красного, зелёного Рё синего компонента цвета. Ртак, есть разные форматы изображения, Рё каждый формат хранит информацию Рѕ пикселях Рё цветах РІ разных вариантах. имеет значения, что РІС‹ хотите перенести РІ компьютер: текст или СЂРёСЃСѓРЅРѕРє, РІС‹ должны знать, как работать СЃРѕ сканером. Обычно программное обеспечение объясняет РІСЃРµ шаги детально, Рё сканировать изображения РІС‹ можете практически как цветным, так Рё чёрно- белым.
Пиксель или элемент рисунка передаётся к каждой точке и измеряется в пикселях РёР· расчёта на РґСЋР№Рј, это является разрешением образа. Три числа представляют каждый пиксель РЅР° образе, Рё эти числа показывают яркость красного, зелёного Рё синего компонента цвета. Ртак, есть разные форматы изображения, Рё каждый формат хранит информацию Рѕ пикселях Рё цветах РІ разных вариантах.
Сканирование документов – процесс создания электронного изображения бумажного документа, напоминает его фотографирование. На этапе сканирования производится получение изображения при помощи сканера и сохранение их в виде, удобном для последующей обработки.
Процесс сканирования осуществляется автоматически и требует от пользователя только вспомогательных операций, таких как смена сканируемой страницы.
Сканирование, как единый сквозной процесс, распадается на две независимых ветви. По одному направлению идёт ввод в вычислительные системы текстовых массивов информации, по другому – графических.
Задача сканирования текстов, при необходимом качественном разрешении, на 90% состоит в распознавании. А для этого разработано математическое обеспечение, которое позволяет эффективно построить технологию получения качественных электронных документов.
Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов.
В
Процесс распознавания изображений является сложной многоэтапной процедурой. Многоэтапность (иерархичность) обусловлена тем, что различные задачи обработки на самом деле тесно связаны и качество решения одной из них влияет на выбор метода решения остальных. Так выбор метода распознавания зависит от конкретных условий предъявления входных изображений, в том числе характера фона, других изображений, помеховой обстановки и связан с выбором методов предобработки, сегментации, фильтрации.
Распознавание — чаще всего конечный этап обработки, лежащий в основе процессов интерпретации и понимания. Входными для распознавания являются изображения, выделенные в результате сегментации и, частично, отреставрированные. Они отличаются от эталонных геометрическими и яркостными искажениями, а также сохранившимися шумами.
На этом шаге происходит идентификация документа и выделение его объектов (полей, пометок, штрихкодов и прочего), удаляются помехи, которые мешают распознаванию (например, разграфка). Далее происходит распознавание полей документа. Затем проводится оценка достоверности результатов распознавания, после чего производится обобщенный лингвистический анализ поля.
После распознавания может следовать специальная обработка его результатов на основании априорной лингвистической и структурной информации о поле. После этого принимается решение о достоверности результатов распознавания. В системе реализована схема, признающая поле недостоверным в случае наличия в нем хотя бы одного недостоверного символа. После этого происходит сохранение результатов распознавания во внутренний формат системы и выполняется контроль логической непротиворечивости данных.
referat911.ru
сканеры и программное обеспечение распознавания символов
В
В В
Цели:
Ска́нер.
В
В
В В В
В
В
   Во время сканирования РїСЂРё помощи АЦП создаётся цифровое описание изображения внешнего для РР’Рњ образа объекта, которое затем передаётся посредством системы РІРІРѕРґР°-вывода РІ РР’Рњ.
Р’РёРґС‹ сканеровВ
В
В
РсторияВ
В
В
Сканеры применяют для ввода в компьютер рисунков, которые сразу же можно обрабатывать в графическом редакторе. Сканеры лучше вводят плоское изображение в компьютер, чем цифровые камеры
Виды Сканеров
В
В
Сканер – это устройство, которое, анализируя какой-либо объект (обычно изображение, текст), создаёт цифровую РєРѕРїРёСЋ изображения объекта. Процесс получения этой РєРѕРїРёРё называется сканированием. В
В
Оптическое распознавание символов
В
Программное обеспечение сканеров.
В
При решении вопроса о приобретении сканера важнее всего правильно выбрать программное обеспечение, которое наилучшим образом могло бы соответствовать конкретным задачам сканирования.
В настоящее время имеется довольно много прикладных пакетов для сканирования текстовой и графической информации.
РџСЂРё выборе конкретного программного обеспечения для сканера рекомендуется принимать РІРѕ внимание следующие характеристики :В
В
В
ДРАЙВЕРА
В
В
В
Часто Сѓ пользователя-новичка есть возможность, что называется, довериться программе сканирования. Например, драйвер VistaScan сканеров UMAX предлагаВет 2 РѕРєРЅР° настроек: Beginner Рё Advanced. Причем если второе дает возможность Р·Р°Вдать РІСЃРµ режимы самому, то новичку достаточно лишь выбрать РІ РѕРєРЅРµ Beginner тип изображения (Color Photo, Text/LineArt, Printed Matter, Web Image), Р° остальное РїСЂРѕВграмма сделает сама. Р’ РѕРєРЅРµ Advanced можно выбрать РїРѕРјРёРјРѕ режима сканироваВРЅРёСЏ РѕРґРёРЅ РёР· встроенных фильтров: несколько уровней Descreen (удаление печатноВРіРѕ растра) Рё маскирование нерезкости.
В
В
HP ScanJet 6300C/ 6350РЎ/ 6390РЎ  Цветной/монохромный планшетный сканер В
В
myunivercity.ru
Процесс ввода документов в компьютер состоит из четырех этапов: сканирование, распознавание, проверка и сохранение результатов распознавания.
Р’ результате сканирования появится РѕРєРЅРѕ Рзображение, содержащее «фотографию» страницы. Затем программа РїРѕРїСЂРѕСЃРёС‚ Вас установить параметры распознавания Рё приступит Рє распознаванию изображения, одновременно анализируя его. Обработанные участки изображения закрашиваются СЃРёРЅРёРј цветом.
Результат распознавания Вы увидите в окне Текст. В этом же окне Вы можете проверить и отредактировать распознанный текст. Следуя далее указаниям Мастера Scan&Read, Вы можете либо передать распознанный текст в выбранное Вами приложение или сохранить его на диск, либо продолжить обработку следующих изображений.Мастер Scan&Read вызывает специальный режим, при котором можно отсканировать и распознать страницу или открыть и распознать графическое изображение. При этом каждый шаг сопровождается подсказками системы.
Сканирование:FineReader работает со сканерами через TWAIN-интерфейс. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN-драйвер:
— через интерфейс FineReader: в этом случае для настройки опций сканирования используется диалог программы FineReader Настройки сканера;
— через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.
Преимущества одного режима перед другим:
— РІ режиме Рспользовать интерфейс TWAIN-драйвера сканера, как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задать размеры сканируемой области, подобрать яркость, тут же контролируя результаты этих изменений. Рљ сожалению, диалог TWAIN-драйвера сканера Сѓ каждого сканера выглядит РїРѕ-своему, РІ большинстве случаев РІСЃРµ надписи РЅР° английском языке. Р’РёРґ этого РѕРєРЅР° Рё смысл опций описан РІ документации, прилагаемой Рє сканеру.
— РІ режиме Рспользовать интерфейс FineReader доступны такие опции, как возможность сканирования РІ цикле РЅР° сканерах без автоподатчика, сохранение опций сканирования РІ отдельный файл Шаблон пакета (*.fbt) Рё возможность использования этих опций РІ РґСЂСѓРіРёС… пакетах.
Р’С‹ можете легко переключаться между этими режимами: РЅР° закладке Сканирование/Открытие диалога Опции (меню Сервис>Опции) установите переключатель РІ РѕРґРЅРѕ РёР· положений: Рспользовать интерфейс TWAIN-драйвера сканера илиРспользовать интерфейс FineReader.
Примечание.
1. Для некоторых моделей сканеров опция Рспользовать интерфейс FineReader может быть РїРѕ умолчанию отключена (недоступна).
2. Чтобы РІ режиме Рспользовать интерфейс FineReader показывался диалог Настройки сканера, РЅР° закладке Сканирование/Открытие (Сервис>Опции) отметьте РїСѓРЅРєС‚ Запрашивать опции перед началом сканирования.
Задание:
Чтобы запустить сканирование: РІ меню Файл выберите РїСѓРЅРєС‚ Сканировать. Спустя некоторое время РІ Главном РѕРєРЅРµ программы FineReader появится РѕРєРЅРѕ Рзображение СЃ «фотографией» вставленного листа.
(Если Вы хотите отсканировать несколько страниц, то нажмите стрелку справа от кнопки Сканировать и в локальном меню выберите пункт Сканировать несколько страниц).
В случае если сканирование не началось сразу:
— откроется встроенный TWAIN-интерфейс сканера;
— откроется диалог Настройки сканера.
Если Вы хотите сразу запустить распознавание отсканированных страниц, воспользуйтесь опцией Сканировать и распознать или Сканировать и распознать несколько страниц: нажмите стрелку справа от кнопки Scan&Read и в локальном меню выберите один из пунктов: Сканировать и распознать или Сканировать и распознать несколько страниц.
FineReader отсканирует Рё распознает изображения. Р’ Главном РѕРєРЅРµ программы появятся РѕРєРЅРѕ Рзображение СЃ «фотографией» вставленного листа Рё РѕРєРЅРѕ Текст СЃ результатом распознавания. Распознанный текст Р’С‹ можете сохранить РІРѕ внешние редакторы Рё форматы.
Проверка и редактирование текста:После завершения распознавания результат появляется в окне Текст. Окно Текст — это встроенный редактор программы FineReader; в нем Вы можете проверить результаты распознавания и отредактировать распознанный текст.
Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии (список языков, для которых поддерживается проверка орфографии, приведен в Поддерживаемых языках распознавания). Система встроенной проверки орфографии позволяет:
— находить неуверенно распознанные слова (слова, в которых есть неуверенно распознанные символы).
— находить орфографические ошибки (неправильно написанные слова).
— добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.
Сохранение во внешние редакторы и форматы:Результаты распознавания можно сохранить в файл, передать во внешнее приложение, не сохраняя на диск, скопировать в буфер обмена или отправить по электронной почте. Сохранить можно все страницы или только выбранные.
Вы можете:
— сохранить распознанный текст, используя Мастер сохранения результатов.
— сохранить открытую или выделенные в окне Пакет страницы в файл или во внешнее приложение.
— сохранить все страницы пакета в файл или во внешнее приложение.
— сохранить изображение страницы.
Кнопка Сохранить позволяет передать результаты распознавания в выбранное приложение или сохранить их в файл. Внешний вид иконки меняется в зависимости от выбранного режима сохранения; подпись Сохранить меняется на название выбранного приложения. Чтобы сохранить распознанный текст, нажмите стрелку справа от кнопки Сохранить и в локальном меню выберите необходимый пункт.
Контрольные вопросы:
В
2.13 Практическая работа № 13
www.ronl.ru