ОГЛАВЛЕНРР•
ВВЕДЕНРР•
1 СРЕДСТВА РџРћРРЎРљРђ
1.1 Средства поиска файлов
1.2 Средства WWW – World Wide Web (Всемирная сеть)
2 ОСНОВНЫЕ РџР РЕМЫ РџРћРРЎРљРђ РНФОРМАЦРР Р’ РНТЕРНЕТЕ
2.1 Основные требования к поиску
2.2 Методика РїРѕРёСЃРєР° информации РІ Рнтернете
2.3 Развитие информационного ресурса
2.4 Требования к инструментам поиска
2.5 Структура поисковых сервисов
2.6 Глобальные поисковые машины WWW
2.7 Планирование поиска
ЗАКЛЮЧЕНРР•
РЎРџРРЎРћРљ РСПОЛЬЗОВАННОЙ Р›РТЕРАТУРЫ
ВВЕДЕНРР•
Сеть Рнтернет похожа РЅР° РѕРіСЂРѕРјРЅСѓСЋ РјРёСЂРѕРІСѓСЋ библиотеку, имеющую только РѕРґРЅРѕ, РЅРѕ существенное отличие: для РїРѕРёСЃРєР° РєРЅРёРіРё РІ библиотеке есть каталог, РІ крайнем случае, можно обратиться Рє опытному библиотекарю. Полного каталога Рнтернета РЅРµ существует. РќРѕ, тем РЅРµ менее, РїРѕРёСЃРє РІ глобальной компьютерной сети возможен, Рё это, пожалуй, является РѕРґРЅРѕР№ РёР· наиболее важных его сторон. Для РїРѕРёСЃРєР° данных РІ сети используются специальные серверы, информация РЅР° которых поддерживается Рё обновляется практически автоматически.
Сегодня, РєРѕРіРґР° Рнтернет стал РѕРґРЅРёРј РёР· основных источников информации, РїРѕРёСЃРє РІ Сети приобретает РІСЃРµ большую практическую ценность. РќРѕ СЃ быстрым увеличением объема доступных данных РІСЃРµ более усложняется Рё сама процедура РїРѕРёСЃРєР°.
Рнтернет – это глобальная компьютерная сеть, которая связывает между СЃРѕР±РѕР№ как пользователей компьютерных сетей, так Рё пользователей РџРљ. Рнтернет медленно, РЅРѕ верно становится основным средством корпоративного общения, уступая РїРѕРєР° телефону.
В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.
Рсточники информации РІ Рнтернете различаются РїРѕ СЃРїРѕСЃРѕР±Сѓ представления информации, Р° следовательно, Рё РїРѕ методу доступа Рє РЅРёРј.
РџРѕРёСЃРє файла вручную РІ сложной структуре каталогов ftp-сервера может занять достаточно РјРЅРѕРіРѕ времени. Для упрощения Рё ускорения РїРѕРёСЃРєР° была разработана поисковая служба Рнтернета Archie, представляющая СЃРѕР±РѕР№ специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. РџСЂРё обращении СЃ поисковым запросом РЅР° Archie-сервер результатом РїРѕРёСЃРєР° является СЃРїРёСЃРѕРє адресов анонимных ftp-серверов, РЅР° которых имеется искомый файл.
Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.
Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronicaавтоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.
С таким способом навигации Gopherв определенной степени был предшественником WWW. В настоящее время применение Gopherуменьшается пропорционально росту использования WWW.
Р’ 1993 РіРѕРґСѓ была разработана информационно-поисковая система WWW, которая благодаря простоте навигации Рё доступности открыла информационные источники Рнтернета неподготовленным пользователям. WWW вызвал Р±СѓРј РІ сети Рнтернет, который продолжается РїРѕ настоящее время, Рё объемы доступной информации Рнтернета ежегодно удваиваются.
WWW основывается РЅР° принципе гипертекста (уже знакомого читателю), то есть РЅР° системе документов, связанных гиперссылками. Гипертекст представляет СЃРѕР±РѕР№ ключевые Слова, особым образом выделенные РёР· обычного текста. Гипертекстовые ссылки отправляют пользователя РЅР° РґСЂСѓРіРёРµ документы того же сервера либо РЅР° РґСЂСѓРіРёРµ сервера, которые РјРѕРіСѓС‚ располагаться РІ любом месте Рнтернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее РЅР° соответствующие документы. Каждая переадресация РїСЂРѕРёСЃС…РѕРґРёС‚ для пользователя незаметно, так что РѕРЅ может просматривать информационный состав Рнтернета РЅРѕ содержательному принципу, РЅРµ заботясь РѕР± адресации конкретных компьютеров.
С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, NetscapeNavigator или MicrosoftInternetExplorer.
Отправной точкой РїРѕРёСЃРєР° информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес РІ браузере (например, http://ncpi.gov.byили www.iparegistr.com). WWW-сайты создаются Рё обновляются фирмами либо специальными организациями, публикующими информацию Рё следящими Р·Р° содержанием СЃРІРѕРёС… WWW-страниц. Рспользование WWW, таким образом, РЅРµ является пассивным, Рё каждый пользователь Рнтернета РїСЂРё помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Рто Рё открыло путь для растущей коммерциализации Рё расширения Рнтернета.
Р’ настоящее время РІРЅРѕРІСЊ создаваемая информация, как правило, изготавливается СЃ учетом необходимости обеспечения WWW-доступа, Р° более ранние документы постепенно преобразуются РїРѕРґ него, однако РІРѕ всем РјРёСЂРµ существуют еще миллионы файлов РІ форм отличных РѕС‚ требований WWW. Для использования этой информации Рё через WWW РІ браузеры включены вышеописанные службы Рнтернета, обеспечивающие доступ Рє ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать Рё РґСЂСѓРіРёРµ службы Рнтернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал РІ настоящее время универсальной коммуникационной программой Рнтернета.
РЎ появлением WWW-службы Рё начался Р±СѓРј РІ сети Рнтернет. Благодаря этой простой РІ применении Рё единой для всех служб пользовательской среде Рнтернет заинтересовал множество людей Рё организаций. Оказалось РІРґСЂСѓРі, что РЅРµ надо быть специалистом РІ области Рнтернета, чтобы пользоваться службами сети. Рто можно сравнить СЃ успехом фирмы Microsoft, связанным СЃ выпуском MicrosoftWindows РІ качестве графической пользовательской оболочки. До появления Windows Сѓ каждого DOS-приложения было собственное руководство пользователя Рё тем самым требовалось отдельно изучать каждое приложение.
К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.
Требование полноты охвата ресурсов РЅРµ нуждается РІ дополнительных пояснениях, Р·Р° исключением необходимости использовать РїСЂРё РїРѕРёСЃРєРµ ресурсы РЅРµ только WWW, РЅРѕ Рё РґСЂСѓРіРёС… служб Рнтернета.
Достоверность информации, учитывая РїСЂРёСЂРѕРґСѓ Рнтернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций РЅР° бумажных носителях, получение сведений РѕР± организациях Рё авторах, выяснение действительности РёС… электронных ресурсов Рё С‚.Рї.), так Рё СЃ Рспользованием возможностей Рнтернета (ознакомление СЃ альтернативными источниками информации, сверка фактического материала, установление частоты его использования РґСЂСѓРіРёРјРё источниками; выяснение статуса документа Рё рейтинга источника средствами поисковых систем, получение информации Рѕ компетентности Рё статусе автора материала СЃ помощью специальных поисковых сервисов Рнтернета; анализ отдельных элементов организации сайта СЃ целью оценки квалификации поддерживающих его специалистов Рё РґСЂСѓРіРѕРµ).
Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.
Как уже отмечалось, информация РІ Рнтернете доступна РёР· источников разного типа. Прежде всего - это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). РљСЂРѕРјРµ того, это уже известные читателю электронная почта, почтовые роботы, Usenet Рё РґСЂСѓРіРёРµ телеконференции, Р° также ftp-системы Рё архивы (СЃ применением Gopher Рё Veronica). WWW позволяет производить РїРѕРёСЃРє требуемых ресурсов РЅР° РѕСЃРЅРѕРІРµ СЃРІРѕРёС… гиперсвойств, то есть имеющиеся поисковые системы работают СЃ использованием гиперссылок РІ автоматическом режиме, РЅРµ исключая возможности ручного просмотра. Р’ WWW имеется целый СЂСЏРґ поисковых сервисов как общего, так Рё специализированного назначения.
Каталоги ресурсов представляют СЃРѕР±РѕР№ базы данных СЃ адресами ресурсов Рнтернета Рё самыми разными тематиками. Обычно РѕРЅРё имеют иерархическую структуру, привычную для пользователя, Рё некоторые средства РїРѕРёСЃРєР° РїРѕ ней. Рти каталоги РІ большей своей части обслуживаются специалистами РїРѕ классификации, то есть предопределяется некоторый субъективный РїРѕРґС…РѕРґ Рє отбору информации, который, СЃ РѕРґРЅРѕР№ стороны, несколько гарантирует достоверность информации, РЅРѕ СЃ РґСЂСѓРіРѕР№ - предопределяет возможность отсутствия (РїСЂРѕРїСѓСЃРєР°) части информации, Р° также СЃРµ запоздалое размещение РІ каталоге.
Поисковые машины - это механизм автоматического построения ссылок (индексов) РЅР° различные ресурсы. Поисковые машины РјРѕРіСѓС‚ быть ориентированы РЅР° глобальные, специализированные или локальные ресурсы. РџРѕ сути РѕРЅРё являются мощными РРџРЎ, которые СЃ помощью специальных программ-роботов (так называемых "пауков") постоянно осуществляют автоматический РїРѕРёСЃРє требуемой информации РІ Рнтернете. Созданные РЅР° этой РѕСЃРЅРѕРІРµ специализированные БД обеспечивают РїРѕРёСЃРє информации РїРѕ запросам пользователей РЅР° РѕСЃРЅРѕРІРµ специальных РРџРЇ. Правда, охват просматриваемой информации зависит РѕС‚ применяемых алгоритмов Рё даже для мощных поисковых машин оставляет желать лучшего.
Рлектронная почта применяется РІ Рнтернете Рё РІ WWW. Адреса РїСЂРё этом попадают РІ поисковые системы Рё доступны поисковым машинам.
Почтовые роботы - это специальные программы, способные отвечать определенными действиями РЅР° команды, поступающие РёРј, РЅРѕ электронной почте. РС… РѕСЃРЅРѕРІРЅРѕРµ назначение - пересылка данных РїРѕ запросу РІ случае, РєРѕРіРґР° те недоступны иным СЃРїРѕСЃРѕР±РѕРј, Р° также как альтернатива работы РІ режиме online СЃ каким-либо РёР· известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. РџСЂРё РїРѕРёСЃРєРµ почтовые роботы обычно используются лишь как посредники РїСЂРё получении информации. РРЅРѕРіРґР° приходится сталкиваться СЃ тем, что РѕРЅРё оказываются единственным средством получения нужных сведений.
Usenet Рё РґСЂСѓРіРёРµ региональные Рё специализированные телеконференции представляют СЃРѕР±РѕР№ электронные "РґРѕСЃРєРё объявлений", РіРґРµ пользователь размещает СЃРІРѕСЋ информацию РІ РѕРґРЅРѕР№ РёР· тематических РіСЂСѓРїРї новостей, передаваемых подписчикам соответствующей тематики. Ртот ресурс наиболее значим для быстрого накопления информации, РЅРѕ СѓР·РєРѕРјСѓ РІРѕРїСЂРѕСЃСѓ, Р° РїСЂРё РїРѕРёСЃРєРµ - чаще для получения частной, неофициальной информации.
Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.
Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.
РџРѕРёСЃРє необходимой информации РІ Рнтернете можно осуществлять различными способами:
· Поиск с помощью поисковых машин по ключевому слову
· Поиск с помощью классификаторов поисковых машин
· Каталоги и коллекции ссылок (более общие понятия)
· Рейтинги (самые популярные ресурсы)
· Конференции, чаты
· Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)
· Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)
В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.
1 тип — общая (например: история Российской империи),
2 тип — менее общая (например: император Александр II),
3 тип — конкретная (например: реформы Александра II),
4 тип — более конкретная (например: отмена крепостного права).
В зависимости от типа информации определяются и пути поиска.
Рнформация 1 типа ищется СЃ помощью классификаторов поисковых машин (РёР· СЂРѕСЃСЃРёР№СЃРєРёС… — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты СЃ требуемой информацией РЅРµ находятся, то следует просматривать найденные РїРѕ классификатору каталоги Рё страницы ссылок (“Links”), которые находятся сайтах РїРѕРґРѕР±РЅРѕР№ тематике. Рти сайты приводятся РІ классификаторе РїРѕ теме Рё найденных каталогах.
Рнформация 2 типа ищется РїРѕРґРѕР±РЅРѕ РїРѕРёСЃРєСѓ для 1 типа, РЅРѕ СЃ преимуществом РїРѕРёСЃРєР° РїРѕ каталогам Рё страницам ссылок.
Рнформация 3 типа — РїРѕ ключевым словам, которые вводятся РІ строку РїРѕРёСЃРєР° поисковых машин, каталогам, страницам ссылок
Рнформация 4 типа — РїРѕ подробным данным, которые вводятся РІ строку РїРѕРёСЃРєР°. Данные находятся согласно способам РїРѕРёСЃРєР° изложенных для 2 Рё 3 типов.
Примеры:
РџРѕРёСЃРє РїРѕ 1 типу. Требуемая информация: В«Рстория Р РѕСЃСЃРёР№СЃРєРѕР№ империи».
Заходим РІ Яндекс — Наука Рё образование / Общественные науки / Рстория. РџРѕ описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если РІ нем нет необходимой информации, то переходим РЅР° страницу ссылок этого сайта. РќР° ней имеются ссылки РЅР° каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. Р’ РЅРёС…, скорее всего, Р±СѓРґСѓС‚ найдены сайты РїРѕ РЅР° заданную тему.
РџРѕРёСЃРє РїРѕ 2 типу. Требуемая информация: В«Рмператор Александр IIВ».
Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .
Поиск по 3 типу. Требуемая информация: «Реформы Александра II»
Здесь появляется новый способ поиска — по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах
Как Рё РґСЂСѓРіРёРµ информационные технологии, Рнтернет создают разработчики, РЅРѕ РІ данном случае РІ РѕСЃРЅРѕРІРЅРѕРј это создатели ресурсов (начиная РѕС‚ специалистов, ведущих поддержку hard- Рё software, дизайнеры, художники, редакторы Рё самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - РЅРµ самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами Рё потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты РїРѕ datamining, РїРѕ РїРѕРёСЃРєСѓ информации. Рнформационные ресурсы Рнтернета, как, впрочем, Рё РґСЂСѓРіРёРµ, РІ том числе неэлектронные информационные ресурсы (РІ частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (СЂРёСЃ. 9.3).
Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).
По мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).
При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.
Рндексирование, то есть появление ресурса РІ индексах поисковых машин, РїСЂРѕРёСЃС…РѕРґРёС‚ РїСЂРё достижении определенных объемов информационного наполнения Рё востребованности.
При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.
Как отмечалось ранее, чертами, присущими профессиональному РїРѕРёСЃРєСѓ, являются его полнота, достоверность Рё высокая скорость. Наиболее серьезным Рё нетривиальным фактором, определяющим быстроту достижения цели РїРѕРёСЃРєР°, оказывается планирование РїРѕРёСЃРєРѕРІРѕР№ процедуры. Рто требует, СЃ РѕРґРЅРѕР№ стороны, выбора типа ресурсов, которые потенциально СЃРїРѕСЃРѕР±РЅС‹ нести информацию, релевантную РїРѕРёСЃРєРѕРІРѕР№ задаче, Р° СЃ РґСЂСѓРіРѕР№ - выбора инструментов РїРѕРёСЃРєР°, обслуживающих соответствующее информационное поле, РІ зависимости РѕС‚ РёС… предполагаемой результативности. Если говорить Рѕ наиболее емком РЅР° сегодняшний день СЃ точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов РЅР° каждом этапе РїРѕРёСЃРєР° Рё предопределяет его эффективность. Помочь решить проблему выбора может четкое представление Рѕ видах, назначении Рё особенностях работы информационно-поисковых систем (РРџРЎ) Рнтернета.
2.5 Структура поисковых сервисов
Реальными носителями информации Рѕ ресурсах, которыми располагает Рнтернет, являются поисковые машины Рё каталоги. Рнформационно-поисковые системы Рнтернета различаются, РЅРѕ принципу отбора информации, который РІ той или РёРЅРѕР№ степени присутствует Рё РІ сканирующей программе РїРѕРёСЃРєРѕРІРѕР№ машины, Рё РІ деятельности специалистов, производящих каталогизацию. Как правило, различают РґРІР° основных показателя: пространственный масштаб системы Рё ее специализация.
РџСЂРё формировании информационного массива поисковая система может следить Р·Р° обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных РїРѕ некоторому принципу. Такие системы, реализованные РІ Рнтернете, несколько условно можно назвать локальным Рё. Глобальные поисковые системы РІ отличие РѕС‚ локальных решают более трудоемкую задачу - РїРѕ возможности наиболее полный охват ресурсов всего информационно» поля Рнтернета (WWW или РґСЂСѓРіРѕРіРѕ), которое РѕРЅРё обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.
Построение региональных Рё специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация РїРѕРёСЃРєРѕРІРѕР№ системы РЅР° базе какого-либо профиля РЛРтема тики, Р±СѓРґСЊ то правовая направленность, РїРѕРёСЃРє персоналий или файлов мультимедиа РІ формате РњР Р—, может происходить как РІ глобальном, так Рё РЅР° локальном масштабе. Разумеется, систему проще построить Рё сопровождать РЅР° ограниченном пространстве обновляемых сайтов, что обычно Рё реализуется РЅР° практике.
Региональными поисковыми службами информация фильтруется в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru - для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.
Учет региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.
Рнтернету, РёСЃС…РѕРґСЏ РёР· его РїСЂРёСЂРѕРґС‹, сопутствует информационный хаос. Ртолько современные средства автоматического индексирования документов СЃРїРѕСЃРѕР±РЅС‹, учитывая применяемые алгоритмы Рё возможности технических средств, найти РІ этом хаосе рациональное зерно. Применение же РїСЂРё РїРѕРёСЃРєРµ ресурсов без РїРѕРёСЃРєР° РїРѕ ключевым словам напоминает серфинг, Р° РЅРµ серьезную работу СЃ информацией.
После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.
Еще РѕРґРЅР° известная система - это NorthernLight, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы СЃ уникальной коллекцией ссылок (более 6 тысяч), РІ РѕСЃРЅРѕРІРЅРѕРј РЅР° статьи РёР· периодических изданий. Рндексное сопровождение кириллицы (РІ том числе Рё СЂСѓСЃСЃРєРѕРіРѕ языка) делает ее вместе СЃ AltaVista неплохим дополнением Рє региональным СЂРѕСЃСЃРёР№СЃРєРёРј поисковым системам Рамблер, Yndex Рё РђРїРѕСЂС‚ РїСЂРё русскоязычном РїРѕРёСЃРєРµ.
2.7 Планирование поиска
РџРѕРёСЃРє Рё СЃР±РѕСЂ информации РІ Рнтернете нуждаются РІ планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов РїРѕРёСЃРєР°, попытки ускорить РїРѕРёСЃРє - РІСЃРµ это РЅРµ просто затягивает получение результата, РЅРѕ может поставить РїРѕРґ СѓРіСЂРѕР·Сѓ смысл РїРѕРёСЃРєРѕРІРѕР№ работы.
Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.
Начинать необходимо СЃРѕ всестороннего лексического анализа РёСЃРєРѕРјРѕР№ информации. Следует использовать любое, достаточно достоверное Рё РїРѕРґСЂРѕР±РЅРѕРµ описание исследуемого РІРѕРїСЂРѕСЃР° для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так Рё электронная энциклопедия общего профиля. РќР° РѕСЃРЅРѕРІРµ изученного материала необходимо сформировать максимально широкий набор ключевых слов РІ РІРёРґРµ отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише Рё устойчивых словесных штампов, РїСЂРё необходимости РЅР° нескольких языках. Заранее следует определить Рё возможные уточнения РїРѕРёСЃРєРѕРІРѕРіРѕ запроса- редкие слова, СЃРёРЅРѕРЅРёРјС‹ Рё антонимы. названия Рё фамилии, тесно связанные СЃ искомым РІРѕРїСЂРѕСЃРѕРј. Желательно также заранее предусмотреть возможные нерелевантные отклики РЅР° запросы, то есть возможные характеристики РїРѕРёСЃРєРѕРІРѕРіРѕ шума. После накопления этих предварительных данных можно перейти Рє получению первичной информации РёР· Рнтернета.
Основная задача этой стадии учесть особенности Рнтернета, который является РЅРµ только носителем технологий, РЅРѕ Рё традиций, Рё собственной этики. Сетевая лексика, сленг Рё написание общеупотребительных слов здесь РјРѕРіСѓС‚ отличатся РѕС‚ принятых.
Сведения Рѕ наличии РІ Рнтернете необходимых данных лучше всего искать РІ ранее известном каталоге, поддерживающем РїРѕРёСЃРє РїРѕ ключевым словам. РџСЂРё решении, например, простых задач типа "Получить текст Конституции Республики Беларусь" или "Р’ каких правовых актах употребляется название СЂРѕРґРЅРѕРіРѕ РіРѕСЂРѕРґР°" известный сайт или каталог может быть более быстрым СЃРїРѕСЃРѕР±РѕРј получения информации, чем автоматический индекс, Рё обеспечит большую достоверность.
После лексического анализа информации наступает технологический этап. Выбор информационного поля Рнтернета Рё поисковых инструментов производится РЅР° РѕСЃРЅРѕРІРµ вышеизложенных РїРѕРґС…РѕРґРѕРІ.
Рспользуются тестовые запросы РёР· РѕРґРЅРѕРіРѕ-РґРІСѓС… ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, РЅРѕ релевантности отклика. Р’ результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. РќР° этом этап планирования завершается.
Р’ заключение отметим, что РїСЂРё решении задачи СЃР±РѕСЂР° информации РёР· Рнтернета значительную роль играют региональные Рё специализированные поисковые сервисы. Применение глобальных индексов РЅРµ для РїСЂСЏРјРѕРіРѕ РїРѕРёСЃРєР° нужных сведений, Р° для локализации этих поисковых инструментов нередко позволяет сократить СЃСЂРѕРєРё решения поставленной РїРѕРёСЃРєРѕРІРѕР№ задачи.
Принимая РІРѕ внимания РІСЃРµ выше сказанное, можно попытаться РѕРґРЅРёРј словом определить суть Рнтернета: это – общение, общение между отдельными людьми Рё целыми нациями без вмешательства правительственных авторитетов. Рта новая технология СЃ РѕРіСЂРѕРјРЅРѕР№ скоростью изменяет облик цивилизации, коренным образом меняя представление человечества Рѕ РјРёСЂРµ Рё самом себе. Сеть Рнтернет уже вобрала РІ себя десятки миллионов человек, более сотни стран, РѕРЅР° полностью изменила процессы распространения Рё восприятия информации. Р’ наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами,становится РЅРµ менее явственной, чем окружающий нас материальный РјРёСЂ.
РЎ развитием INTERNET появилась возможность быстрого Рё СѓРґРѕР±РЅРѕРіРѕ РїРѕРёСЃРєР° необходимой документальной информации. Теперь можно РЅРµ заниматься РїРѕРґР±РѕСЂРѕРј Рё изучением РѕРіСЂРѕРјРЅРѕРіРѕ количества литературы РІ книжных магазинах Рё библиотеках. Рнформацию можно получить, РЅРµ выходя РёР· РґРѕРјР° или офиса. Для этого нужен только непосредственно сам компьютер, подключенный Рє INTERNET СЃ установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.
Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.
1. Гринберг Рђ.РЎ., Кашинский Р®.Р., Славин Р‘.РЎ. Введение РІ правовую информатику. РњРЅ.: РќРћ РћРћРћ Р‘РРџ-РЎ, 2002. РЎ. 303.
2. Гусев В.С. Google: эффективный поиск. Краткое руководство. М., 2006.
3. Рнформатика для юристов Рё экономистов./ РџРѕРґ редакцией РЎ. Р’. Симоновича. РЎРџР±.: Питер, 2001.
4. Рнформатика. Базовый РєСѓСЂСЃ. Учебник для Р’РЈР—РѕРІ, РЎРџР±, 2001
5. Компьютерные технологии РІ юридической деятельности./РџРѕРґ редакцией профессора Рќ. Полевого. Рњ.: Рздательство БЕК, 1994.
6. Рассолов Рњ.Рњ. Рнформационное право. – Рњ.Рњ.: Юристъ, 1999.-321СЃ.
7. Рнциклопедия Рнтернет, РЎРџР±, 2001
8. How the browsers compare//http://www.microsoft.com
superbotanik.net
В
Общие сведения.
Р’ настоящее время Рнтернет объединяет сотни миллионов серверов, РЅР° которых размещены миллиарды различных сайтов Рё отдельных файлов, содержащих различного СЂРѕРґР° информацию. Рто гигантское хранилище информации. Существуют различные приемы РїРѕРёСЃРєР° информации РІ Рнтернет.
Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.
Пример 1.
www.gov.ru - сервер органов государственной власти России.
Конструирование адреса пользователем. Зная систему формирования адреса РІ Рнтернет, можно РїСЂРё РїРѕРёСЃРєРµWeb-сайтов конструировать адреса.
К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.
Пример 2.
Адреса коммерческих Web-страниц:
www.cnn.com (всемирные новости CNN),
www.sony.com (фирма SONY),
www.mtv.com (музыкальные новости MTV).
Пример 3.
Адреса учебных заведений:
www.ntu.edu (Национальный университет США).
Пример 4.
Адреса региональных серверов:
www.poland.net (Польша),
www.israil.net (Рзраиль).
Для РїРѕРёСЃРєР° информации РІ Рнтернет разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес Рё отображаются РІ РІРёРґРµ Web-страницы, содержащей специальные средства для организации РїРѕРёСЃРєР° (строку для РїРѕРёСЃРєР°, тематический каталог, ссылки). Для вызова РїРѕРёСЃРєРѕРІРѕР№ системы достаточно ввести ее адрес РІ адресную строку Браузера.
По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.
Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).
Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. РЎ РёС… помощью просматривается (сканируется) информация РІ Рнтернет. Р’ специальные справочники-индексы заносятся данные Рѕ местонахождении той или РёРЅРѕР№ информации. Р’ ответ РЅР° запрос осуществляется РїРѕРёСЃРє РІ соответствии СЃРѕ строкой запроса. Р’ результате пользователю предлагаются те адреса (URL), РЅР° которых РІ момент сканирования найдены искомые слово или РіСЂСѓРїРїР° слов. Выбрав любой РёР· предложенных адресов-ссылок, можно перейти Рє найденному документу. Большинство современных поисковых систем являются смешанными.
Наиболее известные и популярные системы поиска:
www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com
Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.
РџРѕРёСЃРє людей РІ Рнтернет:
www.whowhere.ru ww. bigfoot.com
Поиск по телеконференциям (Usenet):
www.dejanews.com
Предметные поисковые системы:
www.webring.org
Поиск программного обеспечения:
www.files.com
www.files.ru
Поиск по файловым архивам:
http://ftpseach. city.ru, http://ftpsearch. licos.com
Каталоги (тематические подборки ссылок с аннотациями):
http://www.atrus.ru
www.aup.ru
Часто эффективный поиск информации можно провести с помощью региональных каталогов - специализированных серверов, содержащих данные о предприятиях или Web-ресурсах какого-то города или региона. Например, для Санкт-Петербурга такой каталог располагается по адресу http://www.spb.ru.
РЎРїРёСЃРѕРє РРџРЎ можно найти РЅР° сайте www.monk. newmail.ru
Более подробный перечень поисковых систем и каталогов представлен в табл. 3.2.
В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.
Простой запрос.
Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.
Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.
В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.
Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.
Сложный запрос.
Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.
Например, запрос музыка & (beatles | битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.
В табл.3.1 приведены правила формирования запросов, принятые в системе Апорт (http://www.aport.ru).
Таблица 3.1
Операторы для формирования запросов
Оператор | Синонимы | Комментарий |
Р| AND & | По запросу будут найдены документы, содержащие оба ключевых слова. Его можно и не писать. Например, запрос: информатика и учебник эквивалентен информатика учебник |
РЛР| OR | | Производится РїРѕРёСЃРє тех документов, РІ которых используется любое РёР· указанных слов или РѕР±Р° слова одновременно |
НЕ | NOT - ~ | Поиск ограничивается документами, не содержащими слово, указанное после оператора |
" " | ' ' | Двойные или одинарные кавычки позволяют находить словосочетание |
Дата= |
дата: date= |
Поиск ограничивается документами, попадающими в заданный интервал дат. Пример 1. валюта дата=01/02/2002-01/03/2002. По этому запросу будут выданы документы, содержащие слово "валюта" и имеющие дату от 1 февраля 2002 г. до 1 марта 2002 г. Пример 2. date=01/03/2002 валюта Пример 3. дата: <02/03/2002 валюта |
Таблица 3.2
Список поисковых серверов и каталогов
Адрес | Описание |
www.excite.com | Поисковый сервер с обзорами узлов и путеводителями |
www.alta-vista.com | Поисковый сервер, имеются возможности расширенного поиска |
www.hotbot.com | Поисковый сервер |
www.poland.net www.israil.net | Региональные поисковые серверы Польши, Рзраиля |
www.ifoseek.com | Поисковый сервер (простой в использовании) |
www.ipl.org | Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня" |
www.wisewire.com | WiseWire - организация поиска с применением искусственного интеллекта |
www.webcrawler.com | WebCrawler - поисковый сервер, прост в обращении |
www.yahoo.com | КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista |
www.aport.ru | Апорт - русскоязычный поисковый сервер |
www.yandex.ru | Яндекс - русскоязычный поисковый сервер |
www.rambler.ru | Рамблер - русскоязычный поисковый сервер |
Справочные ресурсы Рнтернет | |
www.yellow.com | Желтые страницы Рнтернет |
monk. newmail.ru | Поисковые системы различного профиля |
www.top200.ru | 200 лучшихWeb-сайтов |
www.allru.net | Каталог СЂСѓСЃСЃРєРёС… ресурсов Рнтернет |
www.ru | Каталог СЂСѓСЃСЃРєРёС… ресурсов Рнтернет |
www.allru.net/z09. htm | Образовательные ресурсы |
www.students.ru | Сервер российского студенчества |
www.cdo.ru/index_new. asp | Центр дистанционного обучения |
www.open. ac. uk | Открытый университет Великобритании |
www.ntu.edu | Национальный университет США |
www.translate.ru | Рлектронный переводчик текстов |
www.pomorsu.ru/guide. library.html | Список ссылок на сетевые библиотеки |
www.elibrary.ru | Научная электронная библиотека |
www.citforum.ru | Рлектронная библиотека |
www.infamed.com/psy | Психологические тесты |
www.pokoleniye.ru | Web-сайт Федерации Рнтернет образования |
www.metod. narod.ru | Образовательные ресурсы |
www.spb. osi.ru/ic/distant | Дистанционное обучение РІ Рнтернет |
www.examen.ru | Ркзамены Рё тесты |
www.kbsu.ru/~book/ | Учебник информатики |
Mega. km.ru | Рнциклопедии Рё словари |
Проблемы, РЅРµ лежащие РЅР° поверхности, нередко дают Рѕ себе знать лишь "задним числом", после того как определенный этап поисковых работ завершен Рё, возможно, РёСЃС…РѕРґСЏ РёР· его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной СЃ самого начала эксплуатации той или РёРЅРѕР№ информационно-РїРѕРёСЃРєРѕРІРѕР№ системы (РРџРЎ)? Ответ довольно РїСЂРѕСЃС‚: отсутствие исчерпывающей информации РїРѕРґРѕР±РЅРѕРіРѕ СЂРѕРґР° СЃРѕ стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных Рё РёС… неконтролируемая потеря. Редко удается встретить РІ Сети РїРѕРёСЃРєРѕРІСѓСЋ систему, которая РЅРµ обладала Р±С‹ некоторыми "недокументированными" особенностями. Казалось Р±С‹ - пользователю необходимо РЅРµ так СѓР¶ РјРЅРѕРіРѕ сведений, Р° именно:
как РїСЂРѕРёСЃС…РѕРґРёС‚ наполнение базы данных РРџРЎ Рё каков ее объем;
полный спектр возможностей поискового языка системы;
основные особенности представления результатов поиска, прежде всего алгоритма ранжирования записей из списка отклика на поисковый запрос.
РЈРІС‹, источником РїРѕРґРѕР±РЅРѕР№ информации обычно является РЅРµ документ, доступный СЃ головной страницы РїРѕРёСЃРєРѕРІРѕРіРѕ сервера, Р° разбросанные РїРѕ Сети, книгам Рё компьютерным журналам публикации отдельных авторов. Рљ причинам такого положения дел, РїРѕ-РІРёРґРёРјРѕРјСѓ, можно отнести РЅРµ только небрежность разработчика, РЅРѕ Рё фактор, именуемый маркетинговой политикой. Проще РіРѕРІРѕСЂСЏ, предоставление РїРѕРёСЃРєРѕРІРѕР№ системой наиболее полной информации Рѕ самой себе РЅРµ всегда положительно сказывается РЅР° ее рейтинге. Тем РЅРµ менее, взять ситуацию РїРѕРґ контроль РІ СЂСЏРґРµ случаев пользователю оказывается вполне РїРѕ силам. Выяснить особенности работы избранного РїРѕРёСЃРєРѕРІРѕРіРѕ сервиса часто удается СЃ помощью тестирования. Построение специальных тестовых запросов, быстро проясняющих именно тот аспект работы системы, который наиболее важен для текущей задачи, РІРѕ РјРЅРѕРіРёС… случаях оказывается нетривиальным. РўРѕРјСѓ, как избежать некоторых неприятностей РїСЂРё работе СЃ РРџРЎ, РјС‹ Рё посвятим наше обсуждение. Р’ качестве примеров, иллюстрирующих изложение, Р±СѓРґСѓС‚ рассмотрены широко известные поисковые системы Рнтернета.
Любая поисковая машина или каталог регламентирует СЃРІРѕСЋ работу РїРѕ СЃР±РѕСЂСѓ данных РёР· Сети. Очевидно, что формирование РїРѕРёСЃРєРѕРІРѕРіРѕ образа информационного объекта, или, РґСЂСѓРіРёРјРё словами, его "отражения" РІ "зеркале" РїРѕРёСЃРєРѕРІРѕР№ системы, неизбежно связано СЃ некоторыми искажениями. РџРѕ сути, главным РїСЂРё этом становится РІРѕРїСЂРѕСЃ Рѕ том алгоритме, РЅР° РѕСЃРЅРѕРІРµ которого создается поисковый образ. Объектом-оригиналом РїСЂРё этом может стать как Web-страница, так Рё файл "закрытого" формата, который РЅРµ доступен для проникновения сканирующих программ РРџРЎ, например видео - или аудиозапись. Определенный шаблон обычно используется Рё РїСЂРё построении РїРѕРёСЃРєРѕРІРѕРіРѕ образа для физического или юридического лица РІ момент его регистрации РІ РїРѕРёСЃРєРѕРІРѕР№ службе. Отсечение, фильтрация информации РѕС‚ оригинала свойственны всем без исключения РРџРЎ, РІ том числе Рё полнотекстовым системам глобального охвата Рё самого общего назначения.
Фильтрация может регламентироваться как на техническом, так и на лингвистическом уровне, однако задача у нее одна - при минимальных материальных затратах добиться реальной эффективности поиска.
Р’ СЃРІСЏР·Рё СЃ этим РЅР° практике часто возникает РІРѕРїСЂРѕСЃ - что становится причиной неудачного РїРѕРёСЃРєР°: высокая ли вероятность отсутствия РІ Сети РЅР° данный момент времени информации, релевантной запросу, или то, что эта информация потенциально РЅРµ доступна для рассматриваемой РїРѕРёСЃРєРѕРІРѕР№ системы. "Подводным камнем" этот аспект становится, РєРѕРіРґР° получен ненулевой отклик РЅР° поисковый запрос, Р° доля недополученных данных оказывается неконтролируемой. Некоторый свет РЅР° особенности работы глобальных РРџРЎ проливает сравнительный анализ РёС… возможностей, который был приведен РІ прошлой публикации. Однако, если детали алгоритма фильтрации РЅРµ известны, наиболее чувствительные потери данных возникают именно РїСЂРё использовании специализированных поисковых служб.
Рассмотрим несколько примеров. Немало специализированных систем имеет собственный интерфейс для РІРІРѕРґР° поисковых запросов. Тем РЅРµ менее можно считать веянием времени ситуацию, РєРѕРіРґР° РјРЅРѕРіРёРµ подобные сервисы интегрируются РІ шаблоны глобальных РРџРЎ РІ РІРёРґРµ фильтров. Такими возможностями всегда отличался HotBot; недавно соответствующие элементы были внедрены РЅР° AltaVista; есть РѕРЅРё Рё РЅР° Р•xcite. Постоянно расширяется набор фильтров РїРѕРёСЃРєРѕРІРѕР№ системы Lycos (СЃРј. СЂРёСЃ.1), РЅР° которой РјС‹ остановимся подробнее.
Представьте себя РЅР° месте пользователя, впервые посетившего такую известную глобальную РїРѕРёСЃРєРѕРІСѓСЋ систему, как Lycos, СЃ целью найти РІ Сети сведения Рѕ некоем книжном издании. Введя соответствующие ключевые слова Рё выбрав фильтр Books, РѕРЅ получает отклик, который, РїСЂРё отсутствии дополнительной информации, нельзя расценить иначе, как получение данных Рѕ книгах, собранных РїРѕ всему Рнтернету. Рнтересно было Р±С‹ задать РІРѕРїСЂРѕСЃ, Р° может ли РІ масштабе Сети автоматически вестись отбор подобных сведений? Если говорить только Рѕ пространстве WWW, то РІ большинстве случаев программы-пауки, сканирующие Сеть, используют для распознавания типа данных специальные элементы языка HTML, СЃ помощью которых РІ Web-страницу внедряются определенные информационные блоки. Название элемента может нести смысловую нагрузку Рё отождествляться СЃ типом информации. Так, если Р±С‹ гипотетически существовал элемент HTML book, заключающий РІ себе сведения Рѕ РєРЅРёРіРµ Рё ее авторе, РѕРЅ РјРѕРі Р±С‹ размещаться РЅР° странице Рё РІ простейшем случае иметь следующий РІРёРґ:
<book>Название книги и автор</book>
(сами элементы <book> РІ РѕРєРЅРµ браузера РЅРµ должны отображаться) РџСЂРё этом РІСЃСЏ информация Рѕ книгах, публикуемая РІ WWW подобным образом, могла Р±С‹ благополучно Рё без участия человека накапливаться РІ базе данных РРџРЎ. РќРѕ элемента book РІ стандарте HTML РїРѕРєР° РЅРµ существует. Следовательно, приходится прибегать либо Рє "ручному" отбору, либо Рє автоматическому просмотру некоторых, заданных наперед каталогов отдельных узлов, возможно, имеющих отношение Рє продаже книжной продукции или Рє библиотекам.
В случае Lycos все гораздо проще. Поиск происходит всего-навсего по одному-единственному узлу компании (http://www.barnesandnoble.com), заинтересованной в реализации своего товара. К чести разработчика следует сказать, что после нескольких лет молчания по поводу фильтра "books" в недрах предлагаемой документации сегодня можно найти скромное упоминание об арендаторе фильтра. Ранее его владельца просто нельзя было идентифицировать, и только спустя некоторое время стало понятно, что система работает с довольно незначительной по объему и специфически пополняемой базой данных.
РќРµ менее серьезно звучат опасения РІ случае, РєРѕРіРґР° РїРѕРёСЃРє связан СЃ информацией, привязанной Рє определенному формату ее хранения, например Рє звуковым файлам. Р’ течение нескольких месяцев РїРѕРёСЃРє "Р·РІСѓРєРѕРІ РІ Рнтернете" РЅР° Lycos оставался чем-то таинственным, напоминающим работу СЃ небольшой, РЅРѕ СЃРѕ РІРєСѓСЃРѕРј собранной коллекцией. Тестирование системы СЃ помощью простых запросов показывало, что РІ РѕСЃРЅРѕРІРЅРѕРј РІ ней представлены форматы WAV Рё AU. Недавно стало известно, что теперь поддерживаются также Рё MP3, MID, RA, RAM Рё AIF. РџСЂРё этом объем накопленных записей, доступных через большинство фильтров, продолжает сохраняться РІ тайне.
Ясно, что, если интересующий вас формат не входит в поддерживаемый на данный момент системой перечень, вы получите нулевой отклик, причину которого следовало бы четко представлять с самого начала.
Происхождение сопроводительных записей к звуковым файлам на Lycos, которые отображаются в результатах поиска, по-прежнему не регламентировано разработчиком.
Аналогичные проблемы существуют Рё РЅР° РґСЂСѓРіРёС… РРџРЎ. Хотелось Р±С‹ отметить типичный РІ этом отношении прием: использование шаблона глобальной РРџРЎ как для РїРѕРёСЃРєР° информации, относящейся РєРѕ всему Рнтернет-пространству, так Рё для РїРѕРёСЃРєР° РїРѕ некоторым избранным базам данных или коллекциям. Рљ сожалению, реальное поле РїРѕРёСЃРєР° оговаривается далеко РЅРµ всегда, Рё часто его приходится выяснять самостоятельно РІРѕ избежание неверных выводов РІ дальнейшем
Ситуация может осложниться тем, что на поисковом сервере вы не найдете исчерпывающего описания того, как работают операторы языка запросов.
C этим можно столкнуться даже РЅР° "зрелых", РЅРµ первый РіРѕРґ работающих РРџРЎ. Рассмотрим РЅР° примере AltaVista, каким образом это может стать источником определенных проблем.
Несмотря на недавнее появление графического фильтра (рис.2), многие пользователи системы продолжают эксплуатировать прозрачный по своей природе оператор image, позволяющий находить в индексе графические файлы. На этот счет справка AltaVista исчерпывается тем, что рекомендует ввести в шаблон запрос, в котором вслед за указанным оператором должно следовать имя или часть имени искомого файла. Таким образом, для поиска файла с изображением акрополя следует задать запрос в виде image: acropolis.
Увеличит ли наши шансы на успех знание того, как реально отрабатывает оператор image? Если посмотреть на откликнувшиеся документы, а затем на их HTML-источник, то легко убедиться, что в каждом из них в месте вставки графического образа присутствует элемент <IMG>. Внутри него в качестве обязательного атрибута стоит URL, с которого, собственно, и извлекается сам файл:
<IMG SRC="http://citforum.ru/buildings/acropolis. gif">
Фактически же Web-страница дает отклик, если ключевое слово входит не только в имя файла, но и в название любого каталога и в доменное имя сервера, содержащихся в URL элемента <IMG>, то есть документ, включающий в себя приведенную выше строку, откликнулся бы и на запрос image: buildings. Следовательно, поиск по имени каталога, которое так же, как и имя файла, несет смысловую нагрузку, позволяет получить графические данные, которые нельзя извлечь в первом случае. Предположим, что Web-мастер неосторожно назвал искомый файл ACR1. GIF, но разумно положил его в каталог buildings. Тогда по запросу image: buildings могут откликнуться релевантные документы с изображением акрополя, вставленным в Web-страницу с помощью строки:
<IMG SRC="http://www.citforum.ru/buildings/acr1. gif">
В расширенном поиске AltaVista используются логические операторы и скобки. Однако на сервере ничего не говорится о том, допустимо ли применять их внутри специальных полей поиска, таких как поле image. Уже заведомо зарегистрированный в индексе графический файл, найденный ранее, можно использовать для проверки работоспособности отдельных поисковых запросов. Так, если предположить, что файл с URL из последнего примера существует, то тестовый запрос в виде image: (buildings AND acr1) должен дать корректный ненулевой отклик и таким образом подтвердить, что комбинирование операторов допустимо. На практике это действительно возможно.
Хотелось бы еще раз подчеркнуть, что речь здесь идет не о несовершенстве отдельных поисковых систем, а о конструктивном подходе к разрешению возникающих вопросов. При этом нередки и ситуации, предугадать которые крайне сложно.
Если, скажем, РЅР° той же AltaVista организовать РїРѕРёСЃРє РїРѕ ключевому слову "президент" (РѕРЅРѕ специально выбрано РІ качестве тестового как довольно распространенное), легко убедиться, что отклик зависит РѕС‚ РґРІСѓС… факторов: какой язык выбран РІ меню шаблона (СЃРј. СЂРёСЃ.2, справа вверху) - СЂСѓСЃСЃРєРёР№ (Russian) или любой (any language), Р° также какая русская РєРѕРґРёСЂРѕРІРєР° установлена РІ меню браузера. Результаты РїРѕРёСЃРєР° приведены РІ табл.1. Анализ СЃРїРёСЃРєР° отклика показывает, что, РІРѕ-первых, РїСЂРё РІРІРѕРґРµ запроса только РІ РѕРґРЅРѕР№ РєРѕРґРёСЂРѕРІРєРµ неминуемо теряются данные. Р’Рѕ-вторых, становится СЏСЃРЅРѕ, как система идентифицирует тот или РёРЅРѕР№ язык документа. Оказывается, если некоторая начальная часть документа написана РЅР° языке, отличном РѕС‚ СЂСѓСЃСЃРєРѕРіРѕ, то этот документ уже РЅРµ описывается РРџРЎ как русскоязычный. Результат этой недокументированной особенности - максимальный отклик индекса РїСЂРё РїРѕРёСЃРєРµ РїРѕ русскоязычному термину достигается РїСЂРё установке пункта меню "any language", Р° РЅРµ "Russian".
Р’ шаблоне расширенного РїРѕРёСЃРєР° популярной бизнес-ориентированной системы Open Text Livelink Pinstripe (OTLP) (СЂРёСЃ.3) также скрыты некоторые проблемы, никак РЅРµ освещенные РІ справочном материале РРџРЎ.
Как видно из рисунка, шаблон позволяет задать свое поле поиска для каждого термина, а затем связать термины с помощью логических операторов. Однако как только терминов становится больше двух - возникает вопрос: в какой последовательности будут отрабатывать операторы и, соответственно, что будет представлять собой результат. Даже для такого простого запроса, как term1 AND term2 OR term3, разумно предположить двоякую интерпретацию, которую можно проиллюстрировать с помощью выделения в скобки логических единиц (в самом шаблоне скобки не применяются). Рвариант (term1 AND term2) OR term3, и вариант term1 AND (term2 OR term3) кажутся приемлемыми, давая при этом совершенно разный отклик. Тестовый запрос и последующий анализ откликнувшихся документов показывают справедливость первого варианта, то есть то, что операторы выполняются по мере их появления в шаблоне и в документе будут присутствовать либо term1 и term2 одновременно, либо только term3. Как в таком шаблоне вводить запросы с участием фраз (а это возможно) - автор предлагает выяснить читателям самостоятельно. В данном случае приходится констатировать очевидную небрежность разработчика по отношению к пользователям системы.
Подавляющее большинство РРџРЎ Рнтернета сегодня активно работает СЃ так называемыми стоп-словами (stop-words). Рљ последним относят служебные части речи, которые РЅРµ несут смысловую нагрузку, Р° также некоторые наиболее общеупотребительные РІ Сети слова, такие как information, Internet, Web, business, Рё РґСЂСѓРіРёРµ. Рзвестно, что AltaVista, Excite, HotBot Рё Lycos применяют РІ работе технику стоп-слов, Р° Infoseek Рё NorthernLight ее РЅРµ практикуют.
РџСЂРё появлении стоп-слов РІ РїРѕРёСЃРєРѕРІРѕРј запросе, РЅРµ содержащем специальных ухищрений, РРџРЎ может РЅРµ учитывать РёС… РїСЂРё РїРѕРёСЃРєРµ Рё ранжировании результатов, РїСЂРё этом РёРЅРѕРіРґР° информируя РѕР± этом пользователя, Р° РёРЅРѕРіРґР° - нет. Р’ целом неучет стоп-слов РїСЂРё обработке запроса сокращает время РїРѕРёСЃРєР° Рё повышает релевантность отклика. Однако стоит вам попробовать отыскать что-РЅРёР±СѓРґСЊ РІСЂРѕРґРµ классической фразы Шекспира "to be or not to be", состоящей только РёР· стоп-слов, - Рё РІС‹ уже РЅРµ владеете ситуацией.
Хотя стоп-слова Рё РјРѕРіСѓС‚ игнорироваться РІ простых запросах, РІ индексе полнотекстовой РРџРЎ РѕРЅРё присутствуют наряду СЃ остальными. Такой системой является, например, AltaVista (индексируются РІСЃРµ слова документа). HotBot, напротив - индексирует РІСЃРµ, РєСЂРѕРјРµ стоп-слов.
Тем РЅРµ менее Рё HotBot выполняет полнотекстовое индексирование отдельных значимых полей документа, так что запросы СЃРѕ стоп-словами, оформленные РІ РІРёРґРµ фразы, дают Рё РЅР° этой РРџРЎ результативный отклик.
Перечень стоп-слов РЅРµ стандартизован, так что РѕРЅ может быть оригинальным для каждого сервиса. Разработчики редко РїСЂРёРІРѕРґСЏС‚ сведения РѕР± этом аспекте работы РРџРЎ, однако РїСЂРё необходимости РїРѕРёСЃРє РїРѕ ключевым словам stop, words плюс название интересующей вас РїРѕРёСЃРєРѕРІРѕР№ машины позволяет обнаружить РІ Сети версии соответствующих перечней.
Наиболее общие принципы выхода из проблемной ситуации следующие: по возможности избегать употребления стоп-слов в запросах, исключить применение логических операторов типа and, or, not и других в тех шаблонах, в которых они не поддерживаются и будут восприняты как стоп-слова.
Если же без стоп-слов РІ запросе обойтись нельзя, то следует включить РёС… РІРѕ фразу, что РІРѕ РјРЅРѕРіРёС… системах означает заключение РІ кавычки. Р’ отдельных случаях полезно протестировать работу шаблонов простого Рё расширенного РїРѕРёСЃРєР° РРџРЎ, РІ которых техника поддержки стоп-слов может быть различной
Самая захватывающая интрига Сети, которую порождают РРџРЎ, связана СЃ особенностями работы алгоритма, ранжирующего результаты РІ СЃРїРёСЃРєРµ отклика. Рти сведения обычно РЅРµ предаются широкой огласке, РЅРѕ РѕРЅРё крайне необходимы Web-мастерам, продвигающим РІ СЃСѓСЂРѕРІРѕР№ конкурентной Р±РѕСЂСЊР±Рµ СЃРІРѕРё узлы через поисковые системы Рнтернета. Попасть РІ первые несколько десятков записей РёР· СЃРїРёСЃРєР° отклика РЅР° РРџРЎ РїРѕ часто повторяющимся РІ Сети запросам - значит обеспечить СЃРІРѕСЋ доступность для потенциальных клиентов (СЃРј. КомпьютерПресс в„–5’99, СЃ.114).
Тем не менее, и при решении поисковых задач во время работы со списком отклика из-за недостатка информации также могут возникать некоторые проблемы.
Р’ предыдущем выпуске РјС‹ говорили Рѕ том, что простые тестовые запросы позволяют СЃ самого начала работы СЃ РРџРЎ понять, насколько широко РІ индексе представлена искомая информация. Однако РЅРµ всякая РРџРЎ дает полное число документов, содержащихся РІ отклике РЅР° запрос (например, Lycos, РЅРµ дает). Р’ какой-то мере это позволяет системе сохранить СЃРІРѕРµ лицо, избежав сравнения СЃ гигантами - Northern Light, AltaVista или HotBot. РџСЂРё решении профессиональных поисковых задач Рє таким сервисам следует обращаться РІ последнюю очередь.
Обычно РІ СЃРїРёСЃРєРµ отклика появляется информация, которая включает РІ себя заголовок страницы, адрес Рё аннотацию. Аннотация берется либо РёР· специального META-элемента, задаваемого автором документа, либо РІ этом качестве выступают несколько первых нередактируемых строк текста, взятых СЃРѕ страницы. Р’ некоторых случаях указывается язык документа. Выше РјС‹ уже обращали внимание РЅР° проколы алгоритма AltaVista, связанные СЃ идентификацией языка, Рё подобные случаи - РЅРµ редкость Рё РЅР° РґСЂСѓРіРёС… РРџРЎ.
Другая обескураживающая неприятность - это возможное отсутствие РІ найденных документах тех самых ключевых слов, РїРѕ которым проводился РїРѕРёСЃРє. Причиной РїРѕРґРѕР±РЅРѕРіРѕ явления, если РЅРµ считать незарегистрированного обновления страницы без изменения адреса, становится тот факт, что ключевые слова были заданы автором РІ специальном поле - элементе META. РћРЅРѕ доступно для сканирования роботом РРџРЎ, РЅРѕ РЅРµ отображается РЅР° странице. Р’ этом случае путем просмотра метаэлементов HTML-источника Сѓ вас есть возможность убедиться РІ недобросовестности автора: несоответствие ключевых слов содержанию документа - это прямая дезинформация.
Еще РѕРґРЅР° проблема вообще РЅРµ очевидна для единичного пользователя. Речь идет Рѕ том, как поисковый сервер обрабатывает запросы РІ случае, РєРѕРіРґР° РёС… поступает слишком РјРЅРѕРіРѕ, то есть РІ режиме переполнения. Так, автору статьи РЅРµ раз приходилось сталкиваться СЃ тем, что, например, РЅР° AltaVista РїСЂРё одинаковом Рё практически одновременном тестовом запросе СЃ 10-15 компьютеров количество результатов, появляющихся РІ отклике для каждого пользователя системы, РёРЅРѕРіРґР° может различаться РЅР° десятки тысяч. Р’ действительности, попадая РІ режим перегрузки, поисковый сервер РЅРµ имеет большого выбора, Р° именно: РѕРЅ либо отклоняет запрос, либо обслуживает его РїРѕ "сокращенному" варианту. Последний вполне может предполагать предоставление лишь части удовлетворяющих запросу данных. Выход очевиден: проверять достоверность отклика РРџРЎ многократно Рё РІ разное время суток.
Нам хотелось бы остановиться на некоторых более чем реальных опасностях, которые подстерегают пользователя, доверившегося малоизвестному поисковому серверу. Написать об этом автора заставил такой случай. Человеку была срочно необходима информация о наличии прямых электропоездов между двумя городами СНГ. Воспользовавшись каталогом Rambler, он быстро сумел локализовать сервер, предлагающий необходимые сведения (рис.4).
http://pavel. physics. sunysb.edu: 8080/
После введения станций отправления и назначения система ответила отрицательно (см. рис.4, строка внизу). Такой категоричный ответ сервера заставил человека прекратить дальнейшие поиски и принять решение, о котором ему скоро пришлось пожалеть. Предъявить претензии к разработчику системы также оказалось невозможным. Дело в том, что чуть ниже под результатом поиска пользователем не была замечена одна важная деталь, а именно надпись "Расписание рекламное, возможны изменения, за которые не несут ответственности ни распространитель, ни МПС". При этом если бы фраза об отказе была сформулирована чуть мягче, пользователь, вероятно, смог бы продолжить поиск в Сети и достичь положительного результата.
Р’ некоторых случаях маркетинговая агрессивность разработчика начинает носить вызывающий характер. Р’РѕС‚ уже РЅРµ РѕРґРёРЅ месяц РЅР° серверах HotBot Рё AltaVista находится рекламное объявление крупнейшей книготорговой компании Amazon (http://www.amazon.com), Р° также СЂСЏРґР° РґСЂСѓРіРёС…. РџСЂРё этом РЅР° любой запрос РІ РРџРЎ СЂСЏРґРѕРј СЃ результатами РїРѕРёСЃРєР° появляется баннер, намекающий РЅР° то, что как раз РїРѕ тематике выполненного РїРѕРёСЃРєР° Рё можно найти информацию РЅР° Amazon, даже если РІ запросе фигурировал мистический "РіРѕСЃРїРѕРґРёРЅ Рванов" (СЃРј. СЂРёСЃ.5).
Подстановка терминов РёР· РїРѕРёСЃРєРѕРІРѕРіРѕ шаблона РІ баннер производится путем РёС… механического переноса Рё безо РІСЃСЏРєРѕРіРѕ контроля РЅР° предмет действительного наличия РєРЅРёРі РїРѕ данной тематике РЅР° сервере компании. Рљ тому же найти "Рванова" РЅР° Amazon нельзя РІ принципе, поскольку вплоть РґРѕ последнего времени русскоязычная литература там РЅРµ продавалась. Р’ данном случае плата Р·Р° доверчивость - это несколько РјРёРЅСѓС‚ напрасно потраченного времени.
Таким образом, от привычного уважения к печатному слову в Сети лучше отказаться, особенно если сервер генерирует реплики автоматически.
www.neuch.ru
Поиск и сохранение информации в сети Internet
РЕФЕРАТ РџРћ РНФОРМАТРРљР•
Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 15 миллионов абонентов в более чем 150 странах мира. Ежемесячно размер сети увеличивается на 7—10%. Internet образует как бы ядро, обеспечивающее связь различных информационныхсетей, принадлежащих различным учреждениям во всем мире, одна с другой.
Если ранее сеть использовалась исключительно в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределенного доступа к ресурсам. Фактически Internet состоит из множества локальных и глобальных сетей, принадлежащих различным компаниям и предприятиям, связанных между собой различными линиями связи. Internet можно представить себе в виде мозаики, сложенной из небольших сетей разной величины, которые активно взаимодействуют одна с другой, пересылая файлы, сообщения и т.п.
Поиск информации
Существует РІРѕ РјРЅРѕРіРѕРј справедливое мнение, что уже сегодня РІ Рнтернет “есть все” Рё проблема лишь РІ том, как найти нужную информацию. Сама открытая архитектура Сети способствует тому, что РІ ней отсутствует какая-либо централизация Рё ценнейшие для Вас данные, которые Р’С‹ безуспешно искали РїРѕ всему свету, РјРѕРіСѓС‚ оказаться расположенными РЅР° сервере РІ РѕРґРЅРѕРј РіРѕСЂРѕРґРµ СЃ Вами.
Можно выделить 2 взаимодополняющих РїРѕРґС…РѕРґР° Рє СЃР±РѕСЂСѓ информации Рѕ ресурсах Рнтернет – создание индексов Рё создание каталогов:
В· РџСЂРё первом СЃРїРѕСЃРѕР±Рµ мощные поисковые серверы непрерывно “обыскивают” Рнтернет, создавая Рё пополняя базы данных, содержащие информацию Рѕ том, РІ каких документах Сети встречаются те или иные ключевые слова. Преимущество РїРѕРёСЃРєРѕРІРѕРіРѕ сервера – простота работы СЃ РЅРёРј, недостаток – низкая степень отбора документов РїРѕ запросу.
· Во втором случае сервер организован как библиотечный каталог, содержащий иерархию разделов и подразделов, в которых хранятся ссылки на документы, соответствующие теме подраздела. Пополнение каталога обычно производится самими пользователями после проверки введенных ими данных администрацией сервера. Каталог ресурсов всегда лучше упорядочен и структурирован, но требуется время для поиска нужной категории, которую, к тому же, не всегда легко определить.
Работа с поисковыми серверами. При входе на главную страницу поискового сервера достаточно набрать в поле ввода свой запрос в виде набора ключевых слов и нажать кнопку начала поиска.
Запросы могут содержать любые слова, причем, не обязательно заботиться о падежах и склонениях – например, запросы “реферат по философии” и “философия реферат” вполне корректны.
Современные поисковые сервера достаточно хорошо понимают естественный язык, однако, РЅР° РјРЅРѕРіРёС… РёР· РЅРёС… сохранены возможности расширенного или специального РїРѕРёСЃРєР°, позволяющие искать слова РїРѕ маске, объединять слова запроса логическими операциями “Р”, “РЛД, Рё С‚.Рґ.
После завершения РїРѕРёСЃРєР° РІ базе данных сервер выводит РЅР° экран первую порцию РёР· 10 или более документов, содержащих ключевые слова. РљСЂРѕРјРµ ссылки, обычно приведено несколько строк текста описания документа или просто его начало. Открывая ссылки РІ РЅРѕРІРѕРј или этом же РѕРєРЅРµ браузера, можно переходить Рє выбранным документам, Р° строка ссылок РІРЅРёР·Сѓ страницы позволяет перейти Рє следующей порции документов. Рта строка выглядит примерно так:
1 2 3 4 5 6 7 8 9 след
По отсутствию одной ссылки видно, что сейчас открыта вторая порция найденных документов.
Различные серверы сортируют найденные документы по разному – по дате создания, по посещаемости документа, по наличию в документе всех или части слов запроса (релевантности), некоторые серверы позволяют сузить область поиска, выбрав на главной странице категорию искомого документа – например, по запросу “банки” в категории “деловой мир” вряд ли будут найдены сведения о банках консервных.
РР· популярных средств русскоязычного РїРѕРёСЃРєР° можно назвать серверы www.yandex.ru, www.aport.ru Рё www.rambler.ru, индексирующие десятки тысяч серверов Рё десятки миллионов документов. РР· зарубежных серверов популярны www.altavista.com, www.hotbot.com, www.lycos.com, www.excite.com, www.opentext.com.
Наконец, РІ Рнтернет немало страниц для метапоиска, позволяющих обратиться сразу Рє нескольким популярным поисковым серверам СЃ РѕРґРЅРёРј Рё тем же запросом – посмотрите, например, страницы www.find.ru или www.rinet.ru/buki.
Работа с каталогами ресурсов. При входе на главную страницу каталога мы попадаем в обширное меню или таблицу выбора категорий, каждая из которых может содержать вложенные подкатегории. Стандарта здесь нет, но все-таки структуры каталогов во многом похожи, везде можно найди разделы “бизнес” или “деловой мир”, “компьютеры”, “программирование” или “интернет”, “юмор” или “хобби” и т.д. Перемещаясь по категориям, можно добраться до ссылок на конкретные документы, которые, так же как на поисковом сервере, выдаются порциями и сопровождаются краткой информацией.
Сегодня существует множество крупных каталогов с десятками тысяч ссылок, из отечественных каталогов можно назвать www.list.ru, www.weblist.ru, www.stars.ru, www.au.ru, www.ru, www.ulitka.ru, а из зарубежных — www.yahoo.com, www.magellan.com.
Часто в каталоге есть также форма для поиска по ключевым словам среди занесенных в него документов.
Правила поиска. Попробуем дать несколько простых советов, касающихся поиска в Сети:
В· заранее четко определите тему РїРѕРёСЃРєР°, ключевые слова Рё время, которое Р’С‹ готовы РЅР° этот РїРѕРёСЃРє потратить; выберите поисковый сервер – ссылки РЅР° лучшие РёР· РЅРёС… полезно хранить РІ Рзбранном;
· не бойтесь естественного языка, но проверяйте правильность написания слов, например, при помощи Microsoft Word;
· используйте большие буквы только в именах и названиях. Многие поисковые сервера правильно обработают запрос “реферат”, но не “Реферат”;
· не ставьте в запросах знаков препинания и избегайте “стоп-слов”, таких как “что”, “как”, “и”, “зачем” и т.д. Запрос “что такое когнитивная психология” нисколько не информативнее, чем запрос “когнитивная психология”;
· локализуйте поиск – найдя сервер подходящей организации, перейдите на его главную страницу и попытайтесь поискать там;
· в процессе поиска не отвлекайтесь на посторонние ссылки, какими бы интересными они ни казались.
Сохранение информации
Работа РІ Рнтернете РёРЅРѕРіРґР° требует сохранения нужных данных Рё РёС… печати. Самый простой СЃРїРѕСЃРѕР± копирования данных СЃ веб–страницы – это копирование текста Рё вставка его РІ документы программ Office. Данный прием выполняется стандартным копированием через буфер обмена.
Для копирования текста с веб–страницы следует выделить нужный фрагмент, поместить в буфер обмена данных командой Правка – Копировать (или сочетанием клавиш CTRL+C). Затем отрыть программу, в который этот текст следует поместить и в нужном месте дать команду вставки: Правка – Вставить (или сочетание клавиш CTRL + V). Для быстрой сборки текстового документа очень удобны стандартные программы Windows – блокнот и WordPad. при этом следует учитывать, что графические элементы, стилевое оформление пропадают. Если есть потребность сохранения всех данных веб–страницы, рекомендуется использовать Microsoft Word. Данная программа сохраняет стилевое оформление, графические элементы и гиперссылки, но при этом объем документа выходит значительным, а сохранить документ без искажений получается только в родном формате Word.
РРЅРѕРіРґР° перенос содержимого веб–страницы РІ РґСЂСѓРіСѓСЋ программу неприемлемо для пользователя, тогда помогает функция сохранения страницы целиком или ее части РІ формате веб–документа. Для сохранения даем команду Файл – Сохранить как. Р’ открывшемся диалоговом РѕРєРЅРµ указывается место сохранения, РёРјСЏ файла Рё формат, РІ котором будет храниться документ. Пользователю предлагается 4 варианта:
1. Формат Веб–страница, полностью – страница сохраняется целиком вместе СЃ используемыми шрифтами, графикой, стилями Рё гиперссылками. Открыв такой документ можно увидеть страницу РІ РёСЃС…РѕРґРЅРѕРј РІРёРґРµ РІ РѕРєРЅРµ браузера. Рсходная структура ссылок РЅРµ сохраняется, РїСЂРё сохранении создается отдельная папка СЃ изображениями Рё дополнительными файлами, необходимыми для полноценного просмотра веб–страницы.
2. Формат Веб–страница, только HTML сохраняет страницу без изображений, структура ссылок исходной страницы сохраняется.
3. Формат Текстовые файлы – сохраняет страницу в виде текстового файла, структура ссылок нарушается.
4. Формат Все файлы – используется для сохранения в каком – либо ином формате.
Многие веб–страницы используют фреймы – отдельные блоки на странице. Данные в фреймах могут формироваться отдельно от содержимого сайта. Поэтому возникает необходимость обособленно сохранять информацию во фреймах. Для сохранения отдельного фрейма на веб-странице следует поместить курсор мыши в данный фрейм и дать команду: Файл – Сохранить фрейм как. Сохранение происходит также как сохранение веб–страницы.
Современный Рнтернет насыщен различной информацией: статьями, книгами, рисунками, фотографиями, анимацией Рё РґСЂ. Рспользование широкополостного доступа позволяет пользователям беспрепятственно копировать любую информацию. Единственным ограничением здесь является соблюдение авторских прав владельцев.
www.ronl.ru