Реферат: Методы поиска информации в Интернете:. Поиск данных в интернете реферат

Методы поиска информации в Интернете

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

1.2 Средства WWW – World Wide Web (Всемирная сеть)

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

2.2 Методика поиска информации в Интернете

2.3 Развитие информационного ресурса

2.4 Требования к инструментам поиска

2.5 Структура поисковых сервисов

2.6 Глобальные поисковые машины WWW

2.7 Планирование поиска

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы - Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronicaавтоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

С таким способом навигации Gopherв определенной степени был предшественником WWW. В настоящее время применение Gopherуменьшается пропорционально росту использования WWW.

1.2 Средства WWW - WorldWideWeb (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, NetscapeNavigator или MicrosoftInternetExplorer.

Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, http://ncpi.gov.byили www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском MicrosoftWindows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).

Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего - это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.

Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой - предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.

Поисковые машины - это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых "пауков") постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.

Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.

Почтовые роботы - это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение - пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.

Usenet и другие региональные и специализированные телеконференции представляют собой электронные "доски объявлений", где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске - чаще для получения частной, неофициальной информации.

Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.

Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.

2.2 Методика поиска информации в Интернете

Поиск необходимой информации в Интернете можно осуществлять различными способами:

· Поиск с помощью поисковых машин по ключевому слову

· Поиск с помощью классификаторов поисковых машин

· Каталоги и коллекции ссылок (более общие понятия)

· Рейтинги (самые популярные ресурсы)

· Конференции, чаты

· Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)

· Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)

В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.

1 тип — общая (например: история Российской империи),

2 тип — менее общая (например: император Александр II),

3 тип — конкретная (например: реформы Александра II),

4 тип — более конкретная (например: отмена крепостного права).

В зависимости от типа информации определяются и пути поиска.

Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.

Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.

Информация 3 типа — по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок

Информация 4 типа — по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

Примеры:

Поиск по 1 типу. Требуемая информация: «История Российской империи».

Заходим в Яндекс — Наука и образование / Общественные науки / История. По описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.

Поиск по 2 типу. Требуемая информация: «Император Александр II».

Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .

Поиск по 3 типу. Требуемая информация: «Реформы Александра II»

Здесь появляется новый способ поиска — по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах

2.3 Развитие информационного ресурса

Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard- и software, дизайнеры, художники, редакторы и самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты по datamining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).

Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).

По мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).

При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.

Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.

При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.

2.4 Требования к инструментам поиска

Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой - выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.

2.5 Структура поисковых сервисов

Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы Интернета различаются, но принципу отбора информации, который в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.

При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.

Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация поисковой системы на базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск персоналий или файлов мультимедиа в формате МРЗ, может происходить как в глобальном, так и на локальном масштабе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru - для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.

Учет региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.

Интернету, исходя из его природы, сопутствует информационный хаос. И только современные средства автоматического индексирования документов способны, учитывая применяемые алгоритмы и возможности технических средств, найти в этом хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по ключевым словам напоминает серфинг, а не серьезную работу с информацией.

2.6 Глобальные поисковые машины WWW

После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

Еще одна известная система - это NorthernLight, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

2.7 Планирование поиска

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск - все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа "Получить текст Конституции Республики Беларусь" или "В каких правовых актах употребляется название родного города" известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что при решении задачи сбора информации из Интернета значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

Принимая во внимания все выше сказанное, можно попытаться одним словом определить суть Интернета: это – общение, общение между отдельными людьми и целыми нациями без вмешательства правительственных авторитетов. Эта новая технология с огромной скоростью изменяет облик цивилизации, коренным образом меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала в себя десятки миллионов человек, более сотни стран, она полностью изменила процессы распространения и восприятия информации. В наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами,становится не менее явственной, чем окружающий нас материальный мир.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

1. Гринберг А.С., Кашинский Ю.И., Славин Б.С. Введение в правовую информатику. Мн.: НО ООО БИП-С, 2002. С. 303.

2. Гусев В.С. Google: эффективный поиск. Краткое руководство. М., 2006.

3. Информатика для юристов и экономистов./ Под редакцией С. В. Симоновича. СПб.: Питер, 2001.

4. Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5. Компьютерные технологии в юридической деятельности./Под редакцией профессора Н. Полевого. М.: Издательство БЕК, 1994.

6. Рассолов М.М. Информационное право. – М.М.: Юристъ, 1999.-321с.

7. Энциклопедия Интернет, СПб, 2001

8. How the browsers compare//http://www.microsoft.com

superbotanik.net

Реферат: Реферат: Поиск информации в Интернете

Поиск информации в интернет

Общие сведения.

В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.

Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.

Пример 1.

www.gov.ru - сервер органов государственной власти России.

Конструирование адреса пользователем. Зная систему формирования адреса в Интернет, можно при поискеWeb-сайтов конструировать адреса.

К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.

Пример 2.

Адреса коммерческих Web-страниц:

www.cnn.com (всемирные новости CNN),

www.sony.com (фирма SONY),

www.mtv.com (музыкальные новости MTV).

Пример 3.

Адреса учебных заведений:

www.ntu.edu (Национальный университет США).

Пример 4.

Адреса региональных серверов:

www.poland.net (Польша),

www.israil.net (Израиль).

Поисковые системы Интернет

Для поиска информации в Интернет разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку Браузера.

По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.

Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).

Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. С их помощью просматривается (сканируется) информация в Интернет. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. В ответ на запрос осуществляется поиск в соответствии со строкой запроса. В результате пользователю предлагаются те адреса (URL), на которых в момент сканирования найдены искомые слово или группа слов. Выбрав любой из предложенных адресов-ссылок, можно перейти к найденному документу. Большинство современных поисковых систем являются смешанными.

Наиболее известные и популярные системы поиска:

www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com

Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.

Поиск людей в Интернет:

www.whowhere.ru ww. bigfoot.com

Поиск по телеконференциям (Usenet):

www.dejanews.com

Предметные поисковые системы:

www.webring.org

Поиск программного обеспечения:

www.files.com

www.files.ru

Поиск по файловым архивам:

http://ftpseach. city.ru, http://ftpsearch. licos.com

Каталоги (тематические подборки ссылок с аннотациями):

http://www.atrus.ru

www.aup.ru

Часто эффективный поиск информации можно провести с помощью региональных каталогов - специализированных серверов, содержащих данные о предприятиях или Web-ресурсах какого-то города или региона. Например, для Санкт-Петербурга такой каталог располагается по адресу http://www.spb.ru.

Список ИПС можно найти на сайте www.monk. newmail.ru

Более подробный перечень поисковых систем и каталогов представлен в табл. 3.2.

Правила выполнения запросов

В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.

Простой запрос.

Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.

Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.

В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.

Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.

Сложный запрос.

Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.

Например, запрос музыка & (beatles | битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.

В табл.3.1 приведены правила формирования запросов, принятые в системе Апорт (http://www.aport.ru).

Таблица 3.1

Операторы для формирования запросов

Оператор	Синонимы	Комментарий
И	AND &	По запросу будут найдены документы, содержащие оба ключевых слова. Его можно и не писать. Например, запрос: информатика и учебник эквивалентен информатика учебник
ИЛИ	OR \|	Производится поиск тех документов, в которых используется любое из указанных слов или оба слова одновременно
НЕ	NOT - ~	Поиск ограничивается документами, не содержащими слово, указанное после оператора
" "	' '	Двойные или одинарные кавычки позволяют находить словосочетание
Дата=	дата: date=	Поиск ограничивается документами, попадающими в заданный интервал дат. Пример 1. валюта дата=01/02/2002-01/03/2002. По этому запросу будут выданы документы, содержащие слово "валюта" и имеющие дату от 1 февраля 2002 г. до 1 марта 2002 г. Пример 2. date=01/03/2002 валюта Пример 3. дата: <02/03/2002 валюта

Таблица 3.2

Список поисковых серверов и каталогов

Адрес	Описание
www.excite.com	Поисковый сервер с обзорами узлов и путеводителями
www.alta-vista.com	Поисковый сервер, имеются возможности расширенного поиска
www.hotbot.com	Поисковый сервер
www.poland.net www.israil.net	Региональные поисковые серверы Польши, Израиля
www.ifoseek.com	Поисковый сервер (простой в использовании)
www.ipl.org	Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня"
www.wisewire.com	WiseWire - организация поиска с применением искусственного интеллекта
www.webcrawler.com	WebCrawler - поисковый сервер, прост в обращении
www.yahoo.com	КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista
www.aport.ru	Апорт - русскоязычный поисковый сервер
www.yandex.ru	Яндекс - русскоязычный поисковый сервер
www.rambler.ru	Рамблер - русскоязычный поисковый сервер
Справочные ресурсы Интернет
www.yellow.com	Желтые страницы Интернет
monk. newmail.ru	Поисковые системы различного профиля
www.top200.ru	200 лучшихWeb-сайтов
www.allru.net	Каталог русских ресурсов Интернет
www.ru	Каталог русских ресурсов Интернет
www.allru.net/z09. htm	Образовательные ресурсы
www.students.ru	Сервер российского студенчества
www.cdo.ru/index_new. asp	Центр дистанционного обучения
www.open. ac. uk	Открытый университет Великобритании
www.ntu.edu	Национальный университет США
www.translate.ru	Электронный переводчик текстов
www.pomorsu.ru/guide. library.html	Список ссылок на сетевые библиотеки
www.elibrary.ru	Научная электронная библиотека
www.citforum.ru	Электронная библиотека
www.infamed.com/psy	Психологические тесты
www.pokoleniye.ru	Web-сайт Федерации Интернет образования
www.metod. narod.ru	Образовательные ресурсы
www.spb. osi.ru/ic/distant	Дистанционное обучение в Интернет
www.examen.ru	Экзамены и тесты
www.kbsu.ru/~book/	Учебник информатики
Mega. km.ru	Энциклопедии и словари

Поиск информации в Интернете: подводные камни

Проблемы, не лежащие на поверхности, нередко дают о себе знать лишь "задним числом", после того как определенный этап поисковых работ завершен и, возможно, исходя из его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой системы (ИПС)? Ответ довольно прост: отсутствие исчерпывающей информации подобного рода со стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко удается встретить в Сети поисковую систему, которая не обладала бы некоторыми "недокументированными" особенностями. Казалось бы - пользователю необходимо не так уж много сведений, а именно:

как происходит наполнение базы данных ИПС и каков ее объем;

полный спектр возможностей поискового языка системы;

основные особенности представления результатов поиска, прежде всего алгоритма ранжирования записей из списка отклика на поисковый запрос.

Увы, источником подобной информации обычно является не документ, доступный с головной страницы поискового сервера, а разбросанные по Сети, книгам и компьютерным журналам публикации отдельных авторов. К причинам такого положения дел, по-видимому, можно отнести не только небрежность разработчика, но и фактор, именуемый маркетинговой политикой. Проще говоря, предоставление поисковой системой наиболее полной информации о самой себе не всегда положительно сказывается на ее рейтинге. Тем не менее, взять ситуацию под контроль в ряде случаев пользователю оказывается вполне по силам. Выяснить особенности работы избранного поискового сервиса часто удается с помощью тестирования. Построение специальных тестовых запросов, быстро проясняющих именно тот аспект работы системы, который наиболее важен для текущей задачи, во многих случаях оказывается нетривиальным. Тому, как избежать некоторых неприятностей при работе с ИПС, мы и посвятим наше обсуждение. В качестве примеров, иллюстрирующих изложение, будут рассмотрены широко известные поисковые системы Интернета.

Любая поисковая машина или каталог регламентирует свою работу по сбору данных из Сети. Очевидно, что формирование поискового образа информационного объекта, или, другими словами, его "отражения" в "зеркале" поисковой системы, неизбежно связано с некоторыми искажениями. По сути, главным при этом становится вопрос о том алгоритме, на основе которого создается поисковый образ. Объектом-оригиналом при этом может стать как Web-страница, так и файл "закрытого" формата, который не доступен для проникновения сканирующих программ ИПС, например видео - или аудиозапись. Определенный шаблон обычно используется и при построении поискового образа для физического или юридического лица в момент его регистрации в поисковой службе. Отсечение, фильтрация информации от оригинала свойственны всем без исключения ИПС, в том числе и полнотекстовым системам глобального охвата и самого общего назначения.

Фильтрация может регламентироваться как на техническом, так и на лингвистическом уровне, однако задача у нее одна - при минимальных материальных затратах добиться реальной эффективности поиска.

В связи с этим на практике часто возникает вопрос - что становится причиной неудачного поиска: высокая ли вероятность отсутствия в Сети на данный момент времени информации, релевантной запросу, или то, что эта информация потенциально не доступна для рассматриваемой поисковой системы. "Подводным камнем" этот аспект становится, когда получен ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается неконтролируемой. Некоторый свет на особенности работы глобальных ИПС проливает сравнительный анализ их возможностей, который был приведен в прошлой публикации. Однако, если детали алгоритма фильтрации не известны, наиболее чувствительные потери данных возникают именно при использовании специализированных поисковых служб.

Рассмотрим несколько примеров. Немало специализированных систем имеет собственный интерфейс для ввода поисковых запросов. Тем не менее можно считать веянием времени ситуацию, когда многие подобные сервисы интегрируются в шаблоны глобальных ИПС в виде фильтров. Такими возможностями всегда отличался HotBot; недавно соответствующие элементы были внедрены на AltaVista; есть они и на Еxcite. Постоянно расширяется набор фильтров поисковой системы Lycos (см. рис.1), на которой мы остановимся подробнее.

Представьте себя на месте пользователя, впервые посетившего такую известную глобальную поисковую систему, как Lycos, с целью найти в Сети сведения о некоем книжном издании. Введя соответствующие ключевые слова и выбрав фильтр Books, он получает отклик, который, при отсутствии дополнительной информации, нельзя расценить иначе, как получение данных о книгах, собранных по всему Интернету. Интересно было бы задать вопрос, а может ли в масштабе Сети автоматически вестись отбор подобных сведений? Если говорить только о пространстве WWW, то в большинстве случаев программы-пауки, сканирующие Сеть, используют для распознавания типа данных специальные элементы языка HTML, с помощью которых в Web-страницу внедряются определенные информационные блоки. Название элемента может нести смысловую нагрузку и отождествляться с типом информации. Так, если бы гипотетически существовал элемент HTML book, заключающий в себе сведения о книге и ее авторе, он мог бы размещаться на странице и в простейшем случае иметь следующий вид:

<book>Название книги и автор</book>

(сами элементы <book> в окне браузера не должны отображаться) При этом вся информация о книгах, публикуемая в WWW подобным образом, могла бы благополучно и без участия человека накапливаться в базе данных ИПС. Но элемента book в стандарте HTML пока не существует. Следовательно, приходится прибегать либо к "ручному" отбору, либо к автоматическому просмотру некоторых, заданных наперед каталогов отдельных узлов, возможно, имеющих отношение к продаже книжной продукции или к библиотекам.

В случае Lycos все гораздо проще. Поиск происходит всего-навсего по одному-единственному узлу компании (http://www.barnesandnoble.com), заинтересованной в реализации своего товара. К чести разработчика следует сказать, что после нескольких лет молчания по поводу фильтра "books" в недрах предлагаемой документации сегодня можно найти скромное упоминание об арендаторе фильтра. Ранее его владельца просто нельзя было идентифицировать, и только спустя некоторое время стало понятно, что система работает с довольно незначительной по объему и специфически пополняемой базой данных.

Не менее серьезно звучат опасения в случае, когда поиск связан с информацией, привязанной к определенному формату ее хранения, например к звуковым файлам. В течение нескольких месяцев поиск "звуков в Интернете" на Lycos оставался чем-то таинственным, напоминающим работу с небольшой, но со вкусом собранной коллекцией. Тестирование системы с помощью простых запросов показывало, что в основном в ней представлены форматы WAV и AU. Недавно стало известно, что теперь поддерживаются также и MP3, MID, RA, RAM и AIF. При этом объем накопленных записей, доступных через большинство фильтров, продолжает сохраняться в тайне.

Ясно, что, если интересующий вас формат не входит в поддерживаемый на данный момент системой перечень, вы получите нулевой отклик, причину которого следовало бы четко представлять с самого начала.

Происхождение сопроводительных записей к звуковым файлам на Lycos, которые отображаются в результатах поиска, по-прежнему не регламентировано разработчиком.

Аналогичные проблемы существуют и на других ИПС. Хотелось бы отметить типичный в этом отношении прием: использование шаблона глобальной ИПС как для поиска информации, относящейся ко всему Интернет-пространству, так и для поиска по некоторым избранным базам данных или коллекциям. К сожалению, реальное поле поиска оговаривается далеко не всегда, и часто его приходится выяснять самостоятельно во избежание неверных выводов в дальнейшем

Ситуация может осложниться тем, что на поисковом сервере вы не найдете исчерпывающего описания того, как работают операторы языка запросов.

C этим можно столкнуться даже на "зрелых", не первый год работающих ИПС. Рассмотрим на примере AltaVista, каким образом это может стать источником определенных проблем.

Несмотря на недавнее появление графического фильтра (рис.2), многие пользователи системы продолжают эксплуатировать прозрачный по своей природе оператор image, позволяющий находить в индексе графические файлы. На этот счет справка AltaVista исчерпывается тем, что рекомендует ввести в шаблон запрос, в котором вслед за указанным оператором должно следовать имя или часть имени искомого файла. Таким образом, для поиска файла с изображением акрополя следует задать запрос в виде image: acropolis.

Увеличит ли наши шансы на успех знание того, как реально отрабатывает оператор image? Если посмотреть на откликнувшиеся документы, а затем на их HTML-источник, то легко убедиться, что в каждом из них в месте вставки графического образа присутствует элемент <IMG>. Внутри него в качестве обязательного атрибута стоит URL, с которого, собственно, и извлекается сам файл:

Фактически же Web-страница дает отклик, если ключевое слово входит не только в имя файла, но и в название любого каталога и в доменное имя сервера, содержащихся в URL элемента <IMG>, то есть документ, включающий в себя приведенную выше строку, откликнулся бы и на запрос image: buildings. Следовательно, поиск по имени каталога, которое так же, как и имя файла, несет смысловую нагрузку, позволяет получить графические данные, которые нельзя извлечь в первом случае. Предположим, что Web-мастер неосторожно назвал искомый файл ACR1. GIF, но разумно положил его в каталог buildings. Тогда по запросу image: buildings могут откликнуться релевантные документы с изображением акрополя, вставленным в Web-страницу с помощью строки:

В расширенном поиске AltaVista используются логические операторы и скобки. Однако на сервере ничего не говорится о том, допустимо ли применять их внутри специальных полей поиска, таких как поле image. Уже заведомо зарегистрированный в индексе графический файл, найденный ранее, можно использовать для проверки работоспособности отдельных поисковых запросов. Так, если предположить, что файл с URL из последнего примера существует, то тестовый запрос в виде image: (buildings AND acr1) должен дать корректный ненулевой отклик и таким образом подтвердить, что комбинирование операторов допустимо. На практике это действительно возможно.

Хотелось бы еще раз подчеркнуть, что речь здесь идет не о несовершенстве отдельных поисковых систем, а о конструктивном подходе к разрешению возникающих вопросов. При этом нередки и ситуации, предугадать которые крайне сложно.

Если, скажем, на той же AltaVista организовать поиск по ключевому слову "президент" (оно специально выбрано в качестве тестового как довольно распространенное), легко убедиться, что отклик зависит от двух факторов: какой язык выбран в меню шаблона (см. рис.2, справа вверху) - русский (Russian) или любой (any language), а также какая русская кодировка установлена в меню браузера. Результаты поиска приведены в табл.1. Анализ списка отклика показывает, что, во-первых, при вводе запроса только в одной кодировке неминуемо теряются данные. Во-вторых, становится ясно, как система идентифицирует тот или иной язык документа. Оказывается, если некоторая начальная часть документа написана на языке, отличном от русского, то этот документ уже не описывается ИПС как русскоязычный. Результат этой недокументированной особенности - максимальный отклик индекса при поиске по русскоязычному термину достигается при установке пункта меню "any language", а не "Russian".

В шаблоне расширенного поиска популярной бизнес-ориентированной системы Open Text Livelink Pinstripe (OTLP) (рис.3) также скрыты некоторые проблемы, никак не освещенные в справочном материале ИПС.

Как видно из рисунка, шаблон позволяет задать свое поле поиска для каждого термина, а затем связать термины с помощью логических операторов. Однако как только терминов становится больше двух - возникает вопрос: в какой последовательности будут отрабатывать операторы и, соответственно, что будет представлять собой результат. Даже для такого простого запроса, как term1 AND term2 OR term3, разумно предположить двоякую интерпретацию, которую можно проиллюстрировать с помощью выделения в скобки логических единиц (в самом шаблоне скобки не применяются). И вариант (term1 AND term2) OR term3, и вариант term1 AND (term2 OR term3) кажутся приемлемыми, давая при этом совершенно разный отклик. Тестовый запрос и последующий анализ откликнувшихся документов показывают справедливость первого варианта, то есть то, что операторы выполняются по мере их появления в шаблоне и в документе будут присутствовать либо term1 и term2 одновременно, либо только term3. Как в таком шаблоне вводить запросы с участием фраз (а это возможно) - автор предлагает выяснить читателям самостоятельно. В данном случае приходится констатировать очевидную небрежность разработчика по отношению к пользователям системы.

Подавляющее большинство ИПС Интернета сегодня активно работает с так называемыми стоп-словами (stop-words). К последним относят служебные части речи, которые не несут смысловую нагрузку, а также некоторые наиболее общеупотребительные в Сети слова, такие как information, Internet, Web, business, и другие. Известно, что AltaVista, Excite, HotBot и Lycos применяют в работе технику стоп-слов, а Infoseek и NorthernLight ее не практикуют.

При появлении стоп-слов в поисковом запросе, не содержащем специальных ухищрений, ИПС может не учитывать их при поиске и ранжировании результатов, при этом иногда информируя об этом пользователя, а иногда - нет. В целом неучет стоп-слов при обработке запроса сокращает время поиска и повышает релевантность отклика. Однако стоит вам попробовать отыскать что-нибудь вроде классической фразы Шекспира "to be or not to be", состоящей только из стоп-слов, - и вы уже не владеете ситуацией.

Хотя стоп-слова и могут игнорироваться в простых запросах, в индексе полнотекстовой ИПС они присутствуют наряду с остальными. Такой системой является, например, AltaVista (индексируются все слова документа). HotBot, напротив - индексирует все, кроме стоп-слов.

Тем не менее и HotBot выполняет полнотекстовое индексирование отдельных значимых полей документа, так что запросы со стоп-словами, оформленные в виде фразы, дают и на этой ИПС результативный отклик.

Перечень стоп-слов не стандартизован, так что он может быть оригинальным для каждого сервиса. Разработчики редко приводят сведения об этом аспекте работы ИПС, однако при необходимости поиск по ключевым словам stop, words плюс название интересующей вас поисковой машины позволяет обнаружить в Сети версии соответствующих перечней.

Наиболее общие принципы выхода из проблемной ситуации следующие: по возможности избегать употребления стоп-слов в запросах, исключить применение логических операторов типа and, or, not и других в тех шаблонах, в которых они не поддерживаются и будут восприняты как стоп-слова.

Если же без стоп-слов в запросе обойтись нельзя, то следует включить их во фразу, что во многих системах означает заключение в кавычки. В отдельных случаях полезно протестировать работу шаблонов простого и расширенного поиска ИПС, в которых техника поддержки стоп-слов может быть различной

Самая захватывающая интрига Сети, которую порождают ИПС, связана с особенностями работы алгоритма, ранжирующего результаты в списке отклика. Эти сведения обычно не предаются широкой огласке, но они крайне необходимы Web-мастерам, продвигающим в суровой конкурентной борьбе свои узлы через поисковые системы Интернета. Попасть в первые несколько десятков записей из списка отклика на ИПС по часто повторяющимся в Сети запросам - значит обеспечить свою доступность для потенциальных клиентов (см. КомпьютерПресс №5’99, с.114).

Тем не менее, и при решении поисковых задач во время работы со списком отклика из-за недостатка информации также могут возникать некоторые проблемы.

В предыдущем выпуске мы говорили о том, что простые тестовые запросы позволяют с самого начала работы с ИПС понять, насколько широко в индексе представлена искомая информация. Однако не всякая ИПС дает полное число документов, содержащихся в отклике на запрос (например, Lycos, не дает). В какой-то мере это позволяет системе сохранить свое лицо, избежав сравнения с гигантами - Northern Light, AltaVista или HotBot. При решении профессиональных поисковых задач к таким сервисам следует обращаться в последнюю очередь.

Обычно в списке отклика появляется информация, которая включает в себя заголовок страницы, адрес и аннотацию. Аннотация берется либо из специального META-элемента, задаваемого автором документа, либо в этом качестве выступают несколько первых нередактируемых строк текста, взятых со страницы. В некоторых случаях указывается язык документа. Выше мы уже обращали внимание на проколы алгоритма AltaVista, связанные с идентификацией языка, и подобные случаи - не редкость и на других ИПС.

Другая обескураживающая неприятность - это возможное отсутствие в найденных документах тех самых ключевых слов, по которым проводился поиск. Причиной подобного явления, если не считать незарегистрированного обновления страницы без изменения адреса, становится тот факт, что ключевые слова были заданы автором в специальном поле - элементе META. Оно доступно для сканирования роботом ИПС, но не отображается на странице. В этом случае путем просмотра метаэлементов HTML-источника у вас есть возможность убедиться в недобросовестности автора: несоответствие ключевых слов содержанию документа - это прямая дезинформация.

Еще одна проблема вообще не очевидна для единичного пользователя. Речь идет о том, как поисковый сервер обрабатывает запросы в случае, когда их поступает слишком много, то есть в режиме переполнения. Так, автору статьи не раз приходилось сталкиваться с тем, что, например, на AltaVista при одинаковом и практически одновременном тестовом запросе с 10-15 компьютеров количество результатов, появляющихся в отклике для каждого пользователя системы, иногда может различаться на десятки тысяч. В действительности, попадая в режим перегрузки, поисковый сервер не имеет большого выбора, а именно: он либо отклоняет запрос, либо обслуживает его по "сокращенному" варианту. Последний вполне может предполагать предоставление лишь части удовлетворяющих запросу данных. Выход очевиден: проверять достоверность отклика ИПС многократно и в разное время суток.

Нам хотелось бы остановиться на некоторых более чем реальных опасностях, которые подстерегают пользователя, доверившегося малоизвестному поисковому серверу. Написать об этом автора заставил такой случай. Человеку была срочно необходима информация о наличии прямых электропоездов между двумя городами СНГ. Воспользовавшись каталогом Rambler, он быстро сумел локализовать сервер, предлагающий необходимые сведения (рис.4).

http://pavel. physics. sunysb.edu: 8080/

После введения станций отправления и назначения система ответила отрицательно (см. рис.4, строка внизу). Такой категоричный ответ сервера заставил человека прекратить дальнейшие поиски и принять решение, о котором ему скоро пришлось пожалеть. Предъявить претензии к разработчику системы также оказалось невозможным. Дело в том, что чуть ниже под результатом поиска пользователем не была замечена одна важная деталь, а именно надпись "Расписание рекламное, возможны изменения, за которые не несут ответственности ни распространитель, ни МПС". При этом если бы фраза об отказе была сформулирована чуть мягче, пользователь, вероятно, смог бы продолжить поиск в Сети и достичь положительного результата.

В некоторых случаях маркетинговая агрессивность разработчика начинает носить вызывающий характер. Вот уже не один месяц на серверах HotBot и AltaVista находится рекламное объявление крупнейшей книготорговой компании Amazon (http://www.amazon.com), а также ряда других. При этом на любой запрос в ИПС рядом с результатами поиска появляется баннер, намекающий на то, что как раз по тематике выполненного поиска и можно найти информацию на Amazon, даже если в запросе фигурировал мистический "господин Иванов" (см. рис.5).

Подстановка терминов из поискового шаблона в баннер производится путем их механического переноса и безо всякого контроля на предмет действительного наличия книг по данной тематике на сервере компании. К тому же найти "Иванова" на Amazon нельзя в принципе, поскольку вплоть до последнего времени русскоязычная литература там не продавалась. В данном случае плата за доверчивость - это несколько минут напрасно потраченного времени.

Таким образом, от привычного уважения к печатному слову в Сети лучше отказаться, особенно если сервер генерирует реплики автоматически.

www.neuch.ru

Реферат - Поиск и сохранение информации в сети Интернет

Поиск и сохранение информации в сети Internet

РЕФЕРАТ ПО ИНФОРМАТИКЕ

Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 15 миллионов абонентов в более чем 150 странах мира. Ежемесячно размер сети увеличивается на 7—10%. Internet образует как бы ядро, обеспечивающее связь различных информационныхсетей, принадлежащих различным учреждениям во всем мире, одна с другой.

Если ранее сеть использовалась исключительно в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределенного доступа к ресурсам. Фактически Internet состоит из множества локальных и глобальных сетей, принадлежащих различным компаниям и предприятиям, связанных между собой различными линиями связи. Internet можно представить себе в виде мозаики, сложенной из небольших сетей разной величины, которые активно взаимодействуют одна с другой, пересылая файлы, сообщения и т.п.

Поиск информации

Существует во многом справедливое мнение, что уже сегодня в Интернет “есть все” и проблема лишь в том, как найти нужную информацию. Сама открытая архитектура Сети способствует тому, что в ней отсутствует какая-либо централизация и ценнейшие для Вас данные, которые Вы безуспешно искали по всему свету, могут оказаться расположенными на сервере в одном городе с Вами.

Можно выделить 2 взаимодополняющих подхода к сбору информации о ресурсах Интернет – создание индексов и создание каталогов:

· При первом способе мощные поисковые серверы непрерывно “обыскивают” Интернет, создавая и пополняя базы данных, содержащие информацию о том, в каких документах Сети встречаются те или иные ключевые слова. Преимущество поискового сервера – простота работы с ним, недостаток – низкая степень отбора документов по запросу.

· Во втором случае сервер организован как библиотечный каталог, содержащий иерархию разделов и подразделов, в которых хранятся ссылки на документы, соответствующие теме подраздела. Пополнение каталога обычно производится самими пользователями после проверки введенных ими данных администрацией сервера. Каталог ресурсов всегда лучше упорядочен и структурирован, но требуется время для поиска нужной категории, которую, к тому же, не всегда легко определить.

Работа с поисковыми серверами. При входе на главную страницу поискового сервера достаточно набрать в поле ввода свой запрос в виде набора ключевых слов и нажать кнопку начала поиска.

Запросы могут содержать любые слова, причем, не обязательно заботиться о падежах и склонениях – например, запросы “реферат по философии” и “философия реферат” вполне корректны.

Современные поисковые сервера достаточно хорошо понимают естественный язык, однако, на многих из них сохранены возможности расширенного или специального поиска, позволяющие искать слова по маске, объединять слова запроса логическими операциями “И”, “ИЛИ”, и т.д.

После завершения поиска в базе данных сервер выводит на экран первую порцию из 10 или более документов, содержащих ключевые слова. Кроме ссылки, обычно приведено несколько строк текста описания документа или просто его начало. Открывая ссылки в новом или этом же окне браузера, можно переходить к выбранным документам, а строка ссылок внизу страницы позволяет перейти к следующей порции документов. Эта строка выглядит примерно так:

1 2 3 4 5 6 7 8 9 след

По отсутствию одной ссылки видно, что сейчас открыта вторая порция найденных документов.

Различные серверы сортируют найденные документы по разному – по дате создания, по посещаемости документа, по наличию в документе всех или части слов запроса (релевантности), некоторые серверы позволяют сузить область поиска, выбрав на главной странице категорию искомого документа – например, по запросу “банки” в категории “деловой мир” вряд ли будут найдены сведения о банках консервных.

Из популярных средств русскоязычного поиска можно назвать серверы www.yandex.ru, www.aport.ru и www.rambler.ru, индексирующие десятки тысяч серверов и десятки миллионов документов. Из зарубежных серверов популярны www.altavista.com, www.hotbot.com, www.lycos.com, www.excite.com, www.opentext.com.

Наконец, в Интернет немало страниц для метапоиска, позволяющих обратиться сразу к нескольким популярным поисковым серверам с одним и тем же запросом – посмотрите, например, страницы www.find.ru или www.rinet.ru/buki.

Работа с каталогами ресурсов. При входе на главную страницу каталога мы попадаем в обширное меню или таблицу выбора категорий, каждая из которых может содержать вложенные подкатегории. Стандарта здесь нет, но все-таки структуры каталогов во многом похожи, везде можно найди разделы “бизнес” или “деловой мир”, “компьютеры”, “программирование” или “интернет”, “юмор” или “хобби” и т.д. Перемещаясь по категориям, можно добраться до ссылок на конкретные документы, которые, так же как на поисковом сервере, выдаются порциями и сопровождаются краткой информацией.

Сегодня существует множество крупных каталогов с десятками тысяч ссылок, из отечественных каталогов можно назвать www.list.ru, www.weblist.ru, www.stars.ru, www.au.ru, www.ru, www.ulitka.ru, а из зарубежных — www.yahoo.com, www.magellan.com.

Часто в каталоге есть также форма для поиска по ключевым словам среди занесенных в него документов.

Правила поиска. Попробуем дать несколько простых советов, касающихся поиска в Сети:

· заранее четко определите тему поиска, ключевые слова и время, которое Вы готовы на этот поиск потратить; выберите поисковый сервер – ссылки на лучшие из них полезно хранить в Избранном;

· не бойтесь естественного языка, но проверяйте правильность написания слов, например, при помощи Microsoft Word;

· используйте большие буквы только в именах и названиях. Многие поисковые сервера правильно обработают запрос “реферат”, но не “Реферат”;

· не ставьте в запросах знаков препинания и избегайте “стоп-слов”, таких как “что”, “как”, “и”, “зачем” и т.д. Запрос “что такое когнитивная психология” нисколько не информативнее, чем запрос “когнитивная психология”;

· локализуйте поиск – найдя сервер подходящей организации, перейдите на его главную страницу и попытайтесь поискать там;

· в процессе поиска не отвлекайтесь на посторонние ссылки, какими бы интересными они ни казались.

Сохранение информации

Работа в Интернете иногда требует сохранения нужных данных и их печати. Самый простой способ копирования данных с веб–страницы – это копирование текста и вставка его в документы программ Office. Данный прием выполняется стандартным копированием через буфер обмена.

Для копирования текста с веб–страницы следует выделить нужный фрагмент, поместить в буфер обмена данных командой Правка – Копировать (или сочетанием клавиш CTRL+C). Затем отрыть программу, в который этот текст следует поместить и в нужном месте дать команду вставки: Правка – Вставить (или сочетание клавиш CTRL + V). Для быстрой сборки текстового документа очень удобны стандартные программы Windows – блокнот и WordPad. при этом следует учитывать, что графические элементы, стилевое оформление пропадают. Если есть потребность сохранения всех данных веб–страницы, рекомендуется использовать Microsoft Word. Данная программа сохраняет стилевое оформление, графические элементы и гиперссылки, но при этом объем документа выходит значительным, а сохранить документ без искажений получается только в родном формате Word.

Иногда перенос содержимого веб–страницы в другую программу неприемлемо для пользователя, тогда помогает функция сохранения страницы целиком или ее части в формате веб–документа. Для сохранения даем команду Файл – Сохранить как. В открывшемся диалоговом окне указывается место сохранения, имя файла и формат, в котором будет храниться документ. Пользователю предлагается 4 варианта:

1. Формат Веб–страница, полностью – страница сохраняется целиком вместе с используемыми шрифтами, графикой, стилями и гиперссылками. Открыв такой документ можно увидеть страницу в исходном виде в окне браузера. Исходная структура ссылок не сохраняется, при сохранении создается отдельная папка с изображениями и дополнительными файлами, необходимыми для полноценного просмотра веб–страницы.

2. Формат Веб–страница, только HTML сохраняет страницу без изображений, структура ссылок исходной страницы сохраняется.

3. Формат Текстовые файлы – сохраняет страницу в виде текстового файла, структура ссылок нарушается.

4. Формат Все файлы – используется для сохранения в каком – либо ином формате.

Многие веб–страницы используют фреймы – отдельные блоки на странице. Данные в фреймах могут формироваться отдельно от содержимого сайта. Поэтому возникает необходимость обособленно сохранять информацию во фреймах. Для сохранения отдельного фрейма на веб-странице следует поместить курсор мыши в данный фрейм и дать команду: Файл – Сохранить фрейм как. Сохранение происходит также как сохранение веб–страницы.

Современный Интернет насыщен различной информацией: статьями, книгами, рисунками, фотографиями, анимацией и др. Использование широкополостного доступа позволяет пользователям беспрепятственно копировать любую информацию. Единственным ограничением здесь является соблюдение авторских прав владельцев.

www.ronl.ru

Реферат: Методы поиска информации в Интернете:. Поиск данных в интернете реферат

Методы поиска информации в Интернете

1.1 Средства поиска файлов

1.2 Средства WWW - WorldWideWeb (Всемирная сеть)

2.1 Основные требования к поиску

2.2 Методика поиска информации в Интернете

2.3 Развитие информационного ресурса

2.4 Требования к инструментам поиска

2.6 Глобальные поисковые машины WWW

Реферат: Реферат: Поиск информации в Интернете

Поиск информации в интернет

Поисковые системы Интернет

Правила выполнения запросов

Поиск информации в Интернете: подводные камни

Реферат - Поиск и сохранение информации в сети Интернет

Смотрите также