Начальная

Windows Commander

Far
WinNavigator
Frigate
Norton Commander
WinNC
Dos Navigator
Servant Salamander
Turbo Browser

Winamp, Skins, Plugins
Необходимые Утилиты
Текстовые редакторы
Юмор

File managers and best utilites

Реферат: Методы поиска информации в Интернете. Реферат виды информационного поиска


Реферат - Технология поиска документальной информации в Интернет

Министерство общего и профессионального образования РФ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ

Институт заочного обучения

КУРСОВОЙ ПРОЕКТ

По дисциплине: «Информационные технологии в управлении»

На тему: «Технологии поиска документальной информации в INTERNET »

Выполнено: Егорова А.С.

Студенческий билет № 3065

Группа 431

МОСКВА, 2001

СОДЕРЖАНИЕ (стр.):

1. ВВЕДЕНИЕ.

1.1. Что такое Internet (3).

1.2. Краткая история Internet (5).

2. БРАУЗЕРЫ: сравнительные характеристики Netscape Navigator и Microsoft Internet Explorer (6).

3. ПОИСКОВЫЕ СИСТЕМЫ (10).

3.1. Механизмы поиска (12).

3.2. Сравнительный обзор поисковых систем. Структура запроса (15).

4. ЗАКЛЮЧЕНИЕ (24).

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ (25).

1. ВВЕДЕНИЕ.

1.1. Что такое Internet .

Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 30 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличивается на 5-7%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.

Всплеск интереса к глобальной информационной сети Internet наблюдается сейчас повсеместно. В сложившихся условиях потребность в информации о сети Internet становится особенно острой. В настоящее время по Internet распространяется множество документов, касающихся как функционирования сети и работы в ней пользователей, так и связанных с различными сферами жизни: наукой, культурой, экономикой и т.д. При чём обновление информации в Internet, обширной разветвленной сети, которая включает в себя компьютерные узлы, разбросанные по всему миру, происходит, практически, в режиме реального времени.

В действительности Internet не просто сеть, — она есть структура, объединяющая обычные сети. Internet — это «Сеть сетей».

Чтобы описать сегодняшнюю Internet, полезно воспользоваться строгим определением. В своей книге «The Matrix: Computer Networks and Conferencing Systems Worldwide» Джон Квотерман описывает Internet как «метасеть, состоящую из многих сетей, которые работают согласно протоколам семейства TCP/IP, объединены через шлюзы и используют единое адресное пространство и пространство имен».

Для организации межсетевых соединений необходим соответствующий протокол.

Протокол — это набор договоренностей, который определяет обмен данными между различными программами. Протоколы задают способы передачи сообщений и обработки ошибок в сети, а также позволяют разрабатывать стандарты, не привязанные к конкретной аппаратной платформе. Все параметры — от скорости передачи данных до методов адресации при транспортировке отдельных сообщений — задаются протоколами, используемыми в данной конкретной сети.

В Internet базовым протоколом служит TCP/IP (Transmission Control Protocol/Internet Protocol). IP отвечает за адресацию сетевых узлов, а TCP обеспечивает доставку сообщений по нужному адресу. Эти мощные протоколы были предложены в 1974 г. Робертом Кэном, одним из основных разработчиков ARPANET, и ученым-компьютерщиком Винтоном Серфом, вице-президентом CNRI. Следует иметь в виду, что TCP/IP не единственный протокол, пригодный для объединения различных сетей. Internet ныне превратилась в многопротокольную сеть, интегрирующую другие стандарты. Основные среди них — стандарты взаимодействия открытых систем (OSI).

Предложенные Международной организацией по стандартизации (ISO) протоколы OSI получили широкое распространение в Европе. Системы, основанные на других протоколах, тоже подключаются к Internet через шлюзы. Например, BITNET — это сеть, которая использует для передачи данных свои собственные стандарты, однако, по крайней мере, частично, она доступна через шлюзы из Internet.

В Internet нет единого пункта подписки или регистрации; вместо этого вы контактируете с поставщиком услуг, который предоставляет вам доступ к сети через местный компьютер. Последствия такой децентрализации с точки зрения доступности сетевых ресурсов также весьма значительны. Среду передачи данных в Internet нельзя рассматривать только как паутину проводов или оптоволоконных линий. Оцифрованные данные пересылаются через маршрутизаторы, которые соединяют сети и с помощью сложных алгоритмов выбирают наилучшие маршруты для информационных потоков.

1.2. Краткая история Internet .

Вначале ничто не предвещало, что Internet станет общедоступной компьютерной сетью. Как и многие другие великие идеи, «Сеть сетей» возникла из проекта, предназначавшегося совершенно для других целей. Ее прародительницей стала сеть АRPANET, разработанная и развернутая в 1969г. компанией Bolt, Beranek, and Newman (BBN) по заказу Агентства передовых исследовательских проектов (ARPA) Министерства обороны США.

ARPANET объединяла учебные заведения, военные организации и их подрядчиков. Она была создана с целью помочь исследователям в обмене информацией, а также (что явилось одной из главных целей) для отработки методов поддержания связи в случае ядерного нападения.

Основатели ARPANET первоначально позволяли ученым только войти в систему и запустить программу на удаленном компьютере. Скоро к этим возможностям прибавились передача файлов, электронная почта и списки рассылки, обеспечившие общение исследователей, интересовавшихся одной и той же областью науки и техники. Но по мере роста ARPANET развивались и другие сети, и вскоре стала очевидной потребность в новых средствах связи.

Сравнительно недавно появилась новая технология Internet названная World Wide Web (WWW), что обычно переводится как «Всемирная паутина». Эта система была разработана, в основном, в Европейской лаборатории элементарных частиц в Швейцарии (CERN). Сеть предназначалась первоначально для физиков, но затем получила широкое признание.

WWW построена по технологии, в основе которой лежит принцип создания гипертекстовых документов (Web-страниц). Гипертекстовый документ заключает в себе ссылки на другие подобные документы, которые, в свою очередь, содержат ссылки на следующие, и т.д. Таким образом, они оказываются связанными между собой.

Для работы в WWW используется протокол HTTP (Hyper Text Transmission Protocol), а программы, позволяющие работать с соответствующими документами в Internet, называют просмотрщиками или браузерами .

2. БРАУЗЕРЫ: сравнительные характеристики Netscape Navigator и Microsoft Internet Explorer .

Документы Internet предназначены для отображения в электронном виде, причем автор документа не знает возможностей компьютера, на котором будут просматриваться документы. Поэтому был создан стандарт для описания и создания документов, расположенных на Web-страницах. Этот язык называется HTML (HyperText Markup Language – язык разметки гипертекста). Этот язык описывает логическую структуру документа, управляет форматированием текста и размещением вставных объектов.

Форматирование и отображение документа, описанного с помощью HTML, на конкретном компьютере производится специальной программой – браузером. Проще говоря, браузер предназначен для просмотра содержимого Web-страниц.

Основные функции браузеров следующие:

· установка связи с Web-сервером, на котором хранится документ, и загрузка всех его компонентов;

· форматирование и отображение Web-страниц в соответствии с возможностями компьютера, на котором браузер работает;

· предоставление средств для отображения мультимедийных и других объектов входящих в состав Web-страниц, а так же механизма расширения, позволяющего настраивать программу на работу с новыми типами объектов;

· обеспечение автоматизации поиска Web-страниц и упрощение доступа к страницам, посещавшимся раньше;

· предоставление доступа к встроенным или автономным средствам для работы с другими службами Internet.

В настоящее время на этом рынке доминируют два браузера: Navigator фирмы Netscape и Internet Explorer фирмы Microsoft.

Они предоставляют пользователям весьма схожий интерфейс и набор основных возможностей и ведут на этом рынке весьма жесткую конкурентную борьбу, постоянно обновляя предыдущие версии.

Ниже приводится описание основных возможностей этих браузеров.

Браузер Internet Explorer обеспечивает работу с WWW, предоставляет идентичные средства работы с локальными папками компьютера и файловыми архивами FTP, дает доступ к средствам связи с Internet. Для запуска программы можно использовать значок Internet Explorer на Рабочем столе или Главного меню. Кроме того, программа запускается автоматически при попытке открыть документ Internet или локальный документ в формате HTML.

Если соединение с Internet отсутствует, то после запуска программы появиться диалоговое окно установки соединения. При невозможности установки соединения сохраняется возможность просмотра в автономном режиме ранее загруженных Web-документов. При наличии соединения после запуска программы на экране появится основная страница, выбранная при настройке программы.

Далее можно работать с Web-страницами, просматривая их содержимое, сохраняя его на локальном диске и т.д. При этом можно открывать несколько окон, работая с несколькими Web-страницами.

Для более эффективной работы в Internet необходима настройка Internet Explorer. Параметры оптимальной настройки зависят от:

· свойств видеосистемы компьютера;

· производительности действующего соединения с Internet;

· содержания текущего Web-документа;

· личных предпочтений пользователя.

Настроить Internet Explorer можно как из самой программы, так и через Панель управления.

Если браузер неспособен отображать файлы определенного типа (*.exe, *.zip и т.д.) инициируется процесс загрузки данного файла на компьютер. Программа Internet Explorer 5.0 запускает мастер загрузки файлов, на первом этапе работы которого требуется указать открывать ли файл или сохранить его на локальном диске. Чаще всего файл сохраняется. Это позволяет использовать его в дальнейшей работе, не выходя в Internet. Этот процесс называется проще – скачать файл.

Netscape Navigator – один из лучших Web-браузеров, главная программа пакета Netscape Communicator. С его помощью можно просматривать содержимое Web-страниц, копировать файлы, искать различного рода информацию, работать с текстом и мультимедийными файлами Internet.

Оба браузера имеют свои преимущества. Например:

· Internet Explorer поставляется бесплатно в составе программного обеспечения фирмы Microsoft;

· Internet Explorer имеет более широкие возможности при настройке на конкретные вкусы потребителя и большее количество выполняемых функций;

· Netscape Navigator – имеет большую скорость при работе с Web-страницами.

Но в принципе, оба браузера выполняют похожие задачи и полностью удовлетворяют запросы пользователей при работе с Internet.

Одной из основных архитектурных особенностей Explorer является применение ActiveX — технологии, которая позволяет удобно конфигурировать, например, вид и возможности панели инструментов, что делает компьютер доступным даже для детей.

Оба браузера поддерживают возможность создания HTML-документов, при чём Explorer позволяет создавать темплайты, что так же упрощает создание web-страниц.

Internet Explorer поддерживает наиболее распространенные языки, облегчая пользовательский интерфейс, поддерживает все основные сетевые стандарты и предусматривает интерфейс без использования мыши и возможность изменять шрифт для удобства просмотра.

Что касается скорости просмотра Web-страниц, то Microsoft утверждает, что Navigator проигрывает в скорости, по крайней мере, на 30 процентов.

Netscape подчеркивает отличие Navigatora от других браузеров, а в особенности от Internet ExplОrer, количеством необходимой для него памяти, скоростью работы, значительными удобствами для создателей Web-документов, наличием системы, позволяющей компьютеру пользоваться телефонными услугами Internet в режиме реального времени. К тому же это позволяет избежать неудобств обычной телефонной связи.

Когда Netscape неожиданно появилась на рынке, Microsoft пришлось немедленно отреагировать, чтобы не потерять часть своего бизнеса. Без такой яростной конкуренции между двумя гигантами не было бы ни такого широкого использования Web, ни коммерческих Web-серверов, ни недорогих браузеров с графическими интерфейсами. Это соперничество породило недорогие продукты, которые, благодаря использованию протоколов Internet, способны к взаимодействию. Преодолеть несовместимость различных HTML проще, чем те трудности, которые могли бы возникнуть, считают оптимисты.

3. ПОИСКОВЫЕ СИСТЕМЫ.

Основная задача Internet – предоставление необходимой информации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помощью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируют по методам поиска.

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.

Поисковый индекс обеспечивает поиск по заданным ключевым словам. Обычно ключевые слова вводятся при заполнении специальной формы поиска, после чего нажимается кнопка «Поиск». В результате поиска формируется набор гиперссылок на Web-страницы, содержащий указанные термины. Обычно поисковые индексы выдают огромное количество искомых страниц.

В этом списке представлены ссыл­ки на различные Web-страницы, причем ссылки располагаются по степени убы­вания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, ко­торые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же — по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается иско­мое слово. Первыми в таком списке идут ссылки на те страницы, у которых клю­чевые слова встречаются уже в названии.

Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые индексы, но они точнее указывают на основные ресурсы Сети. Поэтому при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые индексы. Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных метода.

Программа Internet Explorer 5.0 имеет специальные средства организации поиска без явного обращения к поисковым системам. Можно получить доступ к одной из известных поисковых систем, просто щелкнув на кнопке «Поиск», слева появится окно поиска. Далее можно набрать ключевые слова для поиска и выбрать поисковую систему. Результаты поиска будут отражены в правой части окна обозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимое выбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке «Поиск» еще раз.

При работе с Internet ЕхрLorer можно проводить поиск прямо в поле «Ад­рес». Для этого в адресную строку вводиться слово или фраза для поиска. Под адресной строкой откроется окно со словом «Поиск» и искомой фразой. Internet Explorer начнет поиск с использованием заранее определенной системы поиска; при этом кнопка «Поиск» на панели инструментов нажмется сама.

Можно осуществить поиск нажав кнопку «Пуск» и выбрав опцию меню «Найти». Окно Internet Explorer откроется само с уже нажатой кнопкой «Поиск».

Если удалось найти то, что искали, но все же не совсем то, то в этом случае пригодится механизм связанных ссылок. Для любой Web-страницы можно просмотреть список ссылок, имеющих к ней отноше­ние, возможно, среди них окажется как раз то, что нужно. Чтобы просмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать в меню «Сервис» команду «Показать связанные ссылки».

После этого на панели инструментов нажать кнопку «Поиск», и в левой ча­сти экрана полнится окно, содержащее список ссылок, связанных с данной страницей. Нужно щелкнуть на одной из ссылок, и просмотреть в правом окне соответствующую Web-страницу.

Чтобы скрыть окно поиска, необходимо щелкнуть еще раз на кнопке «Поиск».

3.1. Механизмы поиска.

Поисковые cистемы обычно состоят из трех компонентов:

· агент (паук или кроулер), который перемещается по Сети и собирает информацию;

· база данных, которая содержит всю информацию, собираемую пауками;

· поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются.

Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.

Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированны, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты — самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Internet и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в INTERNET, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.

Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения релевантности следующие:

1. Количество слов запроса в текстовом содержимом документа.

2. Тэги, в которых эти слова располагаются.

3. Местоположение искомых слов в документе.

4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос.

Различные поисковые механизмы также выбирают различные способы показа полученного списка — некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

3.2. Сравнительный обзор поисковых систем. Структура запроса.

В сети существуют различные способы поиска информации. Конечно же, если имеется справочник, в котором можно найти местонахождение интересующего вас источника конкретной информации, то, без всякого сомнения, следует этим и воспользоваться. Однако, к сожалению, такие издания далеко не всегда доступны. Кроме того, сеть является постоянно обновляющейся системой и поэтому находится в курсе всего нового с помощи периодики, а тем более с помощью литературы, не всегда представляется возможным. Для поисковых целей в Internet существуют специальные поисковые машины, располагающие значительными базами данных и имеющие связь с себе подобными.

Существенно полезными возможностями у них является наличие системы поиска, которая строится по принципу: от общего — к конкретному. Задавая общее понятие (в виде ключевого слова, нескольких слов или фразы, — в зависимости от сервисных услуг конкретной машины), а затем, с каждым новым поиском всё более и более конкретизируя его, можно получить интересующий результат. Поэтому далее будут рассмотрены несколько основных поисковых систем, использование которых весьма эффективно.

Исторически сложилось, что первой такой поисковой машиной являлась Alta Vista, поэтому с неё и начнём рассмотрение.

AltaVista . Наиболее интересная возможность AltaVista — это расширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Lycos. Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной.

Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой “and” либо “or”.

При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе.

Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа.

Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» — термин обязан быть в документе, и «-» — термин должен отсутствовать в документе.

Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.

Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем INTERNET. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов.

Rambler . Поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ.

Rambler обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем — 5 запросов в секунду), сканируя 48 тысяч Web-серверов и используя несколько одновременно работающих программ-роботов.

Запрос может состоять из одного или нескольких слов, разделенных пробелами. Могут быть использованы как русские, так и английские слова и словосочетания. По умолчанию находятся только те документы, в которых встретились все введенные Вами слова.

Чтобы найти документы, содержащие хотя бы одно слово из запроса, используется логическая связка “or” или выбирается на странице детального запроса: «Слова запроса: любое». Чтобы исключить документы, содержащие те или иные слова, надо указать на странице детального запроса: «Исключить документы, содержащие следующие слова ...».

Все равно, с какой буквы написаны слова запроса: с большой или с маленькой. И при построении индекса, и при поиске по запросу все заглавные (большие) буквы «понижаются».

Слова запроса могут быть соединены логическими связками “and”, “or”. Вместо связок (или в сочетании с ними) могут использоваться также символы “&”, “|”.

Части запроса могут быть сгруппированы с помощью круглых скобок. Возможна многократная вложенность скобок в сочетании с логическими операторами.

Rambler умеет искать слова во всех формах (например, аминокислота, аминокислоты, аминокислотой и т. д.). Чтобы слово находилось во всех формах, перед ним надо поставить служебный символ “#”. В меню детального запроса такой режим может быть включен для всех слов: «Расширение запроса: все формы слов». Служебный символ “@” перед словом позволяет находить не только само это слово, но и однокоренные слова. В меню детального запроса символу “@” соответствует режим «Расширение запроса: все однокоренные».

По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы уменьшить «шум» в найденных документах. Если Вы не помните, как пишется слово, или хотите расширить запрос, можно использовать метасимволы “*” и “?” для обозначения произвольной части слова и произвольного символа.

Ограничить поиск частями документов, такими как название документа, его заголовок, URL и т.п., можно через меню детального запроса «Искать в...».

Можно ограничить поиск документами только на русском или только на английском языке. Для этого надо выбрать соответствующий режим в меню детального запроса «Язык документа...». По умолчанию поиск выполняется по документам на всех языках.

По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню «Сортировать по...» на странице детального запроса.

Вы можете также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать «От даты… до даты ...».

Можно потребовать, чтобы Rambler возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга.

Режим «Ограничить расстояние между словами» может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой Вам последовательности.

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню «Выдавать по...» на странице детального запроса позволяет увеличить это число до 30 или 50. Меню «Форма вывода...» позволяет получать описания документов с увеличенной или уменьшенной подробностью.

Yandex . Yandex ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Yandex не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны москвы и московской области»), и вы получите результат — список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» — документы, содержащие слово «отозвали».

При этом поиск не ограничен лишь словами или фразами. Yandex отыщет по названию Web-страницу компании или файл с нужной картинкой.

Aport . Обычно запрос представляет из себя просто одно или несколько слов.

По такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.

Например, по запросу:яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег». Где в пределах документа расположены слова, в какой грамматической форме они находятся — не важно.

Стоит еще раз подчеркнуть важное и очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор «*».

Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие слово «ельцинизм». Воспользуйтесь запросом: ельцин*. Он позволит вам найти то, что вы хотите (а также документы со словами Ельцинище, ельцинцы, ельциненок и т.п), поскольку звездочка заменяет собой любое число любых букв.

Вы можете искать документы не только по всему русскоязычному INTERNET, но и по его части. Самый простой случай — поиск по определенному серверу. Например: url=www.intel.ru собака

По данному запросу будут найдены все документы на сервере www.intel.ru, содержащие слово «собака». Возможно, вам интересно, а что будет, если написать просто:url=www.intel.ru

В этом случае вы получите список всех документов, расположенных на указанном вами сервере

Вы можете ограничивать поиск и сильнее — одним из каталогов сервера. Например:url=www.intel.ru/sobaki/сенбернар

По данному запросу документы, содержащие слово «сенбернар», будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.

List . На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы — блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатиии на подкатегории раздела.

Щелкнув по любому из названий, Вы попадете в соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке. Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.

Допускается использованием языка запросов Yandex. Расположенная рядом с поисковой формой ссылка «Структура каталога» открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.

Помеченные символом “@” приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.

Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках. Показываемый ниже список ресурсов упорядочен в алфавитном порядке, но, выбрав соответствующую сортировку («По времени добавления» или «По переходам»), можно просмотреть их по порядку добавления в каталог (начиная с самых «свежих») или в зависимости от популярности среди посетителей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. Пометки RUS и ENG означают наличие на сайте страниц, соответственно на русском и английском языках.

4. ЗАКЛЮЧЕНИЕ.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначеной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ.

1. М. Пайк. Internet. СПб., 1996.

2. Пол Гилстер. Навигатор Internet. М., 1995

3. Энциклопедия Интернет, СПб, 2001

4. Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5. How the browsers compare//http://www.microsoft.com

6. Нэш К.//Война браузеров.-Сети.-1997г.-№1.-с.31.

7. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.33.

8. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.50.

9. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.100.

www.ronl.ru

Реферат - Методы поиска информации в Интернете

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

1.2 Средства WWW – World Wide Web (Всемирная сеть)

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

2.2 Методика поиска информации в Интернете

2.3 Развитие информационного ресурса

2.4 Требования к инструментам поиска

2.5 Структура поисковых сервисов

2.6 Глобальные поисковые машины WWW

2.7 Планирование поиска

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы — Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronica автоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

С таким способом навигации Gopher в определенной степени был предшественником WWW. В настоящее время применение Gopher уменьшается пропорционально росту использования WWW.

1.2 Средства WWW — World Wide Web (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, Netscape Navigator или Microsoft Internet Explorer.

Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, ncpi.gov.by или www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском Microsoft Windows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).

Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего — это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.

Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой — предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.

Поисковые машины — это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых «пауков») постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.

--PAGE_BREAK--

Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.

Почтовые роботы — это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение — пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.

Usenet и другие региональные и специализированные телеконференции представляют собой электронные «доски объявлений», где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске — чаще для получения частной, неофициальной информации.

Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.

Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.

2.2 Методика поиска информации в Интернете

Поиск необходимой информации в Интернете можно осуществлять различными способами:

Поиск с помощью поисковых машин по ключевому слову

Поиск с помощью классификаторов поисковых машин

Каталоги и коллекции ссылок (более общие понятия)

Рейтинги (самые популярные ресурсы)

Конференции, чаты

Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)

Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)

В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.

1 тип — общая (например: история Российской империи),

2 тип — менее общая (например: император Александр II),

3 тип — конкретная (например: реформы Александра II),

4 тип — более конкретная (например: отмена крепостного права).

В зависимости от типа информации определяются и пути поиска.

Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.

Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.

Информация 3 типа — по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок

Информация 4 типа — по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

Примеры:

Поиск по 1 типу. Требуемая информация: «История Российской империи».

Заходим в Яндекс — Наука и образование / Общественные науки / История. По описанию темы находим сайт rus-hist.on.ufanet.ru… Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.

Поиск по 2 типу. Требуемая информация: «Император Александр II».

Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, www.lants.tellur.ru/history/index.htm .

Поиск по 3 типу. Требуемая информация: «Реформы Александра II»

Здесь появляется новый способ поиска — по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах

2.3 Развитие информационного ресурса

Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard — и software, дизайнеры, художники, редакторы и самое главное — авторы информационных ресурсов). Естественно, создание ресурсов — не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой — специалисты по data mining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).

Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).

По мере возможности происходит «взросление», становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле — сайт может существовать, а именно в смысле востребованности).

При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.

Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.

При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.

2.4 Требования к инструментам поиска

Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой — выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.

2.5 Структура поисковых сервисов

Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы Интернета различаются, но принципу отбора информации, который в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.

При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу — по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.

Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация поисковой системы на базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск персоналий или файлов мультимедиа в формате МРЗ, может происходить как в глобальном, так и на локальном масштабе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru — для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.

Учет региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.

Интернету, исходя из его природы, сопутствует информационный хаос. И только современные средства автоматического индексирования документов способны, учитывая применяемые алгоритмы и возможности технических средств, найти в этом хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по ключевым словам напоминает серфинг, а не серьезную работу с информацией.

2.6 Глобальные поисковые машины WWW

После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

    продолжение --PAGE_BREAK--

Еще одна известная система — это Northern Light, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

2.7 Планирование поиска

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск — все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа «Получить текст Конституции Республики Беларусь» или «В каких правовых актах употребляется название родного города» известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что при решении задачи сбора информации из Интернета значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

ЗАКЛЮЧЕНИЕ

Принимая во внимания все выше сказанное, можно попытаться одним словом определить суть Интернета: это – общение, общение между отдельными людьми и целыми нациями без вмешательства правительственных авторитетов. Эта новая технология с огромной скоростью изменяет облик цивилизации, коренным образом меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала в себя десятки миллионов человек, более сотни стран, она полностью изменила процессы распространения и восприятия информации. В наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами, становится не менее явственной, чем окружающий нас материальный мир.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

Гринберг А.С., Кашинский Ю.И., Славин Б.С. Введение в правовую информатику. Мн.: НО ООО БИП-С, 2002. С. 303.

Гусев В.С. Google: эффективный поиск. Краткое руководство. М., 2006.

Информатика для юристов и экономистов./ Под редакцией С. В. Симоновича. СПб.: Питер, 2001.

Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

Компьютерные технологии в юридической деятельности./Под редакцией профессора Н. Полевого. М.: Издательство БЕК, 1994.

Рассолов М.М. Информационное право. – М.М.: Юристъ, 1999.-321с.

Энциклопедия Интернет, СПб, 2001

How the browsers compare//http://www.microsoft.com

www.ronl.ru

Доклад - Методы поиска информации в Интернете

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

1.2 Средства WWW – World Wide Web (Всемирная сеть)

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

2.2 Методика поиска информации в Интернете

2.3 Развитие информационного ресурса

2.4 Требования к инструментам поиска

2.5 Структура поисковых сервисов

2.6 Глобальные поисковые машины WWW

2.7 Планирование поиска

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем случае, можно обратиться к опытному библиотекарю. Полного каталога Интернета не существует. Но, тем не менее, поиск в глобальной компьютерной сети возможен, и это, пожалуй, является одной из наиболее важных его сторон. Для поиска данных в сети используются специальные серверы, информация на которых поддерживается и обновляется практически автоматически.

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска.

Интернет – это глобальная компьютерная сеть, которая связывает между собой как пользователей компьютерных сетей, так и пользователей ПК. Интернет медленно, но верно становится основным средством корпоративного общения, уступая пока телефону.

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн. и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним.

1 СРЕДСТВА ПОИСКА

1.1 Средства поиска файлов

Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения поиска была разработана поисковая служба Интернета Archie, представляющая собой специальные Archie-сервера, хранящие содержание каталогов анонимных ftp-серверов. При обращении с поисковым запросом на Archie-сервер результатом поиска является список адресов анонимных ftp-серверов, на которых имеется искомый файл.

Но возникает задача отыскать среди множества файлов этого сервера искомый, что достаточно сложно из-за маловыразительных и непонятных имен файлов и каталогов. Для решения этой проблемы используется система Gopher, позволяющая перемещаться по системе контекстных меню, показывающих содержимое фай лов с использованием понятых обозначений. Существует очень много Gopher-серверов, которые содержат архивы данных в виде иерархически структурированных каталогов, упорядоченных по содержанию. Работа с ними очень проста и соответствует работе с обычным отображением файловой системы.

Существует расширение этой системы — Veronica, которое содержит в своей базе данных каталоги всех Gopher-серверов. После ввода поискового запроса Veronica автоматически просматривает все Gopher-каталоги на наличие искомой информации и тем самым избавляет от долгого поиска вручную по многим Gopher-серверам.

С таким способом навигации Gopher в определенной степени был предшественником WWW. В настоящее время применение Gopher уменьшается пропорционально росту использования WWW.

1.2 Средства WWW — World Wide Web (Всемирная сеть)

В 1993 году была разработана информационно-поисковая система WWW, которая благодаря простоте навигации и доступности открыла информационные источники Интернета неподготовленным пользователям. WWW вызвал бум в сети Интернет, который продолжается по настоящее время, и объемы доступной информации Интернета ежегодно удваиваются.

WWW основывается на принципе гипертекста (уже знакомого читателю), то есть на системе документов, связанных гиперссылками. Гипертекст представляет собой ключевые Слова, особым образом выделенные из обычного текста. Гипертекстовые ссылки отправляют пользователя на другие документы того же сервера либо на другие сервера, которые могут располагаться в любом месте Интернета. Если этот текстовый документ тоже гипертекстовый, то его ссылки позволяют перейти далее на соответствующие документы. Каждая переадресация происходит для пользователя незаметно, так что он может просматривать информационный состав Интернета но содержательному принципу, не заботясь об адресации конкретных компьютеров.

С развитием мультимедийных приложений изначально чисто гипертекстовые документы все больше и больше становятся гипермедийными. Таким образом, WWW-документы могут существовать в любом формате данных: текст, графика, звук/музыка или видеоклип. Ориентация и навигация во Всемирной сети происходят с использованием специальных программ, называемых WWW-браузерами, обеспечивающими пользовательский интерфейс, как, например, Netscape Navigator или Microsoft Internet Explorer.

Отправной точкой поиска информации служит, как правило, основная (базовая, домашняя) страница (сайт) информационного ресурса, которой можно достичь, введя соответствующий адрес в браузере (например, ncpi.gov.by или www.iparegistr.com). WWW-сайты создаются и обновляются фирмами либо специальными организациями, публикующими информацию и следящими за содержанием своих WWW-страниц. Использование WWW, таким образом, не является пассивным, и каждый пользователь Интернета при помощи специальных программ-редакторов гипертекста может самостоятельно создавать собственные интерактивные WWW-страницы. Это и открыло путь для растущей коммерциализации и расширения Интернета.

В настоящее время вновь создаваемая информация, как правило, изготавливается с учетом необходимости обеспечения WWW-доступа, а более ранние документы постепенно преобразуются под него, однако во всем мире существуют еще миллионы файлов в форм отличных от требований WWW. Для использования этой информации и через WWW в браузеры включены вышеописанные службы Интернета, обеспечивающие доступ к ней (telnet, ftp, Archie, Gopher). Через WWW можно использовать и другие службы Интернета, которые предназначены для общения (eMail, NetNews). Поэтому WWW-браузер стал в настоящее время универсальной коммуникационной программой Интернета.

С появлением WWW-службы и начался бум в сети Интернет. Благодаря этой простой в применении и единой для всех служб пользовательской среде Интернет заинтересовал множество людей и организаций. Оказалось вдруг, что не надо быть специалистом в области Интернета, чтобы пользоваться службами сети. Это можно сравнить с успехом фирмы Microsoft, связанным с выпуском Microsoft Windows в качестве графической пользовательской оболочки. До появления Windows у каждого DOS-приложения было собственное руководство пользователя и тем самым требовалось отдельно изучать каждое приложение.

2 ОСНОВНЫЕ ПРИЕМЫ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТЕ

2.1 Основные требования к поиску

К результатам поиска предъявляются требования полноты охвата ресурсов, достоверности полученной информации, минимальных затрат времени и максимальная скорость поиска.

Требование полноты охвата ресурсов не нуждается в дополнительных пояснениях, за исключением необходимости использовать при поиске ресурсы не только WWW, но и других служб Интернета.

Достоверность информации, учитывая природу Интернета, становится чрезвычайно важным требованием. Оценка достоверности может производиться как традиционными методами (проверка легальности публикаций на бумажных носителях, получение сведений об организациях и авторах, выяснение действительности их электронных ресурсов и т.п.), так и с Использованием возможностей Интернета (ознакомление с альтернативными источниками информации, сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга источника средствами поисковых систем, получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов Интернета; анализ отдельных элементов организации сайта с целью оценки квалификации поддерживающих его специалистов и другое).

Время поиска, не считая затрат времени, связанных с техническими характеристиками подключения, в основном зависит от планирования поиска и навыков работы специалиста по поиску с ресурсом выбранного типа. Планирование поиска заключается в определении требуемых для разрешения поискового требования поисковых служб и порядка их применения. Кроме того, многое зависит от навыков и опыта конкретного специалиста по поиску.

Как уже отмечалось, информация в Интернете доступна из источников разного типа. Прежде всего — это WWW-ресурсы (гипертекстовая система, каталоги ресурсов, поисковые машины). Кроме того, это уже известные читателю электронная почта, почтовые роботы, Usenet и другие телеконференции, а также ftp-системы и архивы (с применением Gopher и Veronica). WWW позволяет производить поиск требуемых ресурсов на основе своих гиперсвойств, то есть имеющиеся поисковые системы работают с использованием гиперссылок в автоматическом режиме, не исключая возможности ручного просмотра. В WWW имеется целый ряд поисковых сервисов как общего, так и специализированного назначения.

Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой — предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.

Поисковые машины — это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых «пауков») постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.

--PAGE_BREAK--

Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.

Почтовые роботы — это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение — пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.

Usenet и другие региональные и специализированные телеконференции представляют собой электронные «доски объявлений», где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске — чаще для получения частной, неофициальной информации.

Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.

Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.

2.2 Методика поиска информации в Интернете

Поиск необходимой информации в Интернете можно осуществлять различными способами:

Поиск с помощью поисковых машин по ключевому слову

Поиск с помощью классификаторов поисковых машин

Каталоги и коллекции ссылок (более общие понятия)

Рейтинги (самые популярные ресурсы)

Конференции, чаты

Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)

Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)

В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.

1 тип — общая (например: история Российской империи),

2 тип — менее общая (например: император Александр II),

3 тип — конкретная (например: реформы Александра II),

4 тип — более конкретная (например: отмена крепостного права).

В зависимости от типа информации определяются и пути поиска.

Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.

Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.

Информация 3 типа — по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок

Информация 4 типа — по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.

Примеры:

Поиск по 1 типу. Требуемая информация: «История Российской империи».

Заходим в Яндекс — Наука и образование / Общественные науки / История. По описанию темы находим сайт rus-hist.on.ufanet.ru… Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.

Поиск по 2 типу. Требуемая информация: «Император Александр II».

Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, www.lants.tellur.ru/history/index.htm .

Поиск по 3 типу. Требуемая информация: «Реформы Александра II»

Здесь появляется новый способ поиска — по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах

2.3 Развитие информационного ресурса

Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard — и software, дизайнеры, художники, редакторы и самое главное — авторы информационных ресурсов). Естественно, создание ресурсов — не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой — специалисты по data mining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).

Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).

По мере возможности происходит «взросление», становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле — сайт может существовать, а именно в смысле востребованности).

При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.

Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.

При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.

2.4 Требования к инструментам поиска

Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой — выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.

2.5 Структура поисковых сервисов

Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы Интернета различаются, но принципу отбора информации, который в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.

При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу — по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.

Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации. Специализация поисковой системы на базе какого-либо профиля ИЛИ тема тики, будь то правовая направленность, поиск персоналий или файлов мультимедиа в формате МРЗ, может происходить как в глобальном, так и на локальном масштабе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых сайтов, что обычно и реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном по имени домена верхнего уровня сервера, например by для Беларуси, ru — для России. Серьезный недостаток таких систем отсутствует учет большого количества ресурсов, размещаемых региональными авторами ресурсов непосредственно в домене com.

Учет региональных особенностей зачастую присутствует и в глобальных поисковых сервисах. Система Lycos, например, ранжирует ответы по региону запроса.

Интернету, исходя из его природы, сопутствует информационный хаос. И только современные средства автоматического индексирования документов способны, учитывая применяемые алгоритмы и возможности технических средств, найти в этом хаосе рациональное зерно. Применение же при поиске ресурсов без поиска по ключевым словам напоминает серфинг, а не серьезную работу с информацией.

2.6 Глобальные поисковые машины WWW

После знакомства с несколькими глобальными поисковыми машинами пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. При этом выбор поискового сервиса часто происходит совершенно произвольным способом, не на анализе действительных возможностей систем, а на их популярности. Одна из самых крупных и популярных -AltaVista. Система AltaVista отличается гибким языком запросов, требующим, однако, специального изучения. AltaVista обладает многоязыковой поддержкой поискового индекса и возможностью перевода в режиме on-line (то есть непосредственно во время сеанса работы) текста Web-страницы с распространенных европейских языков на английский.

    продолжение --PAGE_BREAK--

Еще одна известная система — это Northern Light, имеющая достаточно стандартный набор функций. Система дополнительно дает возможность работы с уникальной коллекцией ссылок (более 6 тысяч), в основном на статьи из периодических изданий. Индексное сопровождение кириллицы (в том числе и русского языка) делает ее вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Yndex и Апорт при русскоязычном поиске.

2.7 Планирование поиска

Поиск и сбор информации в Интернете нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов поиска, попытки ускорить поиск — все это не просто затягивает получение результата, но может поставить под угрозу смысл поисковой работы.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами таких работ.

Начинать необходимо со всестороннего лексического анализа искомой информации. Следует использовать любое, достаточно достоверное и подробное описание исследуемого вопроса для получения первичных сведений. Таким источником вполне может стать как узкоспециальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики, сленга, слов-клише и устойчивых словесных штампов, при необходимости на нескольких языках. Заранее следует определить и возможные уточнения поискового запроса- редкие слова, синонимы и антонимы. названия и фамилии, тесно связанные с искомым вопросом. Желательно также заранее предусмотреть возможные нерелевантные отклики на запросы, то есть возможные характеристики поискового шума. После накопления этих предварительных данных можно перейти к получению первичной информации из Интернета.

Основная задача этой стадии учесть особенности Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличатся от принятых.

Сведения о наличии в Интернете необходимых данных лучше всего искать в ранее известном каталоге, поддерживающем поиск по ключевым словам. При решении, например, простых задач типа «Получить текст Конституции Республики Беларусь» или «В каких правовых актах употребляется название родного города» известный сайт или каталог может быть более быстрым способом получения информации, чем автоматический индекс, и обеспечит большую достоверность.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Интернета и поисковых инструментов производится на основе вышеизложенных подходов.

Используются тестовые запросы из одного-двух ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы, но релевантности отклика. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что при решении задачи сбора информации из Интернета значительную роль играют региональные и специализированные поисковые сервисы. Применение глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет сократить сроки решения поставленной поисковой задачи.

ЗАКЛЮЧЕНИЕ

Принимая во внимания все выше сказанное, можно попытаться одним словом определить суть Интернета: это – общение, общение между отдельными людьми и целыми нациями без вмешательства правительственных авторитетов. Эта новая технология с огромной скоростью изменяет облик цивилизации, коренным образом меняя представление человечества о мире и самом себе. Сеть Интернет уже вобрала в себя десятки миллионов человек, более сотни стран, она полностью изменила процессы распространения и восприятия информации. В наш век информационных технологий виртуальная реальность интернет, способствующая стиранию государственных границ, сокращению географических расстояний, ликвидирующая преграды между культурами, становится не менее явственной, чем окружающий нас материальный мир.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой – браузером, предназначенной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

Гринберг А.С., Кашинский Ю.И., Славин Б.С. Введение в правовую информатику. Мн.: НО ООО БИП-С, 2002. С. 303.

Гусев В.С. Google: эффективный поиск. Краткое руководство. М., 2006.

Информатика для юристов и экономистов./ Под редакцией С. В. Симоновича. СПб.: Питер, 2001.

Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

Компьютерные технологии в юридической деятельности./Под редакцией профессора Н. Полевого. М.: Издательство БЕК, 1994.

Рассолов М.М. Информационное право. – М.М.: Юристъ, 1999.-321с.

Энциклопедия Интернет, СПб, 2001

How the browsers compare//http://www.microsoft.com

www.ronl.ru


Смотрите также

 

..:::Новинки:::..

Windows Commander 5.11 Свежая версия.

Новая версия
IrfanView 3.75 (рус)

Обновление текстового редактора TextEd, уже 1.75a

System mechanic 3.7f
Новая версия

Обновление плагинов для WC, смотрим :-)

Весь Winamp
Посетите новый сайт.

WinRaR 3.00
Релиз уже здесь

PowerDesk 4.0 free
Просто - напросто сильный upgrade проводника.

..:::Счетчики:::..

 

     

 

 

.