Реферат: Поиск инфориации в сети интернет. Реферат по информатике поиск информации в сети интернет


Поиск информации в Интернет. — реферат по информатике

Файл 1

Российская коллекция рефератов (с) 1996. Данная работа является неотъемлемой частью универсальной базы знаний, созданной Сервером российского студенчества - .

Министерство общего и профессионального образования РФ

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ

Институт заочного обучения

КУРСОВОЙ ПРОЕКТ

По дисциплине: "Информационные технологии в управлении"

На тему: "Технологии поиска документальной информации в INTERNET"

Выполнено: Егорова А.С.

Студенческий билет № 3065

Группа 431

МОСКВА, 2001

СОДЕРЖАНИЕ (стр.):

1. ВВЕДЕНИЕ.

1.1. Что такое INTERNET (3).

1.2. Краткая история INTERNET (5).

2. БРАУЗЕРЫ: сравнительные характеристики NETSCAPE NAVIGATOR и MICROSOFT INTERNET EXPLORER (6).

3. ПОИСКОВЫЕ СИСТЕМЫ (10).

3.1. Механизмы поиска (12).

3.2. Сравнительный обзор поисковых систем. Структура запроса (15).

4. ЗАКЛЮЧЕНИЕ (24).

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ (25).

1. ВВЕДЕНИЕ.

1.1. Что такое INTERNET.

INTERNET - глобальная компьютерная сеть, охватывающая весь мир. Сегодня INTERNET имеет около 30 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличивается на 5-7%. INTERNET образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.

Всплеск интереса к глобальной информационной сети INTERNET наблюдается сейчас повсеместно. В сложившихся условиях потребность в информации о сети INTERNET становится особенно острой. В настоящее время по INTERNET распространяется множество документов, касающихся как функционирования сети и работы в ней пользователей, так и связанных с различными сферами жизни: наукой, культурой, экономикой и т.д. При чём обновление информации в INTERNET, обширной разветвленной сети, которая включает в себя компьютерные узлы, разбросанные по всему миру, происходит, практически, в режиме реального времени.

В действительности INTERNET не просто сеть, - она есть структура, объединяющая обычные сети. INTERNET - это "Сеть сетей".

Чтобы описать сегодняшнюю INTERNET, полезно воспользоваться строгим определением. В своей книге "The Matrix: Computer Networks and Conferencing Systems Worldwide" Джон Квотерман описывает INTERNET как "метасеть, состоящую из многих сетей, которые работают согласно протоколам семейства TCP/IP, объединены через шлюзы и используют единое адресное пространство и пространство имен".

Для организации межсетевых соединений необходим соответствующий протокол.

Протокол - это набор договоренностей, который определяет обмен данными между различными программами. Протоколы задают способы передачи сообщений и обработки ошибок в сети, а также позволяют разрабатывать стандарты, не привязанные к конкретной аппаратной платформе. Все параметры - от скорости передачи данных до методов адресации при транспортировке отдельных сообщений - задаются протоколами, используемыми в данной конкретной сети.

В INTERNET базовым протоколом служит TCP/IP (Transmission Control Protocol/Internet Protocol). IP отвечает за адресацию сетевых узлов, а TCP обеспечивает доставку сообщений по нужному адресу. Эти мощные протоколы были предложены в 1974 г. Робертом Кэном, одним из основных разработчиков ARPANET, и ученым-компьютерщиком Винтоном Серфом, вице-президентом CNRI. Следует иметь в виду, что TCP/IP не единственный протокол, пригодный для объединения различных сетей. INTERNET ныне превратилась в многопротокольную сеть, интегрирующую другие стандарты. Основные среди них - стандарты взаимодействия открытых систем (OSI).

Предложенные Международной организацией по стандартизации (ISO) протоколы OSI получили широкое распространение в Европе. Системы, основанные на других протоколах, тоже подключаются к INTERNET через шлюзы. Например, BITNET - это сеть, которая использует для передачи данных свои собственные стандарты, однако, по крайней мере, частично, она доступна через шлюзы из INTERNET.

В INTERNET нет единого пункта подписки или регистрации; вместо этого вы контактируете с поставщиком услуг, который предоставляет вам доступ к сети через местный компьютер. Последствия такой децентрализации с точки зрения доступности сетевых ресурсов также весьма значительны. Среду передачи данных в INTERNET нельзя рассматривать только как паутину проводов или оптоволоконных линий. Оцифрованные данные пересылаются через маршрутизаторы, которые соединяют сети и с помощью сложных алгоритмов выбирают наилучшие маршруты для информационных потоков.

1.2. Краткая история INTERNET.

Вначале ничто не предвещало, что INTERNET станет общедоступной компьютерной сетью. Как и многие другие великие идеи, "Сеть сетей" возникла из проекта, предназначавшегося совершенно для других целей. Ее прародительницей стала сеть АRPANET, разработанная и развернутая в 1969г. компанией Bolt, Beranek, and Newman (BBN) по заказу Агентства передовых исследовательских проектов (ARPA) Министерства обороны США.

ARPANET объединяла учебные заведения, военные организации и их подрядчиков. Она была создана с целью помочь исследователям в обмене информацией, а также (что явилось одной из главных целей) для отработки методов поддержания связи в случае ядерного нападения.

Основатели ARPANET первоначально позволяли ученым только войти в систему и запустить программу на удаленном компьютере. Скоро к этим возможностям прибавились передача файлов, электронная почта и списки рассылки, обеспечившие общение исследователей, интересовавшихся одной и той же областью науки и техники. Но по мере роста ARPANET развивались и другие сети, и вскоре стала очевидной потребность в новых средствах связи.

Сравнительно недавно появилась новая технология INTERNET названная World Wide Web (WWW), что обычно переводится как "Всемирная паутина". Эта система была разработана, в основном, в Европейской лаборатории элементарных частиц в Швейцарии (CERN). Сеть предназначалась первоначально для физиков, но затем получила широкое признание.

WWW построена по технологии, в основе которой лежит принцип создания гипертекстовых документов (Web-страниц). Гипертекстовый документ заключает в себе ссылки на другие подобные документы, которые, в свою очередь, содержат ссылки на следующие, и т.д. Таким образом, они оказываются связанными между собой.

Для работы в WWW используется протокол HTTP (Hyper Text Transmission Protocol), а программы, позволяющие работать с соответствующими документами в INTERNET, называют просмотрщиками или браузерами.

2. БРАУЗЕРЫ: сравнительные характеристики NETSCAPE NAVIGATOR и MICROSOFT INTERNET EXPLORER.

Документы INTERNET предназначены для отображения в электронном виде, причем автор документа не знает возможностей компьютера, на котором будут просматриваться документы. Поэтому был создан стандарт для описания и создания документов, расположенных на Web-страницах. Этот язык называется HTML (HyperText Markup Language - язык разметки гипертекста). Этот язык описывает логическую структуру документа, управляет форматированием текста и размещением вставных объектов.

Форматирование и отображение документа, описанного с помощью HTML, на конкретном компьютере производится специальной программой - браузером. Проще говоря, браузер предназначен для просмотра содержимого Web-страниц.

Основные функции браузеров следующие:

* установка связи с Web-сервером, на котором хранится документ, и загрузка всех его компонентов;

* форматирование и отображение Web-страниц в соответствии с возможностями компьютера, на котором браузер работает;

* предоставление средств для отображения мультимедийных и других объектов входящих в состав Web-страниц, а так же механизма расширения, позволяющего настраивать программу на работу с новыми типами объектов;

* обеспечение автоматизации поиска Web-страниц и упрощение доступа к страницам, посещавшимся раньше;

* предоставление доступа к встроенным или автономным средствам для работы с другими службами INTERNET.

В настоящее время на этом рынке доминируют два браузера: NAVIGATOR фирмы NETSCAPE и INTERNET EXPLORER фирмы MICROSOFT.

Они предоставляют пользователям весьма схожий интерфейс и набор основных возможностей и ведут на этом рынке весьма жесткую конкурентную борьбу, постоянно обновляя предыдущие версии.

Ниже приводится описание основных возможностей этих браузеров.

Браузер INTERNET EXPLORER обеспечивает работу с WWW, предоставляет идентичные средства работы с локальными папками компьютера и файловыми архивами FTP, дает доступ к средствам связи с INTERNET. Для запуска программы можно использовать значок INTERNET EXPLORER на Рабочем столе или Главного меню. Кроме того, программа запускается автоматически при попытке открыть документ INTERNET или локальный документ в формате HTML.

Если соединение с INTERNET отсутствует, то после запуска программы появиться диалоговое окно установки соединения. При невозможности установки соединения сохраняется возможность просмотра в автономном режиме ранее загруженных Web-документов. При наличии соединения после запуска программы на экране появится основная страница, выбранная при настройке программы.

Далее можно работать с Web-страницами, просматривая их содержимое, сохраняя его на локальном диске и т.д. При этом можно открывать несколько окон, работая с несколькими Web-страницами.

Для более эффективной работы в INTERNET необходима настройка INTERNET EXPLORER . Параметры оптимальной настройки зависят от:

* свойств видеосистемы компьютера;

* производительности действующего соединения с INTERNET;

* содержания текущего Web-документа;

* личных предпочтений пользователя.

Настроить INTERNET EXPLORER можно как из самой программы, так и через Панель управления.

Если браузер неспособен отображать файлы определенного типа (*.exe, *.zip и т.д.) инициируется процесс загрузки данного файла на компьютер. Программа INTERNET EXPLORER 5.0 запускает мастер загрузки файлов, на первом этапе работы которого требуется указать открывать ли файл или сохранить его на локальном диске. Чаще всего файл сохраняется. Это позволяет использовать его в дальнейшей работе, не выходя в INTERNET. Этот процесс называется проще - скачать файл.

NETSCAPE NAVIGATOR - один из лучших Web-браузеров, главная программа пакета NETSCAPE COMMUNICATOR. С его помощью можно просматривать содержимое Web-страниц, копировать файлы, искать различного рода информацию, работать с текстом и мультимедийными файлами Internet.

Оба браузера имеют свои преимущества. Например:

* INTERNET EXPLORER поставляется бесплатно в составе программного обеспечения фирмы Microsoft;

* INTERNET EXPLORER имеет более широкие возможности при настройке на конкретные вкусы потребителя и большее количество выполняемых функций;

* NETSCAPE NAVIGATOR - имеет большую скорость при работе с Web-страницами.

Но в принципе, оба браузера выполняют похожие задачи и полностью удовлетворяют запросы пользователей при работе с INTERNET.

Одной из основных архитектурных особенностей EXPLORER является применение ActiveX - технологии, которая позволяет удобно конфигурировать, например, вид и возможности панели инструментов, что делает компьютер доступным даже для детей.

Оба браузера поддерживают возможность создания HTML-документов, при чём EXPLORER позволяет создавать темплайты, что так же упрощает создание web-страниц.

INTERNET EXPLORER поддерживает наиболее распространенные языки, облегчая пользовательский интерфейс, поддерживает все основные сетевые стандарты и предусматривает интерфейс без использования мыши и возможность изменять шрифт для удобства просмотра.

Что касается скорости просмотра Web-страниц, то MICROSOFT утверждает, что NAVIGATOR проигрывает в скорости, по крайней мере, на 30 процентов.

NETSCAPE подчеркивает отличие NAVIGATORA от других браузеров, а в особенности от INTERNET EXPLОRER, количеством необходимой для него памяти, скоростью работы, значительными удобствами для создателей Web-документов, наличием системы, позволяющей компьютеру пользоваться телефонными услугами INTERNET в режиме реального времени. К тому же это позволяет избежать неудобств обычной телефонной связи.

Когда NETSCAPE неожиданно появилась на рынке, MICROSOFT пришлось немедленно отреагировать, чтобы не потерять часть своего бизнеса. Без такой яростной конкуренции между двумя гигантами не было бы ни такого широкого использования Web, ни коммерческих Web-серверов, ни недорогих браузеров с графическими интерфейсами. Это соперничество породило недорогие продукты, которые, благодаря использованию протоколов INTERNET, способны к взаимодействию. Преодолеть несовместимость различных HTML проще, чем те трудности, которые могли бы возникнуть, считают оптимисты.

3. ПОИСКОВЫЕ СИСТЕМЫ.

Основная задача INTERNET - предоставление необходимой информации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помощью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифицируют по методам поиска.

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.

Поисковый индекс обеспечивает поиск по заданным ключевым словам. Обычно ключевые слова вводятся при заполнении специальной формы поиска, после чего нажимается кнопка "Поиск". В результате поиска формируется набор гиперссылок на Web-страницы, содержащий указанные термины. Обычно поисковые индексы выдают огромное количество искомых страниц.

В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же - по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается искомое слово. Первыми в таком списке идут ссылки на те страницы, у которых ключевые слова встречаются уже в названии.

Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые индексы, но они точнее указывают на основные ресурсы Сети. Поэтому при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые индексы. Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных метода.

Программа INTERNET EXPLORER 5.0 имеет специальные средства организации поиска без явного обращения к поисковым системам. Можно получить доступ к одной из известных поисковых систем, просто щелкнув на кнопке "Поиск", слева появится окно поиска. Далее можно набрать ключевые слова для поиска и выбрать поисковую систему. Результаты поиска будут отражены в правой части окна обозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимое выбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке "Поиск" еще раз.

При работе с INTERNET ЕХРLORER можно проводить поиск прямо в поле "Адрес". Для этого в адресную строку вводиться слово или фраза для поиска. Под адресной строкой откроется окно со словом "Поиск" и искомой фразой. INTERNET EXPLORER начнет поиск с использованием заранее определенной системы поиска; при этом кнопка "Поиск" на панели инструментов нажмется сама.

Можно осуществить поиск нажав кнопку "Пуск" и выбрав опцию меню "Найти". Окно INTERNET EXPLORER откроется само с уже нажатой кнопкой "Поиск".

Если удалось найти то, что искали, но все же не совсем то, то в этом случае пригодится механизм связанных ссылок. Для любой Web-страницы можно просмотреть список ссылок, имеющих к ней отношение, возможно, среди них окажется как раз то, что нужно. Чтобы просмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать в меню "Сервис" команду "Показать связанные ссылки".

После этого на панели инструментов нажать кнопку "Поиск", и в левой части экрана полнится окно, содержащее список ссылок, связанных с данной страницей. Нужно щелкнуть на одной из ссылок, и просмотреть в правом окне соответствующую Web-страницу.

Чтобы скрыть окно поиска, необходимо щелкнуть еще раз на кнопке "Поиск".

3.1. Механизмы поиска.

Поисковые cистемы обычно состоят из трех компонентов:

* агент (паук или кроулер), который перемещается по Сети и собирает информацию;

* база данных, которая содержит всю информацию, собираемую пауками;

* поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются.

Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.

Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктированны, что нужно просматривать прежде всего наиболее популярные страницы.

Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по INTERNET и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в INTERNET, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных.

Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако, основные принципы определения релевантности следующие:

1. Количество слов запроса в текстовом содержимом документа.

2. Тэги, в которых эти слова располагаются.

3. Местоположение искомых слов в документе.

4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос.

Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

3.2. Сравнительный обзор поисковых систем. Структура запроса.

В сети существуют различные способы поиска информации. Конечно же, если имеется справочник, в котором можно найти местонахождение интересующего вас источника конкретной информации, то, без всякого сомнения, следует этим и воспользоваться. Однако, к сожалению, такие издания далеко не всегда доступны. Кроме того, сеть является постоянно обновляющейся системой и поэтому находится в курсе всего нового с помощи периодики, а тем более с помощью литературы, не всегда представляется возможным. Для поисковых целей в INTERNET существуют специальные поисковые машины, располагающие значительными базами данных и имеющие связь с себе подобными.

Существенно полезными возможностями у них является наличие системы поиска, которая строится по принципу: от общего - к конкретному. Задавая общее понятие (в виде ключевого слова, нескольких слов или фразы, - в зависимости от сервисных услуг конкретной машины), а затем, с каждым новым поиском всё более и более конкретизируя его, можно получить интересующий результат. Поэтому далее будут рассмотрены несколько основных поисковых систем, использование которых весьма эффективно.

Исторически сложилось, что первой такой поисковой машиной являлась Alta Vista, поэтому с неё и начнём рассмотрение.

AltaVista. Наиболее интересная возможность AltaVista - это расширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Lycos. Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной.

Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой "and" либо "or".

При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе.

Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа.

Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе.

Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.

Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем INTERNET. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов.

Rambler. Поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ.

Rambler обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем - 5 запросов в секунду), сканируя 48 тысяч Web-серверов и используя несколько одновременно работающих программ-роботов.

Запрос может состоять из одного или нескольких слов, разделенных пробелами. Могут быть использованы как русские, так и английские слова и словосочетания. По умолчанию находятся только те документы, в которых встретились все введенные Вами слова.

Чтобы найти документы, содержащие хотя бы одно слово из запроса, используется логическая связка "or" или выбирается на странице детального запроса: "Слова запроса: любое". Чтобы исключить документы, содержащие те или иные слова, надо указать на странице детального запроса: "Исключить документы, содержащие следующие слова ...".

Все равно, с какой буквы написаны слова запроса: с большой или с маленькой. И при построении индекса, и при поиске по запросу все заглавные (большие) буквы "понижаются".

Слова запроса могут быть соединены логическими связками "and", "or". Вместо связок (или в сочетании с ними) могут использоваться также символы "&", "|".

Части запроса могут быть сгруппированы с помощью круглых скобок. Возможна многократная вложенность скобок в сочетании с логическими операторами.

Rambler умеет искать слова во всех формах (например, аминокислота, аминокислоты, аминокислотой и т. д.). Чтобы слово находилось во всех формах, перед ним надо поставить служебный символ "#". В меню детального запроса такой режим может быть включен для всех слов: "Расширение запроса: все формы слов". Служебный символ "@" перед словом позволяет находить не только само это слово, но и однокоренные слова. В меню детального запроса символу "@" соответствует режим "Расширение запроса: все однокоренные".

По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы уменьшить "шум" в найденных документах. Если Вы не помните, как пишется слово, или хотите расширить запрос, можно использовать метасимволы "*" и "?" для обозначения произвольной части слова и произвольного символа.

Ограничить поиск частями документов, такими как название документа, его заголовок, URL и т.п., можно через меню детального запроса "Искать в...".

Можно ограничить поиск документами только на русском или только на английском языке. Для этого надо выбрать соответствующий режим в меню детального запроса "Язык документа...". По умолчанию поиск выполняется по документам на всех языках.

По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню "Сортировать по..." на странице детального запроса.

Вы можете также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать "От даты ... до даты ...".

Можно потребовать, чтобы Rambler возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга.

Режим "Ограничить расстояние между словами" может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой Вам последовательности.

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню "Выдавать по..." на странице детального запроса позволяет увеличить это число до 30 или 50. Меню "Форма вывода..." позволяет получать описания документов с увеличенной или уменьшенной подробностью.

Yandex. Yandex ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Yandex не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос ("где найти дешевые компьютеры" или "нужны телефоны москвы и московской области"), и вы получите результат - список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос "идти", то в результате поиска будут найдены ссылки на документы, содержащие слова "идти", "идет", "шел", "шла" и т.д. На запрос "окно" будет выдана информация, содержащая и слово "окон", а на запрос "отзывали" - документы, содержащие слово "отозвали".

При этом поиск не ограничен лишь словами или фразами. Yandex отыщет по названию Web-страницу компании или файл с нужной картинкой.

Aport. Обычно запрос представляет из себя просто одно или несколько слов.

По такому запросу находятся документы, в которых встречаются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т.п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.

Например, по запросу: яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: "яблоко" и "снег". Где в пределах документа расположены слова, в какой грамматической форме они находятся - не важно.

Стоит еще раз подчеркнуть важное и очень полезное свойство Апорта: независимо от того, в какой грамматической форме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: человек шел будут найдены среди прочих и документы, содержащие текст "люди идут". Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т.п. оно не проходит. В этом случае может пригодиться оператор "*".

Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие слово "ельцинизм". Воспользуйтесь запросом: ельцин*. Он позволит вам найти то, что вы хотите (а также документы со словами Ельцинище, ельцинцы, ельциненок и т.п), поскольку звездочка заменяет собой любое число любых букв.

Вы можете искать документы не только по всему русскоязычному INTERNET, но и по его части. Самый простой случай - поиск по определенному серверу. Например: url=собака

По данному запросу будут найдены все документы на сервере содержащие слово "собака". Возможно, вам интересно, а что будет, если написать просто: url=

В этом случае вы получите список всех документов, расположенных на указанном вами сервере

Вы можете ограничивать поиск и сильнее - одним из каталогов сервера. Например: url=

По данному запросу документы, содержащие слово "сенбернар", будут искаться только в каталоге /sobaki (и его подкаталогах) московского сервера корпорации Intel.

List. На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логотипом каталога, поисковая форма. В правой колонке и нижней части страницы - блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает центральную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатиии на подкатегории раздела.

Щелкнув по любому из названий, Вы попадете в соответствующую рубрику и под логотипом List.ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уровень структуры доступен по отдельной ссылке. Поиск в каталоге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.

Допускается использованием языка запросов Yandex. Расположенная рядом с поисковой формой ссылка "Структура каталога" открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.

Помеченные символом "@" приведут в подкатегории, структурно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в какой рубрике содержатся нужные ресурсы, лучше перейти в нужную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.

Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках. Показываемый ниже список ресурсов упорядочен в алфавитном порядке, но, выбрав соответствующую сортировку ("По времени добавления" или "По переходам"), можно просмотреть их по порядку добавления в каталог (начиная с самых "свежих") или в зависимости от популярности среди посетителей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. Пометки RUS и ENG означают наличие на сайте страниц, соответственно на русском и английском языках.

4. ЗАКЛЮЧЕНИЕ.

С развитием INTERNET появилась возможность быстрого и удобного поиска необходимой документальной информации. Теперь можно не заниматься подбором и изучением огромного количества литературы в книжных магазинах и библиотеках. Информацию можно получить, не выходя из дома или офиса. Для этого нужен только непосредственно сам компьютер, подключенный к INTERNET с установленной специальной программой - браузером, предназначеной для просмотра содержимого Web-страниц.

Благодаря разнообразию поисковых систем, специально разработанным для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав цель поиска.

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ.

1. М. Пайк. Internet . СПб., 1996.

2. Пол Гилстер. Навигатор Internet. М., 1995

3. Энциклопедия Интернет, СПб, 2001

4. Информатика. Базовый курс. Учебник для ВУЗов, СПб, 2001

5. How the browsers compare//

6. Нэш К.//Война браузеров.-Сети.-1997г.-№1.-с.31.

7. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.33.

8. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.50.

9. Крол Эд//Всё об Internet.-Киев.-Торгово-изд. бюро BHV.-1995г.-с.100.<</p>

docus.me

Реферат - Поиск инфориации в сети интернет

Федеральное агентство по образованию

Вологодский государственный технический университет

Кафедра ИТ и С

Контрольная работа

по информатике

«Поиск информации в сети Интернет»

Выполнил студент: И. Д. Блажин

Группа: ЗСЭ-31

Шифр: 0707300202

Вологда

2009

СОДЕРЖАНИЕ

Введение…………………………………………………………..…………...2

1. Информационные ресурсы сети Интернет……………………………….3

2. Типология методов поиска информации………………………................5

3. Технология поиска с использованием поисковых машин………………8

Заключение………………………………………………………………...….12

Список литературы…………………………………...………………………13

Введение

Рано или поздно, каждый пользователь Всемирной паутины сталкивается с проблемой поиска информации. Будь то реферат, курсовая работа либо документация к новой стиральной машине, поиск этой информации может занять у вас от пяти минут до нескольких часов – все зависит от умения искать и находить нужные данные в Интернете. В этом случае нам на помощь приходят всевозможные поисковые машины, каталоги и базы знаний. Овладение эффективными методами и средствами поиска, обработки и использования информации дает большие возможности.

1. Информационные ресурсы сети Интернет

Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Для миллионов людей разных профессий, а особенно для учащихся, Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации.

Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.

По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.

Каталоги

Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.

Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется «вручную», коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.

Поисковые машины

Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.

При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

2. Типология методов поиска

Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы — результат того стоит.

Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:

Непосредственный поиск с использованием гипертекстовых ссылок

Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью браузера.

Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, «ручной» просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое «копание» уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.

Использование поисковых машин

Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.

Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.

Поиск с применением специальных средств

Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.

Одна из технологий этого метода основана на применении специализированных программ — спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.

Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.

Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.

Анализ новых ресурсов

Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.

Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.

3. Технология поиска с использованием поисковых машин

Определение географических регионов поиска

Поскольку проведение информационного поиска преследует практические цели — практическая ценность информационного ресурса может зависеть от географического расположения соответствующего источника.

Составление тезауруса

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т.е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Использование законов Зипфа

Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется ранг частоты. Вероятность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф нашел, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

С = (частота вхождения слов X ранг частоты) / число слов

Это значит, что график зависимости ранга от частоты — равносторонняя гипербола.

Зипф также установил, что зависимость количества слов с данной частотой от частоты — также гипербола и постоянная для всех текстов в пределах одного языка.

Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой как правило являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Основываясь на этой закономерности, можно предложить следующую методику.

Составление списка ключевых слов

Для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т.е. «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится таким образом:

· Удаление из текста стоп-слов.

· Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.

· Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.

Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.

Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник может находиться далеко от начала.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), — некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать «нестандартную» информацию и тому подобное. Основными критериями выбора поисковых серверов являются объем индексной базы сервера и степень развитости самой поисковой машины, то есть уровень сложности воспринимаемых ею запросов.

Составление и выполнение запросов к поисковым машинам

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой). На основе тезауруса формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа.

Формирование запросов

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена.

Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов — как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Анализ ресурсов и сбор информации

Первичный анализ ресурсов основывается на аннотациях — в случае их наличия, и в необходимых случаях — на ознакомлении с информационным наполнением ресурса. Информация с отобранных источников извлекается с использованием соответствующих конкретному источнику методов, что может потребовать значительных коммуникационных, вычислительных и дисковых ресурсов.

В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.

Заключение

Можно прийти к выводу, что в сети Интернет хранится очень большой объем информации по различной тематике в виде статей в электронных газетах, отчетов, справочников, графических изображений, аудио- и видео-файлов и многого другого. Путешествуя по Интернет, можно найти любую информацию, иначе говоря, если какие-либо данные вводились когда-либо в компьютер, то вероятнее всего их можно найти где-то на необозримых просторах Интернет. Доступ к некоторым данным возможен только для ограниченного числа пользователей после регистрации и получения индивидуального пароля.

С появлением World Wide Web (WWW) — гипертекстовой информационной системы, опутавшей весь мир, связавшей сотни и сотни компьютеров, тысячи и тысячи страниц гипертекстовых документов — без высокоэффективных средств поиска просто не обойтись. Средства или «машины» поиска — это специальные программно-технические комплексы, отслеживающие изменения информации в Интернет.

Существует множество средств поиска в Интернет, как автономных, использующих только собственные ресурсы, так и глобальных, так называемых мета-средств.

Существуют разные методы поиска информации в сети Интернет: поиск с использованием гипертекстовых ссылок, использование поисковых машин, поиск с применением специальных средств, анализ новых ресурсов.

Список литературы

1. Семенов М.И., Трубилин И.Т., Лойко В.И., Барановская Т.П. Автоматизированные информационные технологии в экономике. – М.: Финансы и статистика, 2002

2. Грабауров В.А. Информационные технологии для менеджеров. – М.: Финансы и статистика, 2002

3. Информационные технологии управления. / Под редакцией Ю.М. Черкасова. – М.: Инфра-М, 2001

4. Ильина О.П. Информационные технологии бухгалтерского учета. – СПб.: Питер, 2001

5. Информатика для юристов и экономистов. / Под редакцией С.В. Симоновича. – СПб.: Питер, 2003

6. Карпова Т. Базы данных. – СПб.: Питер, 2001

7. Романов В.П. Интеллектуальные информационные системы в экономике. – М.: Экзамен, 2003

www.ronl.ru

Поиск и сохранение информации в сети Интернет

Поиск и сохранение информации в сети Internet

РЕФЕРАТ ПО ИНФОРМАТИКЕ

Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 15 миллионов абонентов в более чем 150 странах мира. Ежемесячно размер сети увеличивается на 7—10%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.

Если ранее сеть использовалась исключительно в качестве среды передачи файлов и сообщений электронной почты, то сегодня решаются более сложные задачи распределенного доступа к ресурсам. Фактически Internet состоит из множества локальных и глобальных сетей, принадлежащих различным компаниям и предприятиям, связанных между собой различными линиями связи. Internet можно представить себе в виде мозаики, сложенной из небольших сетей разной величины, которые активно взаимодействуют одна с другой, пересылая файлы, сообщения и т.п.

Поиск информации

Существует во многом справедливое мнение, что уже сегодня в Интернет “есть все” и проблема лишь в том, как найти нужную информацию. Сама открытая архитектура Сети способствует тому, что в ней отсутствует какая-либо централизация и ценнейшие для Вас данные, которые Вы безуспешно искали по всему свету, могут оказаться расположенными на сервере в одном городе с Вами.

Можно выделить 2 взаимодополняющих подхода к сбору информации о ресурсах Интернет – создание индексов и создание каталогов:

Работа с поисковыми серверами. При входе на главную страницу поискового сервера достаточно набрать в поле ввода свой запрос в виде набора ключевых слов и нажать кнопку начала поиска.

Запросы могут содержать любые слова, причем, не обязательно заботиться о падежах и склонениях – например, запросы “реферат по философии” и “философия реферат” вполне корректны.

Современные поисковые сервера достаточно хорошо понимают естественный язык, однако, на многих из них сохранены возможности расширенного или специального поиска, позволяющие искать слова по маске, объединять слова запроса логическими операциями “И”, “ИЛИ”, и т.д.

После завершения поиска в базе данных сервер выводит на экран первую порцию из 10 или более документов, содержащих ключевые слова. Кроме ссылки, обычно приведено несколько строк текста описания документа или просто его начало. Открывая ссылки в новом или этом же окне браузера, можно переходить к выбранным документам, а строка ссылок внизу страницы позволяет перейти к следующей порции документов. Эта строка выглядит примерно так:

1 2 3 4 5 6 7 8 9 след

По отсутствию одной ссылки видно, что сейчас открыта вторая порция найденных документов.

Различные серверы сортируют найденные документы по разному – по дате создания, по посещаемости документа, по наличию в документе всех или части слов запроса (релевантности), некоторые серверы позволяют сузить область поиска, выбрав на главной странице категорию искомого документа – например, по запросу “банки” в категории “деловой мир” вряд ли будут найдены сведения о банках консервных.

Из популярных средств русскоязычного поиска можно назвать серверы www.yandex.ru, www.aport.ru и www.rambler.ru, индексирующие десятки тысяч серверов и десятки миллионов документов. Из зарубежных серверов популярны www.altavista.com, www.hotbot.com, www.lycos.com, www.excite.com, www.opentext.com.

Наконец, в Интернет немало страниц для метапоиска, позволяющих обратиться сразу к нескольким популярным поисковым серверам с одним и тем же запросом – посмотрите, например, страницы www.find.ru или http://www.rinet.ru/buki.

Работа с каталогами ресурсов. При входе на главную страницу каталога мы попадаем в обширное меню или таблицу выбора категорий, каждая из которых может содержать вложенные подкатегории. Стандарта здесь нет, но все-таки структуры каталогов во многом похожи, везде можно найди разделы “бизнес” или “деловой мир”, “компьютеры”, “программирование” или “интернет”, “юмор” или “хобби” и т.д. Перемещаясь по категориям, можно добраться до ссылок на конкретные документы, которые, так же как на поисковом сервере, выдаются порциями и сопровождаются краткой информацией.

Сегодня существует множество крупных каталогов с десятками тысяч ссылок, из отечественных каталогов можно назвать www.list.ru, www.weblist.ru, www.stars.ru, www.au.ru, www.ru, www.ulitka.ru, а из зарубежных - www.yahoo.com , www.magellan.com .

Часто в каталоге есть также форма для поиска по ключевым словам среди занесенных в него документов.

Правила поиска. Попробуем дать несколько простых советов, касающихся поиска в Сети:

Сохранение информации

Работа в Интернете иногда требует сохранения нужных данных и их печати. Самый простой способ копирования данных с веб–страницы – это копирование текста и вставка его в документы программ Office. Данный прием выполняется стандартным копированием через буфер обмена.

Для копирования текста с веб–страницы следует выделить нужный фрагмент, поместить в буфер обмена данных командой Правка – Копировать (или сочетанием клавиш CTRL+C). Затем отрыть программу, в который этот текст следует поместить и в нужном месте дать команду вставки: Правка – Вставить (или сочетание клавиш CTRL + V). Для быстрой сборки текстового документа очень удобны стандартные программы Windows – блокнот и WordPad. при этом следует учитывать, что графические элементы, стилевое оформление пропадают. Если есть потребность сохранения всех данных веб–страницы, рекомендуется использовать Microsoft Word. Данная программа сохраняет стилевое оформление, графические элементы и гиперссылки, но при этом объем документа выходит значительным, а сохранить документ без искажений получается только в родном формате Word.

Иногда перенос содержимого веб–страницы в другую программу неприемлемо для пользователя, тогда помогает функция сохранения страницы целиком или ее части в формате веб–документа. Для сохранения даем команду Файл – Сохранить как. В открывшемся диалоговом окне указывается место сохранения, имя файла и формат, в котором будет храниться документ. Пользователю предлагается 4 варианта:

1. Формат Веб–страница, полностью – страница сохраняется целиком вместе с используемыми шрифтами, графикой, стилями и гиперссылками. Открыв такой документ можно увидеть страницу в исходном виде в окне браузера. Исходная структура ссылок не сохраняется, при сохранении создается отдельная папка с изображениями и дополнительными файлами, необходимыми для полноценного просмотра веб–страницы.

2. Формат Веб–страница, только HTML сохраняет страницу без изображений, структура ссылок исходной страницы сохраняется.

3. Формат Текстовые файлы – сохраняет страницу в виде текстового файла, структура ссылок нарушается.

4. Формат Все файлы – используется для сохранения в каком – либо ином формате.

Многие веб–страницы используют фреймы – отдельные блоки на странице. Данные в фреймах могут формироваться отдельно от содержимого сайта. Поэтому возникает необходимость обособленно сохранять информацию во фреймах. Для сохранения отдельного фрейма на веб-странице следует поместить курсор мыши в данный фрейм и дать команду: Файл – Сохранить фрейм как. Сохранение происходит также как сохранение веб–страницы.

Современный Интернет насыщен различной информацией: статьями, книгами, рисунками, фотографиями, анимацией и др. Использование широкополостного доступа позволяет пользователям беспрепятственно копировать любую информацию. Единственным ограничением здесь является соблюдение авторских прав владельцев.

topref.ru


Смотрите также