Смекни!
smekni.com

Информационно-поисковые языки сети Интернет (стр. 3 из 3)

Таким образом мы видим, что Lycos относится к системе с языком запросов типа "Like this", но предполагается его расширения и на другие способы организации поисковых предписаний.

AltaVista

Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo

Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На наш взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText

Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

InfoSeek

Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, "-" - термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS

WAIS является одной из наиболее изощренных поисковых систем Интернет. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Интернет. [3]

Применение языков на практике

Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза:

"Best on the Web"

Подразумевалось, что следует найти документ, связанный с конкурсами "Лучший на Сети". Эта фраза задавалась в качестве набора слов и при этом получались следующие результаты.

AltaVista - после нормализации лексики от запроса осталось только Best. Естественно, что при этом качество поиска было неудовлетворительным. Однако, использование поиска по фразе как по единому целому, поставило требуемый документ на первое место в списке найденных.

Lycos - здесь отсеялись "on the" и документ был указан только в конце списка. Поиск по фразе улучшения результатов не дал.

InfoSeek - при расширенном поиске нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело только к миграции документа вглубь списка.

OpenText - документ занимает пятую строчку в списке из десяти документов. Как и в случае с InfoSeek уточнение запроса результатов не дало.

Yahoo - документ попал в список найденных и занял третье место (ошибка в запросе: вместо "on the" следовало указывать "of the"). Но здесь следует заметить, что основное место хранения этого документа база данных Yahoo, т.е. запрос точно совпадает с тематикой базы данных. [2]

В завершении хотелось бы обратить внимание еще на один аспект выбора информационно-поисковой системы. Это профиль ее баз данных. Можно возразить, что все системы индексируют одно и тоже - массив документов Интернет. Однако делают они это по-разному. Очень важен профиль системы, который задается разбиением документов по темам и словарем индексирования, а также способом его поддержания. Определенным ориентиром здесь могут служить виртуальные библиотеки.

Заключение

Итоги теоретического исследования позволили нам выявить достоинства и недостатки различных ИПС, базирующихся на том или ином информационно-поисковым языке.

Так как каждая поисковая система предоставляет различные возможности поиска, из различных баз данных, поэтому информационный поиск на базе ИПС представляет собой достаточно сложный процесс познавательно-практической деятельности, требующий от поисковых субъектов априорной подготовки.

Анализ ИПЯ сети интернет поможет провести свой собственный выбор наиболее подходящего средства поиска, которое обеспечивало актуальность, быстроту и точность результатов.

Список литературы

1. Гост 7.25-2001 СИБИД. Информационно-поисковые языки. Термины и определения - М.: Изд-во стандартов,2001.-38 с.

2. Егоров А.Б. Поиск в Интернете – Санкт – Петербург.: НиТ, 2007г.

3. Захаров В.П. Информационно-поисковые системы: Учебно-методическое пособие.- Спб.,2005 г,48 с.

4. Кузьмин А.В. Золотарева Н.Н. Поиск в Интернете - СПб.: Изд-во НиТ,2006г.

5. Лозовский Л.Ш., Ратновский Л.А. Интернет – это интересно. – М.: ИНФРА-М, 2007. – 128 с.

6. Н.А. Гайдамакин .Автоматизированные информационные системы, базы и банки данных, М.: «Гелиос», 2006.

7. Симонович С.В., Мураховский В.И. Интернет у вас дома: Полное руководство для начинающего пользователя. – М.: АСТ-ПРЕСС, 2008. – 432 с.

8. Храмцов П.И. Информационно-поисковые языки, М.: «Гелиос», 2008