Смекни!
smekni.com

работа предмет: Информационные системы Тема: Языки информационного поиска (стр. 1 из 3)

Московский Государственный Университет Культуры и Искусств

КУРСОВАЯ РАБОТА

Предмет: Информационные системы

Тема: Языки информационного поиска

Работу выполнила

студентка 4-го курса

факультета МиСИТ

группы И-40

Бассовой Дарина

Москва 2005г.


СОДЕРЖАНИЕ

Введение………………………………………………………. стр.3

Информационно-поисковая система Яндекс……………….. стр.6

Информационно-поисковая система Яндекс. Подраздел

Каталог-Учеба-Науки…………….……………………….. стр.11

Информационно-поисковая система Рамблер……………… стр.12


Тема: Языки информационного поиска

1. Введение

Целью данной курсовой работы является оценка эффективности поисковых стратегий в таких ИПС, как:

1. Яндекс (http://yandex.ru/). Т.е. общий поиск, озаглавленный в данной службе, как поиск "Везде".

2. Яндекс-Каталог-Учеба-Науки

(http://yaca.yandex.ru/yca/cat/Science/Sciences/). Т.е. поиск в "индексах"

отсортированных Яндексом, как принадлежащих к конкретным направлениям науки.

3. Рамблер (http://www.rambler.ru/). Общий поиск, озаглавленный в данной службе, как "Интернет".

В настоящее время основным местом размещения информации является Internet «Всемирная паутина».

Для эффективного поиска информации в таком изменчивом пространстве как Internet необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах глобальной компьютерной сети и предоставлять пользователям услугу быстрого поиска.

Инструментом поиска информации в Internet является ИПС (информационно-поисковая система).

1.1 ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Индексирование – описание источников информации и построение индекса.

Индекс – специальная база данных для эффективного поиска описанных информационных ресурсов.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет адекватно источнику. Правда, в этом случае процедура индексирования занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек. Такого рода услугу мы можем наблюдать в Яндексе. В частности Яндекс-Каталог-Учеба-Науки. Задачей данной курсовой работы была, оценка эффективности поисковой стратегии именно в этой категории. К сожалению поиск по данной теме курсовой работы не увенчался успехом. В рубрике Яндекс-Каталог-Учеба-Науки в основном собрана информация о Российских учебных заведениях, библиотеках и научно-исследовательских учреждениях.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот присвоит ему более высокий коэффициент. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру. Таким образом, следующей задачей для ИПС второго типа является разработка робота-индексировщика.

Робот-индексировшик – программа, которая служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии.

Для поиска в системах данного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.

Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Существенное значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса.

Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

1.2 Информационно-поисковый язык (ИПЯ) (Information retrieval language)

Информационно-поисковый язык - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного языка.

2. Информационно-поисковая система Яндекс.

2.1 Параметры запроса поисковой системе Яндекс.

В данной поисковой системе делался запрос «Языки информационного поиска» (без кавычек*).

Просмотрев порядка 10 результатов и учитывая тот факт, что поисковые службы устроены таким образом, что на первых страницах результатов поиска были ссылки на ресурсы (сайты) соответствующие наиболее большому кол-ву слов из нашего запроса, я пришла к выводу, что по данному запросу, поисковые службы не дали не каких более или менее полезных ссылок и было решено за поисковый запрос считать фразу «информационно-поисковые языки».

* Примечание: Если в поисковой системе сделать запрос в кавычках, то для поисковой системы это значит точное соответствие, и если честно, то сделай я так, Яндекс выдаст всего 3 ссылки.

Результаты запроса «Языки информационного поиска»


п/п

Ответ службы Ссылка (URL) Полезность (ДА/НЕТ)

1

2

3

4

1

... данных различного содержания, процедурный язык информационного поиска, систему http://www.gpntb.ru/win/inter-events/crimea96/report/DOC1/10.html НЕТ

2

Результаты поиска по ключевому слову в НБ ДВГУ http://marbio-www.dvgu.ru/lib/keywbook.asp?keyw=%EF%E0%F2%E5%ED%F2%ED%FB%E5+%EA%EB%E0%F1%F1%E8%F4%E8%EA%E0%F6%E8%E8 НЕТ

3

campus-germany.de - Ehemaliges Deutsches Bibliotheksinstitut (EDBI) http://www.campus-germany.de/russian/print/2.137.3.162.html НЕТ

4

Электронная библиотека ГОСТ "СИБИД " - Система стандартов по информации ... http://www.gosts.ru/products/sibid.html НЕТ

5

Curriculum - аннотации авторских курсов учебных дисциплин РГГУ http://curriculum.rsuh.ru/index.php?option=content&task=view&id=311&Itemid=26 НЕТ

1

2

3

4

6

... Информационный язык - Информационный поиск - Автоматизация - Информационные … http://lib.susu.ac.ru/cgi-bin/ec2000?act=cards&cs=koi8&no=2027&cat=0&br=2 НЕТ

2.2 Оценка эффективности поисковой системы Яндекс.