Смекни!
smekni.com

Информационно-поисковый тузаурус (стр. 1 из 2)

Федеральное агентство по образованию Российской Федерации

Нижнетагильская государственная социально-педагогическая академия

Кафедра прикладной информатики

ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС

Контрольная работа

Исполнитель:

студент(ка) 531(д) ИФ (ОЗО)

Путяшева Е.С.

Проверил:

Гуторова Л.Е.

Нижний Тагил

2007


Оглавление

Введение

1. Информационные системы

2. Информационно-поисковый тезаурус: определение, цель разработки

3. Использование информационно-поисковых тезаурусов

4. Структура информационно-поискового тезауруса

5. Построение информационно-поисковых тезаурусов

6. Сфера применения и перспективы развития информационно-поисковых тезаурусов

Заключение

Литература


Введение

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.

Организация быстрого и эффективного поиска документальной информации становится все более неразрешимой проблемой.

Цель документального поиска - нахождение и выдача соответствующих запросу пользователя документов или их описаний.

Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

При автоматизации поиска документальной информации важнейшей является задача формализации содержания документа и запроса. При этом поиск происходит по всему тексту документа или по его поисковому образу, а в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Именно на этой технологии основано действие информационно-поискового тезауруса (ИПТ). Цель моей работы – дать необходимые определения, определить цели разработки ИПТ, его структуру и построение, а также значение и перспективы развития.


1. Информационно-поисковые системы

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Documentmanagementsystem, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис InternetWorldWideWeb (WWW).

Информационно-поисковая система для управленческих документов, как правило, требует раз­работки собственного информационно-поискового языка, адекватного данной предметной области.

В документальных информационно-поисковых системах поиск документа происходит по краткому формализованному описанию его содержания - так называемому поисковому образу документа.

Важнейшей структурной составляющей является информационно-поисковый язык.

Информационно-поисковый язык, ИПЯ (indexinglanguage, retrievallanguage) - искусственный язык для выражения содержания документов или запросов с целью последующего поиска.

Основное назначение ИПЯ - установить принадлежность того или иного документа к определенной группе понятий.

Перевод текстов документов и запросов на ИПЯ называется индексированием.

В результате индексирования содержание документа отображается в поисковый образ документа, а содержание запроса - в поисковое предписание.

Индексирование может быть ручным (когда его производит человек) или автоматическим.

Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

Синонимы - слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация).

Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть - телеграфный, поисковый, к замку, к шкафу и т.д.).

Полисемия - наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия - как имя и фамилия - как семья).

Избыточность ЕЯ - наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ.

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.

Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть - целое (отдел - организация); род - вид (ценная бумага - акция); причина - следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов.

Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ.

Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.

Дескриптор - ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). Как правило, в качестве дескриптора выбирают одно, наиболее употребляемое ключевое слово из класса синонимичных ключевых слов.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

2. Информационно-поисковый тезаурус: определение, цель разработки

Тезаурус – термин, широко используемый в информатике как составная часть информационно-поисковых систем.

Можно выделить два определения информационно-поискового тезауруса:

1. Информационно-поисковый тезаурус представляет собой словарь, отображающий семантические отношения между лексическими единицами дескрипторного информационно-поискового языка (дескрипторами) и предназначенный для поиска слов по их смысловому содержанию.

2. Информационно-поисковый тезаурус (ИПТ) – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области.

И в том, и в другом случае речь идет о словаре, который призван облегчить поиск необходимой информации.

Возможно два способа расположения слов в словарях: по близости их буквенного состава и по смысловой близости.

По первому способу создаются алфавитные словари. По второму способу - тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выражения данного понятия. Т.е., если в обычном словаре по слову ищется его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.

Цели разработки ИПТ:

- перевод языка авторов на контролируемый язык, используемый для индексации и поиска;

- обеспечение последовательности в присваивании индексных терминов;

- обозначение отношений между терминами;

- облегчение информационного поиска.

3. Использование информационно-поисковых тезаурусов

Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой информации: переводчики, редакторы, научные работники, референты и др.

Информационно-поисковые тезаурусы используются при индексировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.

При безтезаурусном индексировании поисковый образ документа представляется в виде списка ключевых слов, выбранных непосредственно из текста документа. Такое индексирование требует меньше времени и менее трудоемко. Однако такой режим индексирования обладает рядом недостатков: возможна синонимия; нельзя отразить парадигматические отношения.

При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только дескрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Таким образом, информационно-поисковые тезаурусы используются для:

- перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исключается многозначность;

- отображения парадигматических связей между дескрипторами.

4. Структура информационно-поискового тезауруса

Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.