Смекни!
smekni.com

Программа-минимум кандидатского экзамена по специальности 05.13.17 «Теоретические основы информатики» (стр. 18 из 29)

И.-п. я. должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного И.-п. я. учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

В большинстве И.-п. я. основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного И.-п. я. Правила образования в таких И.-п. я. выполняют функцию синтаксиса. В некоторых И.-п. я. основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких И.-п. я. правила образования устанавливают, как из данного алфавита строить слова И.-п. я., а из этих слов — выражения (фразы) и какие из них будут правильно построенными. И.-п. я. отличается от информационного языка и от машинного языка. В середине 20 в. в качестве И.-п. я. широко применяются классификации библиотечно-библиографические и языки дескрипторного типа (см. Дескриптор).

Индексирование,

процесс выражения главного предмета или темы текста какого-либо документа в терминах информационно-поискового языка. Применяется для облегчения поиска необходимого текста среди множества других. Проводится И. как целого документа, так и его части. Для И. нередко используются заглавия текстов. При И. опускаются сопутствующие предметы или темы. Это служит причиной того, что при поиске не найденными остаются тексты, для которых предмет или тема информационного запроса является не главной, а сопутствующей. Различают 2 основных типа И. — классификационное и координатное. При классификационном И., или классифицировании, тексты в зависимости от их содержания включаются в соответствующий класс (один или несколько), в котором собираются все тексты, имеющие в основном одинаковое смысловое содержание. Каждому такому тексту присваивается индекс этого класса, служащий далее его поисковым образом. При координатном И. основное смысловое содержание текста выражается перечнем полнозначных слов, выбираемых либо из самого текста или его заглавия, либо из специального нормативного словаря. В первом случае такие лексические единицы называются ключевыми словами, а во втором — дескрипторами. Каждое ключевое слово или дескриптор обозначает класс, в который потенциально входят все тексты, где в выражения основного смыслового содержания входит это слово. Логическое произведение классов, которые обозначены всеми словами, выражающими в совокупности основное смысловое содержание текста, как бы образует некоторый сложный класс. Построенный таким способом сложный класс обозначается перечнем ключевых слов или дескрипторов, и этот перечень служит поисковым образом данного текста или выражением на информационно-поисковом языке смыслового содержания запроса. Таким образом, при координатном И. смысловое содержание текста выражается как бы указанием его координат в некотором n-мерном смысловом пространстве. Разновидностью координатного И. является пермутационное, или циклическое, И., которое основано на использовании ключевых слов заглавия текста и заключается в том, что все ключевые слова заглавия вместе с контекстом поочерёдно выводятся в поисковую колонку. В этой колонке ключевые слова даются в алфавитном порядке. На основе координатного И. созданы и более сложные информационно-поисковые языки. Основное преимущество координатного И. перед классификационным заключается в том, что координатное И. не создаёт никаких затруднений при поиске текстов по любому, заранее не предусмотренному сочетанию признаков. Особым типом И. следует считать раскрытие смыслового содержания текста через приводимую вместе с ним библиографию — имена авторов и библиографические описания их работ, на которые ссылается автор данного текста. Такое И. служит основой для составления указателей цитированной литературы — весьма эффективного инструмента не только для поиска документов, но и для решения других задач (науковедческих, прогностических и т. д.).

Автоматизированные информационно-поисковые системы: их структуры, функции, критерии оценки. Информационные языки.

АИПС предназначены для инф. обслуживания пользователей информации в заданной тематической области.

2 основные задачи АИПС:

хранение информации

поиск и выдача информации

Из сведений о ТО. поступающих на хранение в систему формируется информационный массив (ИМ). От потребителя поступают запросы, и система ищет сведения в ИМ, Соответствующие данному запросу. Всякая поисковая операция в системе сводится к сравнению поступившего запроса с имеющимися в системе сведениями. в современных ИПС все это происходит автоматически. Для этого и запрос и сведения должны быть представлены на таком языке, который обладает смысловой однозначностью - ИПЯ.

Индексирование - перевод содержания текста, хранящегося в ИМ на ИПЯ. в результате индексирования образуется поисковый образ, у документа - ПОД, у запроса - ПОЗ.

Критерий смыслового соответствия - мера соответствия между содержанием запроса и документа, достаточная для признания данного документа релевантным данному запросу. Вводится совокупность признаков, на основании которых устанавливается степень необходимого и достаточного соответствия между поисковым предписанием и поисковым образом документа, выраженными на одном и том же ИПЯ.

Результатом поисковой операции является выборка релевантных ПОДов.

Абстрактная ИПС - некий логико-семантический аппарат, состоящий из ИПС, правил индексирования и критерия выдачи.

В зависимости от характера сведений и запроса различаются документальная и фактографическая ИПС. Фактографическая ИПС не хранит документы, а только факты. Документальная хранит документы. Но существует прием, позволяющий в процессе поиска определенного документа извлекать факт: В документальной системе хранится информация о содержании документа + документографическая информация(автор, год ...)

выделение нужной пользователю информации осложняется двумя обстоятельствами:

несоответствие между формулировкой запроса и реальной информацией нужной потребителю

перевод запроса в ПОЗ

Мера соответствия документа информационной потребности называется пертенетностью.

Соответствие документа запросу называется релевантностью:

смысловая (соответствие запроса поисковому предписанию) - просто релевантность, зависит от ИПЯ (его семантической силы, глубины индексирования, совершенства логико-сем. аппарата)

формальная (соответствие документа поисковому предписанию)

Критерий выдачи - совокупность признаков, по которым:

-1 определяется степень соответствия поискового образа документа поисковому предписанию; и

-2- принимается решение о выдаче или невыдаче того или иного документа в ответ на информационный запрос.

запрос – это формализованный способ выражения информационных потребностей пользователя.

Процесс поиска представляет сопоставление поисковых образов документов (ПОД) с поисковым образом запроса (ПОЗ)

Поисковый образ документа получается в результате процесса индексирования, которое выполняется квалифицированными специалистами и состоит из двух этапов:

- выявление смысла документа,

- описание смысла на специальном информационно-поисковом языке (ИПЯ).

Запрос к ИПС описывается также на этом языке. Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего ПОЗ. В результате пользователю выдаются требуемые документы, отвечающие критериям запроса, выводится список найденных документов в порядке убывания релевантности, или отказ.

Результат поиска - ссылки на документы (электронные адреса), содержащие требуемую информацию.

Состав

Подсистема ввода и регистрации решает следующие основные задачи:

- создание электронных копий бумажных документов;

- обеспечение подключения к каналам доставки электронных документов;

- распознавание, а при необходимости и преобразования формата электронных документов;

- присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).

Подсистема хранения представляет собой, например, совокупность стандартных или специализированных средств архивации, систем управления базами данных (СУБД)

Модели поиска. Стратегии поиска. Подготовка запросов и отчетов. Оперативный и регламентный режим поиска. Формирование отчетов.

Информационно-поисковые языки.

информационная потребность должна быть выражена в виде фразы (запроса) на специальном информационно-поисковом языке.