Смекни!
smekni.com

Программа-минимум кандидатского экзамена по специальности 05.13.17 «Теоретические основы информатики» (стр. 17 из 29)

языки дескрипторного типа (= посткоординируемые ИПЯ)

(перечень полнозначных слов)

без лексического контроля (ключевые слова) vs. с лексическим контролем (дескрипторы)

Классификация ИПЯ:

предкоординированные ИПЯ присутствует заранее заданная классификационная схема посткоординируемые ИПЯ отсутствует заранее заданная классификационная схема

Типы классификаций

иерархическая задает дерево знаний, например всей литературы по лингвистике алфавитно-предметная например, телефонный справочник фасетная опирается на разные аспекты описания, задается так называемая фасетная формула (Ж1 Ц2 Ф1), представляющая собой шаблон, рассматривается класс, аспект предмета

Фасетная классификация: фильмы:

жанр цвет формат
Ж1 Ж2 Ц1 цветной Ц2 черно-белый Ф1 широкоформатный

фасетная формула: Ж1 Ц2 Ф1

Посткоординируемые ИПЯ:

семантические коды в ЛЕ в явном виде заданы парадигматические отношения дескрипторы оперируют монолитными СЕ, в основу положен принцип координированного индексирования, который выражается в том. что основная тема документа выражается в виде набора слов или СС, т. о документ помещается в n-мерное пространство
Семантические коды Перри и Кента (США) м.б простыми и составными, простая ЛЕ - сем. множитель; RX коды ручное индексирование грамматики мешочного типа (теоретико-множественные грамматики) задаются отношением совместного вхождения в класс, ПОД составляется вручную, ПОД - перечень ключевых слов. позиционно-скобочные грамматики сохранение всего исходного текста документа с явным указанием порядка следования, деления на абзацы, предложения: сетевые грамматики в явном виде задается смысл связи между элементами текста (Скрэгг)

ИПЯ с ПСГ:

индексирование без лексического контроля, до индексирования могут не иметь словаря, словарь формируется в результате индексирования.

индексирование с лексическим контролем - все словоформы приводятся к стандартному виду

Поисковые системы в Интернет

2 основных типа поисковых систем Интернет:

классификационные (каталоговые)

Rambler, Yahoo!

содержат тематически структурированный каталог сайтов

чаще всего пополняются вручную

Индексные

Яндекс, Google, Rambler

индексируют информацию, содержащуюся на серверах, вносят информацию о расположении слов на страницах сайтов в свои базы данных.

сочетающие в себе оба принципа работы

Большинство индексных поисковых систем имеют и каталоговую систему поиска.

ИПЯ в поисковых машинах

Язык поисковых запросов состоит из

логических операторов

префиксов обязательности

учета расстояния между словами

учета морфологии языка

учета регистра слов

расширенных операторов

возможностей расширенного поиска

уточнения поиска

Обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR.

Пример:

Software that is used on Unix Platform >>>>>

Unix AND Platform AND Software

Пертинентность и релевантность

Релевантность

степень соответствия найденных документов информационному запросу

Формальная релевантность может быть оценена программно, смысловая релевантность устанавливается человеком.

Пертинентность

степень соответствия найденных документов информационным потребностям пользователя

Ранжирование

На рейтинг страницы влияет:

- количество ведущих на страницу ссылок (некоторые ссылки могут сказываться отрицательно)

- рейтинг ссылающихся страниц

- дата создания

- частота обновления

- посещаемость

- регистрация в каталоге-спутнике ИПС

Критерий выдачи

Критерий выдачи - совокупность признаков, по которым:

- определяется степень соответствия поискового образа документа поисковому образу запроса

- принимается решение о выдаче или невыдаче того или иного документа в ответ на информационный запрос

Оценка качества поиска

Точность (precision)

отношение числа релевантных документов, найденных ИПС, к общему числу найденных документов

Полнота (recall)

отношение числа найденных релевантных документов, к общему числу релевантных документов в базе

Выпадение (fall-out)

отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе

Полнота

Полнота поиска тесно связана с оперативностью и

полнотой охвата доступной информации системой.

Программы-роботы проводят индексацию документов:

все слова найденных документов

тэги (заголовки, подписи к картинкам)

Ассоциативный поиск

Ассоциативные запросы представляют собой синонимы запроса и близкие по смыслу слова, уточняющие Ваш запрос. Они формируются в результате анализа поисковой машиной статистики.

Ассоциативный поиск возвращает документы, содержащие не только термины запроса, но и термины, статистически ассоциирующиеся с запросом.

Пример: товары, часто приобретаемые с данным товаром, в интернет-магазинах

Семантические методы

контент-анализ: "Data Mining" и "Text Mining”

(автоматическое выявление нового смысла из текстовых массивов)

Примеры использования в реальных системах:

автоматическая группировка документов (по определенному заранее классификатору)

автоматическое выделение классов документов

ранжирование документов по смысловой релевантности

выявление семантически подобных документов

автоматический анализ и смысловое преобразование запросов пользователей

Заключение

Сегодня содержательные результаты формируются без привлечения методов искусственного интеллекта, баз знаний и экспертов путем использования частотно-лингвистических и эвристических методов.

----------------------------------------------------------------------

И. п. осуществляется посредством информационно-поисковой системы и выполняется вручную либо с использованием средств механизации или автоматизации. Непременным участником И. п. является человек. В зависимости от характера информации, которая содержится в выдаваемых информационно-поисковой системой (ИПС) текстах, И. п. может быть документальным, в том числе библиографическим, и фактографическим. И. п. нужно отличать от логической переработки информации, без которой невозможна непосредственная выдача человеку ответов на задаваемые им вопросы. При И. п. отыскиваются — и могут быть найдены — такие и только такие факты или сведения, которые были введены в ИПС. Перед вводом в ИПС текста (документа) определяется его основное смысловое содержание (тема или предмет), которое затем переводится и записывается на одном из информационно-поисковых языков (см. также Индексирование). Эта запись называется поисковым образом текста. Так же поступают и когда в ИПС вводят определённым образом записанные факты, сведения. Поступивший запрос также переводится на информационно-поисковый язык, образуя поисковое предписание. Поскольку поисковые образы текстов и поисковые предписания записаны на одном и том же языке, выражения на котором допускают только одно истолкование, то возможно сравнивать их формально, не вникая в смысл. Для этого задаются определённые правила (критерии соответствия), устанавливающие, при какой степени формального совпадения поискового образа с поисковым предписанием текст следует считать отвечающим на информационный запрос и подлежащим выдаче.

Техническая эффективность И. п. характеризуется двумя относительными показателями — коэффициентом точности (отношением числа текстов, отвечающих на информационный запрос, к общему числу текстов в данной выдаче) и коэффициентом полноты (отношением числа текстов, отвечающих на информационный запрос, к общему числу таких текстов, содержащихся в данной ИПС). Необходимые значения этих показателей зависят от специфики информационных потребностей. Например, при поиске патентных описаний с целью проведения экспертизы патентной заявки на новизну необходима 100%-ная полнота выдачи; при поиске, ориентированном на обычного исследователя или инженера, очень хорошей считается точность выдачи около 80% , полнота — около 50%.

И. п. может быть двух типов — избирательное (или адресное) распространение информации и ретроспективный поиск. При избирательном распространении информации И. п. производится по постоянным запросам некоторого числа потребителей (абонентов), осуществляется периодически (обычно один раз в неделю или в две недели) и выполняется лишь в массиве текстов, поступивших в ИПС за этот период времени. Между ИПС и потребителями (абонентами) устанавливается эффективно действующая обратная связь (абонент сообщает, в какой степени этот текст соответствует запросу и нужна ли ему копия полного текста, о степени соответствия этого текста его информационной потребности), которая позволяет уточнять потребности абонентов, своевременно реагировать на изменения этих потребностей и оптимизировать работу системы. При ретроспективном поиске ИПС отыскивает содержащие требуемую информацию тексты во всём накопленном массиве текстов по разовым запросам.

Дальнейшее развитие И. п. направлено на его механизацию и автоматизацию. Для этого используются перфокарты ручного обращения (с краевой перфорацией, щелевые и просветные), счётно-перфорационные машины, электронные цифровые вычислительные машины, а также специальные технические средства — микрофотографические, с магнитной и видеомагнитной записью информации и т. д.

Информационно-поисковый язык,

знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный И.-п. я. состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.