Программа-минимум кандидатского экзамена по специальности 05.13.17 «Теоретические основы информатики» (стр. 19 из 29)

Понятия пертинентности, смысловой и формальной релевантности.

Основными критериями оценки качества поиска являются полнота, точность и оперативность поиска.

Основополагающими характеристиками информационно-поисковых систем является полнота и релевантность результатов поиска.

"Релевантность" - устанавливаемое при информационном поиске соответствие поискового образа документа поисковому предписанию.

Полнота поиска тесно связано с оперативностью охвата информации системой.

Второй аспект связан с полнотой информации, предъявляемой пользователю по его запросу. Если предположить, что по запросу пользователя Q в базе данных находятся Р (при Р ( 0) документов, соответствующих этому запросу, а предъявлено для просмотра всего N документов, то полнота системы определяется по формуле: П=(N/P)x100%.

Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу.

Если по запросу пользователя получено N документов, представляющих собой объединение двух множества документов: соответствующих запросу (пусть их количество - N1), и не соответствующих (их количество - N2), т.е. N = N1+N2. Тогда релевантность, как степень соответствия, определяется по формуле: Р = (N1/N)x100%, а шум - по формуле: S = (N2/N)x100% = 100% - P.

В теории информационного поиска, говоря о документах, вместо слова «подходит» используют термин пертинентный (от англ. pertinent – относящийся к делу, подходящий по сути), а вместо «не подходит» – «непертинентный.

пертинетность, соотношение объема полезной для него информации к общему объему полученной информации

Достижение высокой пертинентности - основное поле конкурентной борьбы современных поисковых систем. Именно для максимального удовлетворения информационных потребностей пользователей информационно-поисковые системы сегодня максимально интеллектуализируются - получили широкое практическое применение теории и методы семантических сетей, контент-анализа и глубинного анализа текстов (Text Mining).

Степень соответствия документа запросу называют релевантностью.

Различают содержательную и формальную релевантности.

Содержательная релевантность - соответствие документа информационному запросу, определяемое неформальным путем.

Формальная релевантность – соответствие документа информационному запросу, определяемое алгоритмически на основании применяемого в информационно-поисковой системе критерия выдачи.

Пертинентность - соответствие полученной информации информационной потребности пользователя.

Пертинентность (в информационном поиске) — соответствие полученной информации информационной потребности пользователя.

Пертинентность измеряется степенью соответствие между ожиданиями пользователя и результатами поиска (сравните с релевантностью), которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой.

елевантность (англ. relevant – уместный, существенный; лат. relevare – поднимать; фр. relever – отмечать, выделять) — в широком смысле, соответствие получаемого результата желаемому результату.

Термин часто используется в информационно-поисковых системах как соответствие полученной информации поисковому запросу. И запрос, и документы фиксируются любой ИП-системой, и для оценки их релевантности ей достаточно применить алгоритмы их обработки. В отличие от пертинентности, где формулирование своей информационной потребности целиком и полностью зависит от ее осмысления и языковой интерпретации пользователем, а сама потребность никак более не может быть зафиксирована ИП-системой.

По методу определения, различают формальную и содержательную релевантности. Формальная релевантность – соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи. Содержательная релевантность — соответствие документа информационному запросу, определяемое неформальным путем.

Поисковые системы выводят список найденных документов по информационному запросу в порядке убывания степени релевантности. Оценка степени релевантности основана на алгоритмах поиска конкретной информационно-поисковой машины. Как в интернет-поисковиках, так и в справочных системах, для оценки степени релевантности документов за основу берется TF*IDF–метод (TF, англ. term frequency – частота ключевого слова в найденном документе, IDF, англ. inverse document frequency – обратная частота ключевого слова во всей коллекции документов). Кроме того, для оценки степени релевантности документа поисковому запросу в поисковой системе Яндекс используется "индекс цитирования", в Google используется система PageRank.

Кластеризация

автоматическое определение классов, и последующую группировку (кластеризацию) откликов ИПС в соответствии ними. Например, в результате отработки запроса "network" (сеть) она предлагает следующие классы документов: Management; Solution; Catholic Church; Christian Organization; Domain Names; Blog; Economy; Moving; Project.

полнота и релевантность являются антагонистическими характеристиками - чем выше релевантность, тем ниже полнота и наоборот.

В последнее время получили развитие такие направления контент-анализа, как "Data Mining" и "Text Mining", которые предполагают автоматическое выявление нового смысла из текстовых массивов, новых данных, феноменов, фактов - знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining в реальные поисковые системы.

Во многие современные сетевые поисковые системы внедрены такие компоненты, как:

автоматическая группировка документов, по определенному заранее классификатору;

автоматическое определение новых, не заданных заранее классов, на основе неструктурированных или слабо структурированных документов;

ранжирование документов по смысловой релевантности;

выявление семантически подобных документов - поиск подобных документов на основе эталона;

автоматический анализ и смысловое преобразование запросов пользователей.

Критерии выдачи. Функциональная эффективность поиска. Поисковые массивы, способы их организации. Понятия об ассоциативном поиске и условиях его реализации.

Информационно-поисковые языки. Понятия пертинентности, смысловой и формальной релевантности. Критерии выдачи.

Модели поиска.

Вероятностная модель ИПС.

Стратегия поиска.

Функциональная эффективность поиска.

Поисковые массивы, способы их организации.

Понятия об ассоциативном поиске и условиях его реализации.

3. Математические основы информатики

Математическая логика: исчисление высказываний; исчисление предикатов; логические модели; формальные системы;

Все предметы и события, составляющие основу необходимой для решения задачи информации, называются предметной областью.

Языки предназначенные для описания предметных областей называются языками представления знаний.

Для представления математического знания пользуются формальными логическими языками – исчислением высказываний и исчислением предикатов.

Описания предметных областей, выполненные в логических языках, называются логическими моделями.

Логические модели, построенные с применением языков логического программирования, широко применяются в базах знаний систем искусственного интеллекта и экспертных систем.

Формальные системы.

Формальные логические модели основаны на классическом исчислении предикатов 1 порядка, когда предметная область или задача описывается в виде набора аксиом. Исчисление предикатов 1 порядка в промышленных экспертных системах практически не используется. Эта логическая модель применима в основном в исследовательских "игрушечных" системах, так как предъявляет очень высокие требования и ограничения к предметной области.

Многие научные теории строятся по следующему принципу. Сначала предлагаются некоторые основные понятия и некоторые исходные законы (аксиомы), присущие основным понятиям. Далее формулируются производные понятия и по определенным правилам доказываются некоторые утверждения (теоремы), относящиеся к основным и производным понятиям. Совокупность основных и производных понятий, аксиом и теорем, построенная таким способом, называется аксиоматической системой.

Часто аксиомы (а, значит, и теоремы) аксиоматической системы сохраняют истинность при замене основных понятий другими (как, например, в теории колебаний, которая находит применение в механике, электронике, оптике). Это позволяет рассматривать аксиоматические системы с двух позиций: синтаксически (принципы построения правильных и истинных предложений)

и семантически (связь смысла правильных и истинных предложений со смыслом основных понятий).

Для исследования синтаксиса аксиоматической системы требуется ее полная формализация, т.е. символическое представление основных и производных понятий, аксиом, правил вывода и теорем.

Поэтому формальная аксиоматическая теория (формальная система) - это синтаксический аспект (сторона) аксиоматической системы. Точное же определение понятия формальной аксиоматической теории включает следующие компоненты.

Во-первых, каждая формальная аксиоматическая теория должна иметь свой формальный язык. Формальный язык считается полностью определенным, когда задано (счётное) множество его символов и описаны формулы языка. Любая конечная последовательность символов языка называется выражением этого языка. Среди всех возможных выражений выделяются формулы языка, под которыми подразумеваются правильно построенные, утверждающие нечто осмысленное предложения языка.

Во-вторых, каждая формальная аксиоматическая теория должна иметь свою систему аксиом - подмножество заведомо истинных формул, из которых по правилам теории могут быть выведены все истинные предложения этой теории (обычно к системе аксиом предъявляются требования непротиворечивости, независимости и полноты, среди которых обязательным является требование непротиворечивости).