Смекни!
smekni.com

Лингвистическое и правовое обеспечение корпоративных информационных технологий (стр. 2 из 5)

Всеобщий тезаурус можно подразделить на частные тезаурусы путем выделения совокупности однородных понятий по их иерархическому уровню или путем выделения понятий, которыми можно описать какую–либо специфическую часть мира. Таким образом, на основе всеобщего тезауруса можно составить бесконечное множество тезаурусов по различным областям знаний, по отдельным проблемам и задачам.

Тезаурус может быть представлен как семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями – иерархическими (например, род–вид, целое–часть), ассоциативными, а также отношениями эквивалентности. При этом отдельное понятие определенной области знаний в тезаурусе представлено словом или словосочетанием, соотносящимся с другими словами и словосочетаниями и образующим вместе с ними замкнутую систему. Иерархические отношения в тезаурусе представляют собой классификацию, основанную на словах естественного языка, а не на абстрактных категориях, поэтому нарушается правильная структура дерева – один и тот же термин может иметь несколько «родителей» – вышестоящих терминов на предыдущем уровне. Например, в Тезаурусе по информатике словосочетание Автоматизированная обработка информации имеет два вышестоящих родителя: Автоматизированная обработка и Обработка информации, а слово Буквы – целых три родителя: алфавиты, символы, буквенно–цифровая информация. Тезаурус, отображая возможные семантические связи терминов, представленных в базах данных, является идеальным лексическим инструментом информационно–поисковых систем, с помощью которого можно найти необходимую лексику для составления запросов или их модификации с целью достижения наилучших показателей эффективности поиска.

Иерархические классификационные структуры. К таким структурам относятся различные рубрикаторы и классификаторы, фиксирующие подчинение терминов в определенной предметной области.

На рисунке 3 приведен фрагмент Рубрикатора ВИНИТИ для заглавной рубрики «201 Информатика». Рубрикатор ВИНИТИ является локальным (отраслевым) по отношению к Государственному рубрикатору и отличается большей детализацией рубрик.

Рис. 3. Фрагмент Рубрикатора ВИНИТИ

Словарь синонимов. Словарь синонимов, который для каждого входа словаря определяет одну или больше синонимичных категорий, также с точки зрения своей структуры может быть отнесен к иерархической организации терминов. Такие словари широко используются при индексировании, а также позволяют искать не только по запрошенному слову, но и по его синонимам. Ниже приведен фрагмент словаря синонимов для области «Информатика»:

ЭФФЕКТИВНОСТЬ ПОИСКА

информационная эффективность

техническая эффективность

эффективность информационного

ЮРИДИЧЕСКАЯ ДЕЯТЕЛЬНОСТЬ

юридическая практика

ЮРИСПРУДЕНЦИЯ

право

правоведение

юридические аспекты

К линейным терминологическим структурам относятся линейные словари различного назначения, обычно упорядоченные по лексикографическому принципу. С точки зрения своего участия в процессах индексирования документов и запросов такие словари делятся на положительные и отрицательные. Положительные словари объединяют лексику, которую можно использовать в процессе индексирования. Отрицательные словари содержат лексику, запрещенную для использования при индексировании.

Морфологические словари содержат основы слов, аффиксы, суффиксы и окончания. Такие словари могут быть использованы, с одной стороны, для нормализации поисковых образов документов, а с другой – для нормализации лексики поисковых запросов. Грамматический строй естественных языков нередко расходится со структурой логической мышления, и поэтому при поиске информации необходимо полностью или частично исключить влияние аффиксов и окончаний слов естественных языков. Для этого можно предусмотреть наращивание документов всеми потенциально возможными словоформами, которые можно составлять, например, на базе основ слов, первоначально содержащихся в документах. Наличие в паре «документ – запрос» словоформ, совпадающих с точностью до общности их корней, в результате такого наращивания может привести к появлению в документе словоформы, полностью совпадающей со словоформой, имеющейся в запросе. Такое наращивание снимало бы различие употреблений словоформ в документах и запросах. Другой технологический вариант, позволяющий снимать различие употреблений словоформ, состоит в использовании кодирования слов. Сущность метода автоматического кодирования слов с помощью наперед заданных словарей аффиксов и окончаний заключается в автоматической проверке на наличие в словах естественных языков элементов, вошедших в наперед заданные (составленные экспертами– лингвистами) словари аффиксов и окончаний, и отсечении их, если они имеются. От качества составления словарей аффиксов и окончаний в значительной мере зависит качество автоматического кодирования слов естественных языков, а, следовательно, и функциональная эффективность ИПС в целом. Ошибки могут быть следствием такого алгоритма, когда после включения очередной морфемы в словарь, она отсекается из всех слов естественно–языкового употребления в базе данных, не зависимо от того, является ли для конкретно рассматриваемого словаря морфемой или частью корня.

Словарь словосочетаний. Такой словарь используется для определения наиболее часто встречающихся устойчивых комбинаций слов. Словарь словосочетаний повышает эффективность анализа содержания, выделяя для идентификации содержания однозначные словосочетания вместо множества в общем случае однозначных (например, пара отдельных терминов «программа» и «язык» является менее определенной, чем словосочетание «язык программирования»).

Лингвистической особенностью словаря является то, что термины – одиночные слова зачастую не выражают никакого смысла, являясь только составной частью словосочетания.

Основываясь на том, что наиболее информативными терминами являются термины–словосочетания, наиболее правомерно использовать именно их для составления поискового запроса.

Частотный словарь. Частотный словарь – перечень дескрипторов и ключевых слов. Термины располагаются в алфавитном порядке, либо в порядке убывания (возрастания) частоты использования их в информационном массиве. Частотная характеристика термина показывает количество документов информационного массива, в которых термин встретился хотя бы один раз. Частота встречаемости ориентирует пользователя в лексике информационного массива с точки зрения включения какого–либо термина в поисковый запрос. Рассмотрим, например, фрагмент частотного словаря ретроспективной реферативной базы данных «Инфрматик» (1986–2002 г):

51 ИНФОРМАЦИОННАЯ ГРАМОТНОСТЬ

1 ИНФОРМАЦИОННАЯ ГРАНИЦА ВСЕЛЕННОЙ

1 ИНФОРМАЦИОННАЯ ДЕМОКРАТИЯ

Стоп–словарь (словарь отрицаний). Словарь отрицаний («стоп–слов») содержит термины, которые признаны не информативными для данной предметной области. Использование их запрещается для индексирования содержания документов. Например, термины «исследование», «вопросы», «требования», «проблемы» и др. являются политематическими и удаляются из поисковых образов документов и запросов. Словарь стоп–слов может использоваться как при построении частотных словарей, так и при разборе выражения информационной потребности на ИПЯ. Запрещенные термины не заносятся в словарь. Таким образом, неинформативные термины автоматически исключаются из поискового процесса.

Правовое обеспечение КИС

Правовое обеспечение – совокупность правовых норм, определяющих создание, юридический статус и функционирование информационных систем, регламентирующих порядок получения, преобразования и использования информации.

Различные информационные системы, а особенно Интернет как одно из самых масштабных проявлений развития информационных технологий, предоставили огромные возможности доступа к информации. В то же время информационные системы выступили катализатором многих негативных явлений (пиратство, кража информации, денежных средств и т.д.). Поэтому правовое регулирование данных систем приобретает все большую остроту. Здесь важны роль и место не только международного сообщества, но государственных органов в регулировании деятельности по созданию систем телекоммуникаций и обеспечения защиты информации. В настоящее время эти функции возложены на Министерство связи и информатизации Республики Беларусь.

Одной из наиболее важных проблем, связанных с использованием информационных систем, является нарушение авторских прав на произведения, к которым можно получить доступ. Легкость копирования, почти невозможный контроль со стороны авторов создают условия для массовых нарушений авторского права. Закон «Об авторском праве и смежных правах» создает в Беларуси правовые условия для охраны прав авторов и правообладателей.

Исходные положения правового обеспечения процессов информатизации в Беларуси определены концепцией государственной политики в области информатизации, одобренной Указом Президента Республики Беларусь от 6 апреля 1999 г. № 195, а также содержатся в Законе «Об информации, информатизации и защите информации». Основной задачей, реализуемой в рамках данного направления, является создание правовой базы для решения проблем, связанных с:

реализацией конституционного права граждан на информацию - обеспечением им равных прав на получение информации из всех общедоступных информационных систем;