Смекни!
smekni.com

Разработка подсистемы морфологического анализа информационной системы (стр. 2 из 9)


Рис. 1.5. Возможность поиска и замены слов в программе «Орфо»

Для более эффективной проверки орфографии предусмотрена возможность подключения дополнительных тематических словников по предметным областям (информационные технологии, коммерция, нефть и газ, техника, гуманитарные и точные науки, медицина и т.п.)

Дополнительные словники к программе «Орфо»

Для Профессионального и Многоязычного комплектов «Орфо».

Для более качественной проверки орфографии в Профессиональном и / или Многоязычном комплектах предусмотрена возможность подключения дополнительных тематических словников по предметным областям.

− Строительный (для русского языка). Содержит термины по различным отраслям строительного дела.

− Нефть и газ (для русского языка). Содержит термины, относящиеся к геологии, добыче и хранению нефти и газа, строительству, обслуживанию скважин, разработке месторождений и соответствующему оборудованию.

− Информационные технологии (для русского языка). Словарь содержит термины по вычислительным системам и сетям, архитектуре и элементам вычислительных машин, операционным системам, программному обеспечению.

− Словник по бизнесу (для русского, английского и немецкого языка). Содержит термины по бизнесу, бухучету, финансам и праву.

− Медицинский словник (для русского, английского, немецкого и испанского языка). Содержит термины по медицинской науке и практике.

− Научный словник (для русского и английского языка). Содержит термины из области математики, физики, химии, биологии, лингвистики.

− Технический словник (для русского и английского языка). Содержит термины по различным отраслям науки и техники (машиностроение, радиоэлектроника, автомобилестроение, авиационная и ракетно-космическая техника, пищевая и парфюмерная промышленность и т.д.)

− Гуманитарный словник (для русского и английского языка). Содержит термины из области культуры, религии, политики, музыки, психологии.

Приложения, поддерживаемые программой «Орфо»

Приложения, поддерживаемые программой «Орфо», с учетом версий приложений и языков, приведены в таблице 1.1.

Таблица 1.1. Приложения, поддерживаемые программой «Орфо»

Приложение Орфография Грамматика и стиль Синонимы Расстановка переносов Русская коллекция
MS Word 97/2000/XP/2003/2007 Все языки Русский Русский Русский,
украинский
Русский
MS Access 97/2000/XP/2003/2007 Все языки
MS Excel 97/2000/XP/2003/2007 Все языки
MS PowerPoint 97/2000/XP/2003/2007 Все языки
MS FrontPage 2000/XP/2003 Все языки Русский
MS InfoPath 2003/2007 Все языки
MS Outlook 97–98/2000/XP/2003/2007 Все языки
MS Outlook Express 4.x/5.x/6.x Все языки
MS Publisher 98/2000 Все языки
MS Publisher XP/2003/2007 Все языки Русский Русский,
украинский
MS Works 4.x Все языки Русский
MS Internet Explorer 6.x Все языки
Opera 9.x Все языки
Mozilla FireFox 2.x Все языки
Adobe PageMaker 6.x/7.0 Все языки Русский,
украинский
Lotus WordPro 96/97/2000 Все языки
Corel WordPerfect 7.0/8.0 Все языки Русский,
украинский
Corel WordPerfect 9.0 Все языки
QuarkXPress 4.x/5.x Все языки Русский,
украинский
ОРФО Редактор Все языки Русский Русский Русский,
украинский
Русский
ОРФО Агент Все языки

В таблице 1.1 указано, в каких приложениях и для каких языков поддерживаются предлагаемые опции:

«Все языки» означает, что данная опция реализована для всех встроенных в ОРФО языков в зависимости от приобретенной версии;

«Русский» – для русского;

«Украинский» – для украинского.

1.2 Категория 2 (Наборы словарей)

К этой категории отнесены библиотеки для проверки орфографии.

Hunspell

Hunspell – это формат словарей Hunspell и файлов аффиксов.

Для проверки орфографии Hunspell требуется два файла. Первый файл – словарь, содержащий слова, второй – файл аффиксов, который определяет значения специальных меток (флагов) в словаре.

Файл словаря (.dic) содержит список слов, по одному слову в строке. В первой строке словарей (за исключением персональных словарей) указывается приблизительное количество слов в словаре (для оптимального распределения памяти). После каждого слова может следовать слэш («/») и один или более флагов, соответствующих аффиксам и атрибутам. Слова в словаре также могут содержать слэши, экранированные «». По умолчанию, флаг представляет собой один (обычно, алфавитный) символ. В файле словаря Hunspell также может существовать поле для морфологического описания, отделяемое табуляцией.

Формат морфологического описания определяется пользователем.

Файл аффиксов (.aff) может содержать необязательные атрибуты. Например, SET для определения кодировки символов файлов аффиксов и словаря. TRY определяет заменяемые символы для предлагаемых замен. REP определяет таблицу замен для исправлений нескольких символов. PFX и SFX определяют классы префиксов и суффиксов, обозначенных флагами аффиксов.

Следующий образец файла аффиксов определяет кодировку символов UTF-8. Предлагаемые замены TRY отличаются от неправильного слова на одну букву или апостроф. С помощью этих флагов REP, Hunspell предлагает правильное слово, если вместо f напечатано ph или наоборот.

SET UTF-8

TRY esianrtolcdugmphbyfvkwzESIANRTOLCDUGMPHBYFVKWZ’

REP 2

REP f ph

REP ph f

PFX A Y 1

PFX A 0 re.

SFX B Y 2

SFX B 0 ed [^y]

SFX B y ied y

В этом файле определено 2 класса аффиксов. Класс A определяет префикс re– Класс B – два суффикса – ed: один для слов, оканчивающихся не на y и второй – для оканчивающихся на y. Эти классы аффиксов используются следующим файлом словаря.

В этом случае, правильными словами являются: hello, try, tried, work, worked, rework, reworked.

ruSpell

Система проверки орфографии ruSPELL для Mac OS X.

Компания Apple IMC представляет новый дополнительный сервис для русскоязычных пользователей – ruSPELL, разработанный совместно с компанией ABBYY Software House. Это программа работает под Mac OS X и позволяет проверять орфографию в большинстве программ с которыми рядовой пользователь сталкивается ежедневно. Разработка данного продукта является очередным этапом реализации новой модели бизнеса, ориентированной на конечного заказчика.

Программа ruSPELL разработана для работы под управлением Mac OS X и состоит из двух компонентов: модуля проверки орфографии Russian Spelling for Ms Office и сервиса ABBYYspeller.

Модуль проверки орфографии Russian Spelling for Ms Office предоставляет возможность проверять орфографию русских текстов в следующих программах: Word v.X, Excel v.X, PowerPoint v.X. Каждая из этих программ предоставляет свой собственный диалог Spelling (правописание), с помощью которого можно находить русские слова, написанные с ошибками, создавать и пополнять собственные словари. Сервис проверки орфографии ABBYYspeller предоставляет возможность проверять орфографию русских текстов во всех программах, работающих со стандартным пакетом AppleSpell операционной системы Mac OS X.

2. Общее описание морфологического анализа слова

2.1 Морфология

Морфология (от греч. morphe – форма, logos – учение) – это раздел науки о языке, рассматривающий грамматические формы и грамматические значения частей речи.

Морфология рассматривает отдельные слова, но, в отличие от лексикологии, исследующей лексические значения слов, морфология изучает грамматические свойства слов.

2.2 Классификация частей речи в русском языке

Части речи – это группы слов, объединенных на основе общности их признаков.

Признаки, на основании которых происходит разделение слов на части речи, не однородны для разных групп слов.

Так, все слова русского языка можно разделить на междометия и немеждометные слова. Междометия – это неизменяемые слова, обозначающие эмоции (ах, увы, черт побери), волеизъявления (стоп, баста) или являющиеся формулами речевого общения (спасибо, привет). Особенность междометий заключается в том, что они не вступают с другими словами в предложении ни в какие синтаксические связи, всегда обособлены интонационно и пунктуационно.

Немеждометные слова можно разделить на самостоятельные и служебные. Различие между ними заключается в том, что самостоятельные слова могут выступать в речи без служебных, а служебные без самостоятельных формировать предложение не могут. Служебные слова неизменяемы и служат для передачи формально-смысловых отношений между самостоятельными словами. К служебным частям речи относятся предлоги (к, после, в течение), союзы (и, как будто, несмотря на то что), частицы (именно, только, вовсе не).

Самостоятельные слова могут быть разделены на знаменательные и местоименные. Знаменательные слова называют предметы, признаки, действия, отношения, количество а местоименные слова указывают на предметы, признаки, действия, отношения, количество, не называя их и являясь заместителями знаменательных слов в предложении (ср.: стол – он, удобный – такой, легко – так, пять – сколько). Местоименные слова формируют отдельную часть речи – местоимение.

Знаменательные слова разделяются на части речи с учетом следующих признаков:

1) обобщенное значение,

2) морфологические признаки,

3) синтаксическое поведение (синтаксические функции и синтаксические связи).