Смекни!
smekni.com

Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ» (стр. 2 из 2)

1. Упорядочим таблицу некорректных МИ по убыванию количества словоформ с данной МИ. Назовём её Исходной таблицей МИ. Таблицу словоформ с ошибочными МИ назовём Таблицей словоформ.

2. Скопируем эту таблицу в таблицу, которую назовём Остатком некорректных МИ.

3. Выберем из таблиц 1, 2 правило, согласно которому . первый элемент Остатка некорректных МИ является некорректным.

4. Из Исходной таблицы выберем все записи, удовлетворяющие выбранному правилу. Сформулируем рекомендации по коррекции ошибки. Из Таблицы словоформ выберем все записи с данной ошибкой и убедимся, что применение рекомендации по коррекции ошибки устранит ошибку и не приведёт к появлению новых.

5. Добавим правило к Множеству применённых правил.

6. Сформируем Остаток некорректных МИ путём выбора из Исходной таблицы запи- 1 сей, которые не удовлетворяют ни одному из Множества применённых правил.

7. Если Остаток некорректных МИ не пуст и для его первого элемента количество словоформ с данной МИ больше порогового, перейти на шаг 3.

Таблица 3 – Корректировка словарной базы

Правило Количество словоформ Рекомендация
П9, ПЗО 38 468 Заменить значение категории падежа на неопределенное.
П1,П10 4 794 Заменить значение категории рода на неопределенное.
П24 899 Набор словоформ разделен по леммам – получено 27 лемм. Из них: - 8 являются исключениями из правила и корректировке не подлежат; - для 1 ошибочно построены страдательные формы причастия (словоформы подлежат удалению); - в 18 ошибочно отнесены к непереходным (заменить значение категории переходности на «переходный»).
П13 123 Заменить значение категории одушевленности на «неодушевленное».
П14 42 Заменить значение категории одушевленности на неопределенное.
П7.11 120 Данная группа содержит словоформы существительных группы plura-lia tantum («имеющие только множественное число»). Часть словоформ этой группы определены как имеющие единственное число (подлежат удалению). Для остальных обнулить в МИ признак возвратной формы глагола.
П23 44 Данная группа содержит причастия от леммы «врезать», с которой словарная база работает некорректно.

Результаты применения данной методики отражены в табл. 3, где также указан порядок применения правил и рекомендации по исправлению ошибок. Данные рекомендации позволяют исправить выявленные ошибки.

Выводы

Научная новизна данной работы состоит в следующем.

1. На основе теоретических сведений сгенерированы правила выявления некорректных значений морфологической информации.

2. Разработана методика корректировки словарной базы модуля морфологического анализа.

Практическая значимость работы состоит в применимости сгенерированных правил и методики для выявления, анализа и исправления ошибок в МИ словарных баз систем обработки русскоязычных текстов на морфологическом уровне.

Список литературы

1. Антонов А. Диалог 2 роботов о всякой ерунде [Электронный ресурс] / Антонов А. – Режим доступа: http://www.roboter.ru/news/arch_spri_08/dialog_08_04_l8.htm

2. Оценка методов автоматического анализа текста: морфологические парсеры русского языка [Электронный ресурс] / О. Ляшевская, И. Астафьева, А. Бонч-Осмоловская [и др.] // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной Международной конференции «Диалог» (Бекасово, 26 – 30 мая 2010 г.). – Вып. 9 (16). – М.: РГГУ, 2010. – Режим доступа: http://ru-eval.ru/Dialog2010.pdf

3. Форум «Оценка методов автоматического анализа текста: морфологические парсеры русского языка»: Таблицы оценок 2010 [Электронный ресурс]. – Режим доступа: http://ru-eval.ru/tables_index.html

4. Дорохина Г.В. Модуль морфологического анализа слов русского языка / Г.В. Дорохина, А.П. Пав-люкова // Искусственный интеллект. – 2004. – № 3. – С. 636–642.

5. Дорохина Г.В. Модуль морфологического анализа без словаря слов русского языка / Г.В. Дорохина, В.Ю. Трунов, Е.В. Шилова // Искусственный интеллект. – 2010. – № 2. – С. 32–36.

6. Зализняк А.А. Грамматический словарь русского языка: словоизменение, около 100 000 слов / А.А. Зализняк. – М.: Русский язык, 1977. – 880 с.

7. Литневская Е. И. Морфология // Русский язык: краткий теоретический курс для школьников [Электронный ресурс] / Е.И. Литневская. – Режим доступа: http://www.gramota.ru/book/litnevskaya.php7part4.htrn

8. Розенталь Д.Э. Справочник по правописанию, произношению, литературному редактированию / Розенталь Д.Э., Джанджакова Е.В., Кабанова П.П. – [2-е изд., дополнен.]. – М.: ЧеРо, 1998. – 400 с.