Смекни!
smekni.com

«Применение ит при исследовании белорусской сатиры 20-х годов» (стр. 1 из 3)

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по

«Основам информационных технологий»

Магистрантка кафедры современной

белорусской литературы и культуры

филологического факультета

Мацук Юлия Богуславовна

Руководитель:

Науменко П.И.

Руководитель практики:

Позняков А.М.

Минск 2007

ОГЛАВЛЕНИЕ

Перечень условных обозначений……………………………………………...3

Реферат «Применение ИТ при исследовании белорусской сатиры 20-х годов»……………………………………………………………………………...4Введение…………………………………………………………………………..4

Глава 1 Обзор литературы………………………………………………………..5

Глава 2 Методика исследования…………………………………………………6

Глава 3 История проблемы……………………………………………………….7

Глава 4 Программы-атрибуторы и использование их при исследовании белорусской сатиры 20-хгодов 20века…………………………………………10

Обсуждение результатов………………………………………………………13

Заключение……………………………………………………………………...14

Библиографический список…………………………………………………..15

Интернет-ресурсы в предметной области…………………………………..16

Действующий личный сайт…………………………………………………..18

Граф научных интересов……………………………………………………...19

Презентация магистерской диссертации…………………………………....20

Приложение……………………………………………………………………..21

ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ

БД - база данных

ИТ- информационные технологии

МГУ-- Московский государственный университет

ЭВМ – электронно-вычислительные машины


ВВЕДЕНИЕ

На сегодняшний день, в эпоху всеобщей информатизации и глобализации, необходимость и возможность применения информационных технологий в работе литературоведа не вызывает сомнений. С помощью компьютера современный исследователь, в частности литературовед, может:

· расширить кругозор с помощью мультимедийных энциклопедий;

· с помощью разнообразных поисковых систем в интернете найти необходимые сведения по исследуемой тематике, а также, пользуясь электронными каталогами библиотек, найти необходимое издание какого-либо автора и воспользоваться нужной цитатой;

· принять участие в обсуждении актуальных проблем по исследуемой теме посредством онлайн конференций, форумов;

· сделать подстрочный перевод произведения с помощью автоматического переводчика;

· создать частотный словарь произведения;

· провести компьютерный анализ текста и многое другое.

Последней разновидности использования информационных технологий в литературоведении и попыткам и перспективам их применения при исследовании белорусской сатиры 20-х годов 20 века и посвящено данное исследование.

В данной работе акцент делается на одном из видов компьютерного анализа текстов, в частности, на особенностях работы и возможностях применения литературоведом таких достижений ИТ, как компьютерные программы, используемые для атрибуции текстов.


ГЛАВА 1

ОБЗОР ЛИТЕРАТУРЫ

Компьютерный анализ текстов в последние годы привлекает всё большее число исследователей. Соответственно, появляется и литература, посвящённая данной проблематике. Как правило, большое её количество представлено в электронной версии в интернете. Однако собственно проблеме атрибуции литературных текстов посредством компьютерных программ посвящено не так уж много литературы. В данной работе одним из основных источников стала научно-популярная статья В.Воронько и А.Костинского «Компьютерный анализ текстов», где рассказывается о истории возникновения идеи атрибуции текстов с помощью информационных технологий и одной из таких программ-атрибуторов «Лингвоанализаторе». Литература же, непосредственно посвящённая применению ИТ при исследованию белорусской сатиры 20-х годов 20 века, к сожалению, отсутствует.


ГЛАВА 2

МЕТОДИКА ИССЛЕДОВАНИЯ

В общем методика исследования проблемы использования ИТ при исследовании белорусской сатиры 20-х годов 20 века включала два этапа: теоретический и практический. Как на первом этапе, так и на втором использовались такие логические методы, как анализ и синтез, аналогия и сравнение, а также обобщение. Из общенаучных методов применялись приёмы теоретического и экспериментального исследования.

В методологическом плане работа основана на принципах объективности и комплексного подхода. Первый из них обеспечивается единством и взаимосвязью использованных методов, второй основан на изучении и анализе объекта исследования.


ГЛАВА 3

ИСТОРИЯ ПРОБЛЕМЫ

Идея автоматической обработки, а также анализа текста возникла ещё на начальном этапе развития вычислительной техники и кибернетики. Первоначально разработчики информационных технологий ставили целью техническую помощь: так, первые текстовые редакторы появились, когда к большим электронно-вычислительным машинам подключили печатные терминалы для ввода-вывода информации. Благодаря этим редакторам стало возможным несколькими нажатиями клавиш менять куски текста местами, вставлять в текст другие фрагменты и т.д. Большим достижением явилось автоматическое распознавание печатных текстов, введенных в компьютер с помощью сканера. Таким образом, стало возможным получать и редактировать любые ранее напечатанные тексты, и не вводить их руками с клавиатуры. Следующим шагом стала автоматизация проверки грамотности. Причём процедура проверки орфографии оказалась довольно проста: слово во всех его формах сравнивается с эталоном. Эталоном служит заранее внесенный 10-мегабайтный словарь. С его помощью удается правильно находить и исправлять почти все орфографические ошибки, что очень удобно, поскольку от опечаток не застрахован никто. Вдобавок можно пополнять эталонный словарь недостающими словами. В текстовом редакторе Word программисты применили такие инновации, что программе стало возможным оценивать удобочитаемость и благозвучность текстов. Безусловно, массовый текстовый редактор не решает всех задач, как, например, пунктуационных, и может предлагать исправить то, что в исправлении не нуждается. Однако в целом он существенно облегчает корректорскую работу исследователя.

Особый же интерес для литературоведов представляют программы, которые претендуют на большее, чем просто техническая помощь пользователю и помогают решить специфические проблемы, связанные именно с областью литературы.

Одной из актуальных задач литературоведения была и остаётся проблема атрибуции текстов. Основная её цель – определение авторства литературного текста, а также установление жанра, время и места его написания. Первые таковые попытки проводились в рамках палеографии —науки, которая изучала древние рукописи преимущественно по внешним характеристикам: способу написания, формам букв, особенностям материала, на котором писали, составу чернил и т.д. С помощью такой методики исследования текста в конце 17 века учёный-бенедектинец Жан Мабильон доказал в споре с иезуитами подлинность старых документов, закрепляющих права собственности его ордена на монастырь Сен-Дени, а филолог Йозеф Добровский пришёл к выводу, что древние чешские литературные памятники «Краледворскую рукопись» и «Зеленогорскую рукопись» подделали Вацлав Ганка и Йозеф Линде.

Появление массовой печати потребовало новых методик атрибуции текстов, так как рукописи стали восприниматься даже самими авторами как промежуточный вариант и часто не сохранялись, а в последнее время многие современные авторы вообще не использую ручку и бумагу для создания произведений, имея под рукой компьютер. Таким образом, на первое место вышел анализ внутренних характеристик текста. Первые методики опирались на следующие качественные характеристики стиля автора: словарный запас, использование терминов, устойчивых выражений и фраз вероятного писателя, а также на мировоззрение, широту охвата текста и глубину проработки темы. Несмотря на некоторую субъективность данного метода, он всё же никогда не потеряет своей значимости, так как позволяет увидеть всё произведение целиком. Однако с развитием качественных методик возникла идея, что существуют существуют некоторые неизменные во времени количественные характеристики письма данного автора, которые позволили бы проводить атрибуцию текстов с максимальной достоверностью.

Так возникла статистическая стилистика, которая берёт начало в работах де Моргана, высказавшего в 1851г. предположение, что длина слов может быть доказательством различия стилей писателей. Позже в России Николай Морозов в своей статье 1915г. "Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора» проанализировал употребление служебных частиц и предлогов в произведениях русских классиков и, как ему показалось, нашёл у каждого из авторов характерные особенности. Исследования Н.Морозова заинтересовали математика академика Андрея Макарова. Он проверил результаты подсчётов и, как оказалось, цифры математика сильно отличались от морозовских. Макаров показал, что у Морозова слишком мала база измерений и его результаты статистически необоснованны - по крайней мере, необходимо увеличить выборку. Было очевидно, что подобная методика требует трудоёмкой обработки больших массивов информации, и это стало возможным только с появлением компьютеров и массовым представлением текстов в оцифрованном виде.