Смекни!
smekni.com

«Использование ИТ в корпусных исследованиях» (стр. 3 из 3)

Совершенно ясно, что число таких примеров можно многократно увеличить, а задачи — усложнить. Но этот пример показывает, насколько Корпус технически сокращает и революционизирует работу с материалом даже и в этих случаях, позволяя простым нажатием кнопки получить данные, на сбор которых в иной ситуации потребовались бы месяцы.

Сейчас использование Корпуса в повседневной деятельности лингвистов постепенно становится нормой. Уже привычно, что доклады на научных конференциях сопровождаются словами «На основе примеров, полученных из Национального корпуса русского языка…» или «В Национальном корпусе русского языка это явление отражено следующим образом…». Студенты выполняют практические задания, пишут курсовые и дипломные работы, используя Корпус (и одновременно обучаясь правильно с ним обращаться). На материале Корпуса уже защищаются диссертации. Все это совершенно естественно и могло бы произойти значительно раньше: в нашей стране корпусная лингвистика развивалась, к сожалению, с большим отставанием от США, Европы и Японии. Вполне возможно, что в недалеком будущем без корпуса изучаемого языка лингвисту будет так же невозможно обходиться, как, например, без словаря этого языка. Более того, корпус, словарь и грамматика, скорее всего, соединятся в один электронный ресурс, или базу данных, на основании которой и можно будет изучать язык.

Программистам, работающим в области автоматической обработки текстов (в том числе и различного рода поисковых систем), также хорошо известны преимущества корпусов. Поскольку программы такого рода имеют дело с естественным языком, они должны в той или иной степени «понимать» структуру текстов, написанных на этом языке. Причем понимать структуру именно тех текстов, которые встречаются в реальной жизни, а не идеализированную структуру языка в том виде, как она описана в академических и школьных грамматиках. Из сказанного становится ясно, что программисты, как никакие другие профессионалы (не считая лингвистов) заинтересованы в том, чтобы корпуса, отражающие подлинное и максимально разнообразное языковое употребление, так сказать, «неприглаженную» языковую стихию, создавались и развивались. Не случайно проект создания Национального корпуса русского языка уже на самых ранних этапах был поддержан компанией «Яндекс» (крупнейший российский портал, разработавший одну из самых быстрых и эффективных поисковых программ по русскому сегменту Интернета), и в целом вне лингвистики наибольшее внимание к Корпусу проявляли и проявляют специалисты по информатике и программированию. Сотрудничество с программистами компании «Яндекс» оказалось очень плодотворным: при их непосредственной технической поддержке и был создан сайт, на котором размещен Национальный корпус русского языка в его нынешнем виде.

Разумеется, и программисты далеко не исчерпывают «целевую аудиторию» корпуса. Следующая по важности группа пользователей — это те, кто, так или иначе, имеет дело с преподаванием современного русского языка, причем не только в качестве родного, но и в качестве иностранного. Данная область применения национального корпуса является наиболее актуальной для нас, так как основной целью написания нашей магистерской диссертации по специальности является создание методического пособия по русскому языку для иностранцев на базе материалов НКРЯ.

При обращении к иностранной аудитории значимость Корпуса многократно возрастает. Для людей, не владеющих русским языком в качестве родного (как преподавателей, так и обучаемых), Корпус оказывается поистине незаменимым инструментом. Действительно, мы, носители русского языка, ежесекундно погружены в его стихию. «Примеры употребления» русского языка не просто существуют у нас в сознании — они окружают нас буквально повсюду. Конечно, специально отобранные и обработанные в составе Корпуса, эти примеры могут принести гораздо бoльшую пользу, но если носителя русского языка лишить Корпуса, это не скажется фатальным образом на возможности его контактов со стихией русского языка — просто потому, что эта стихия существует по крайней мере и в его сознании тоже.

Языковое сознание иностранца — не русское. И он в высшей степени нуждается в инструменте, открывающем ему максимально широкий (и максимально комфортный) доступ в мир русского языка. Ничего лучше Корпуса современная наука в этом случае предложить не может. Именно в Корпусе преподаватель и студент могут найти ответы на многие интересующие их вопросы — причем такие ответы, которые даже носитель не сразу догадается предложить. Поэтому не случайна высокая популярность корпусов в иноязычной среде. И именно от зарубежных русистов (в особенности преподавателей русского языка) создатели корпусов получали самые заинтересованные отклики.

В качестве небольшого отступления следует отметить, что первые электронные корпуса русского языка, доступные для всеобщего пользования, начали появляться не в России, а в Европе, и создателями их были европейские русисты. Специалисты хорошо знают так называемый Упсальский корпус русского языка. Этот корпус был создан в Швеции, а в настоящее время хранится на сервере Тюбингенского университета в Германии, и в свое время немало пригодился специалистам. Интересные разработки по русской корпусной лингвистике ведутся в Финляндии — эта страна является одним из лидеров корпусной лингвистики в мире, в том числе и в области русской корпусной лингвистики. Весь этот опыт наши разработчики старались учесть — наряду с отечественным опытом последних десятилетий.

Еще одна группа людей, для которых Корпус может представлять бесспорный интерес, — люди пишущие или в своей повседневной деятельности связанные со словом. Например, редакторы газет и журналов. Редакторам в своей практической деятельности гораздо чаще, чем академическим исследователям, приходится решать вопросы узуса: допустимо ли такое слово или конструкция? Кто, где, когда употребил впервые такой оборот? Для каких типов текста он наиболее характерен? Трудно представить себе, где можно быстро найти ответы на такие вопросы, кроме Корпуса. Корпусом можно пользоваться и для проверки каких-то сведений, т. е. как справочником, но в этом отношении необходимо соблюдать известную осторожность, помня, что не всё действительное может быть разумно (по крайней мере, если речь идет о тексте, предназначенном для публикации в газете или журнале).

Глава 2. Программные средства.

Программные средства

Программа метатекстовой разметки для НКРЯ подготовлена С. А. Шаровым; упрощенная метатекстовая разметка проводилась при помощи программного обеспечения, созданного А. Е. Поляковым.

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений использовались программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов анализа в этих программах занимались Л. Л. Иомдин и В. З. Санников (Mystem), Н. Н. Леонтьева (Dialing).

Программы Mystem и Dialing распространяются свободно и доступны для некоммерческого использования согласно соответстветствующим лицензионным соглашениям. Для их получения можно обратиться на сайты авторов — Яндекса и АОТ.

В создании и усовершенствовании программного обеспечения Национального корпуса принимали участие также А. А. Аброскин, Н. В. Григорьев, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов.

О программе Mystem

Программа Mystem производит морфологический анализ текста на русском языке. Для слов, отсутствующих в словаре, порождаются гипотезы. Принципы работы кратко описаны в статье Segalovich I. «A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine». [MLMTA-2003]

AOT – Автоматическая обработка текста

Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг интересов разработчиков в основном входит анализ русского языка.

Подход этой группы является скорее консервативным, чем революционным. Участники группы не высказываются в поддержку общей «суперидеи», объясняющей сущность естественного языка. Вместе с тем они считают, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру.

Начиная с 2002 года, группа АОТ выкладывает свои разработки с лицензией LGPL. Теперь каждый может бесплатно использовать эти библиотеки в своих программах, в том числе и в коммерческих приложениях.

Заключение.

В заключение следует сказать, что Корпус дает огромные возможности для изучения русского языка и понимания закономерностей его развития. В своей преподавательской деятельности нами уже широко использовались материалы Корпуса, а в будущем планируется создать методическое пособие для студентов-иностранцев и преподавателей русского языка как иностранного на основе материалов НКРЯ и корпусов других языков (в частности, английского, немецкого, польского, китайского, персидского).

Интернет ресурсы в предметной области исследования.

  1. www.ruscorpora.ru
  2. www.aot.ru
  3. www.wikipedia.org
  4. www.corpora.iling.spb.ru
  5. www.corpus.leeds.ac.uk
  6. www.studiorum.ruscorpora.ru
  7. www.sara.natcorp.ox.ac.uk
  8. http://linguistlist.org/sp/Texts.html
  9. http://www.corpuslab.com/
  10. http://dict.ruslang.ru/
  11. http://www.corpora4learning.net/resources/bibliography.html

Действующий личный сайт в WWW (гиперссылка).

http://vlaznuknatallia.narod.ru/