«Использование ИТ в корпусных исследованиях» (стр. 2 из 3)

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает, прежде всего, период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Именно поэтому Национальный корпус русского языка не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные, и журнальные статьи разной тематики (от общественно-политических до спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку, и дневники. В корпус попадают образцы практически любого существующего в русском языке письменного дискурса: от статьи современного музыкального критика до инструкции по уходу за кактусами. Более того, составители корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке необходимо еще в большей степени расширить рамки корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа ведется.

Здесь нельзя не сказать еще об одном типе текстов, активно используемых в Корпусе уже на данном этапе работы. Это тексты так называемой «электронной коммуникации»: переписка по электронной почте, а также всевозможные чаты, форумы, общедоступные электронные дневники и др. В такого рода текстах мы имеем дело фактически со спонтанным письменным самовыражением, дающим очень своеобразный гибрид устной и письменной речи. Конечно, даже в форумах и блогах люди продолжают писать не совсем так, как говорят, но дистанция между письменной и устной речью здесь во много раз меньше. Этим электронная коммуникация и привлекательна для лингвистов: какие-то языковые явления встречаются только или преимущественно в данных текстах. Впрочем, нельзя не заметить, что тексты электронной коммуникации наиболее сложны для обработки и разметки, потому что пишущие в сетевой среде чувствуют себя более свободно не только в отношении языка, но и в отношении норм общепринятой орфографии. Орфографическая вариативность электронных текстов возрастает на порядок, в них широким потоком вливаются разговорные дублеты, произносимые на месте литературных, но обычно не отражаемые на письме — такие, как ща (и щас), сёдни, чё, тока, ваще, кто-нить — и многое другое (русистам давно известное). Интересно, что пишущие часто прибегают к искажению орфографии сознательно, в целях языковой игры. Более того, кажется, что массовые игры с орфографией (которые заслуживали бы отдельного обстоятельного рассказа) как раз и возникли именно в электронной среде как специфическое средство выразительности — если угодно, художественный прием. Существует даже специальная мода, вышедшая из нескольких сетевых сообществ и распространившаяся по всему русскому Интернету (например, орфографические клише типа пеши исчо или аффтар) — своеобразный код, по которому посвященные узнают друг друга. Но, конечно, привлекают электронные тексты далеко не только своей орфографией и раскованным синтаксисом, но и лексикой. Это (если не считать некоторых молодежных периодических изданий) один из самых надежных источников для изучения современного сленга. Где еще можно в таком количестве (и в таких естественных контекстах) встретить всевозможные рулит, зажигает, не катит, колбасит, тащится и т. д.

Из сказанного выше видно, что национальные корпусы активно используют электронные тексты. Это также одна из причин того, почему в Национальном корпусе русского языка художественные тексты представлены в большом количестве, но не доминируют. Интересно, что в корпусах европейских языков эта доля еще более низкая и, как правило, не превышает 20 процентов, так что Национальный корпус русского языка все равно остается одним из самых «литературоцентричных».

Все это позволяет любому человеку искать любые слова или сочетания слов в определенной грамматической форме или просто определенные грамматические формы. Говоря техническим языком, возможен поиск по морфологическим параметрам. Кроме того, поиск возможен не только по всему корпусу, но и по определенному подмножеству текстов, выбранному пользователем: например, тексты определенного автора, определенного периода, определенного жанра и т. п. (в любых комбинациях: например, тексты о спорте, написанные женщинами после 1995 года).

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

· глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

· параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

· корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

· корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

· обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

· корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Области применения корпусов.

Отчасти на этот вопрос ответ был уже дан выше. Прежде всего, корпус нужен — даже не просто нужен, а необходим — профессиональным лингвистам, тем, кто, так или иначе, имеет дело с фактами языка, а значит, должен эти факты собирать и систематизировать. Для лингвистов корпус — как минимум неоценимый инструмент, сокращающий затраты времени на техническую работу. Корпус — это также фактически справочно-информационная система по современному русскому языку, позволяющая получать ответы на самые неожиданные вопросы, — более того, позволяющая ставить новые проблемы, которых лингвистика прошлого почти не касалась.

Вот один из примеров, взятых из недавней исследовательской практики. На приведенный вопрос лингвист может ответить с помощью Корпуса буквально за считанные минуты.

В русском языке есть глагол несовершенного вида реагировать. Его коррелятами совершенного вида могут быть несколько разных приставочных глаголов: прореагировать, отреагировать, среагировать (явление нередкое, особенно среди заимствований). Какой из этих приставочных коррелятов употребляется чаще? К каким контекстам тяготеет каждый из этих приставочных коррелятов (например, какой из них охотнее сочетается с наречием быстро)? Наконец, в какой последовательности они появляются в современном языке — одновременно или по очереди? Различается ли частота их употребления в разные периоды?