Смекни!
smekni.com

Дистрибутивный анализ (стр. 4 из 6)

Объекты языка Объекты метаязыка Типы дистрибуций
К.а.р. высказываниеСегменты Элементы

Элементы Классы элементов

+ +окружения Дистрибуция
Свободное варьированиеКонтрастная дистрибуцияДополнительная дистрибуция

Принципы дистрибутивного анализа, как показывает их рассмотрение, представляет собой стройную систему операций, осуществляемых в терминах определенного метаязыка. Они описывают процесс лингвистического анализа в виде алгоритма. Именно эта особенность дистрибутивного анализа привлекает внимание специалистов, которые занимаются дешифровкой неизвестных систем письма и языковых кодов. Были сделаны попытки построить машинные алгоритмы выделения гласных и согласных в тексте на основе дистрибутивных признаков в сочетании со статическими.

Различают четыре типа дистрибуций, эти отношения можно представить рисунками:

1

Дополнительная дистрибуция.

В такой дистрибуции находятся варианты одной фонемы: каждый из них встречается лишь в тех позициях, в которых не встречается другой. Например: в русском языке фонемы [ы] и [и].

2

Контрастная дистрибуция. В такой дистрибуции находятся варианты разных фонем. Например: в русском языке [а] и [о] в словах ток и так, том и там, сон и сан – совпадающие части дистрибуции (на схеме – часть, образованная пересечением кругов); он, вон, кто с одной стороны, и Анна, ванна, стена – с другой стороны, - несовпадающие части дистрибуции.

3

Дистрибуция свободного варьирования. В подобной дистрибуции находятся свободные варианты одной и той же фонемы, например: було[ч]ная и було[ш]ная.

4

Дистрибуция частичной эквивалентности. В подобной дистрибуции находятся, например, русское взрывное [г] (на схеме – большой круг) и русское фрикативное [γ] (меньший круг), т.к. в норме русской речи оно может быть свободным вариантом взрывного [г] лишь в части окружений последнего – в словах Бога, благо и производных от них.

В дистрибутивном анализе формальные процедуры занимают весьма скромное место. Как следует из вышеприведенной схемы анализа, начальные операции сегментирования носят произвольный характер. Обращение к неявным сведениям о языке, которые лингвист привлекает извне (пользуясь интуицией или дополнительными данными о тексте), допускается на каждом этапе описания.


Дистрибутивные методы в фонологии.

Корпус материала предстает вначале как непрерывный поток конкретных актов речи. К.а.р. – это последовательности (цепочки) звуковых сегментов. Границы сегментов произвольны, поскольку у нас нет средств для указания, как точно разделить поток звуков на отрезки, которые в дальнейшем соответствовали бы его членению на фонемы. Последующие процедуры будут изменять эту сегментацию до тех пор, пока границы сегментов не совпадут с границами отдельных фонем.

ПРОЦЕДУРЫ ОТОЖДЕСТВЛЕНИЯ I.

Эти процедуры применяются, чтобы установить лингвистическую эквивалентность или неэквивалентность звуков-сегментов и перейти от уникальных неповторяющихся сегментов к меньшему числу элементов. Вначале рассматриваются пределы вариативности (различности) отдельных звуков в повторяющихся высказываниях. Имея запись какого-то высказывания, разделенного на сегменты, можно повторить его снова и записать. Говорят, что каждый сегмент одного повторения свободно подставляется вместо соответствующего сегмента другого повторения, или является его свободным вариантом.

Если высказывание АВС есть повторение высказывания А’В’С’, тогда А ~ А’, В ~ В’, С ~ С’.

После этого эксперименты с субституцией звуков проводятся в различающихся высказываниях. Например, проверим, можно ли подставить | б | из бутыль на место | б | в булка. Повторное произношение этих высказываний с заменой звуков будет подобно первому их произношению.

В общем случае берем высказывание с сегментами DEF, конструируем высказывание, составленное из DA’F, где А’ есть повторение А из некоторого высказывание АВС. Если информант воспринимает DA’F, как повторение DEF и если можно также построить E’BC (Е’ есть повторение Е), эквивалентное АВС, тогда А и Е (и А’ и Е’) взаимоподставимы, т.е. являются свободными вариантами друг друга (A ~ E).

Для Дескриптивного анализа важно установить не только эквивалентность некоторых сегментов друг другу, но также определить и неэквивалентность, неподставимость сегментов. Эксплицитно описать различия не менее важно, чем описать сходство, а чтобы иметь средства для различения одних высказываний от других, необходимо определить систему различительных элементов для многих высказываний. Так, чтобы различать дом, дол, дел, мы должны знать несколько различительных признаков между неэквивалентными высказываниями (дом отличается от дол третьим элементом, а от дел - вторым и третьим).

Представление речи как последовательности или аранжировки отдельных элементов связано с выделением звуковых различий между парой неэквивалентных высказываний.

Анализ пар неэквивалентных высказываний оказывается важным при установлении неэквивалентных звуков-сегментов. В особенности надежное определение разных звуков дают так называемые минимально различающиеся пары высказываний типа (дом : том), отличительными признаками которых являются одиночные звуковые сегменты. Эти сегменты | д | и | т | в данном случае имеют одинаковые окружения. Однако подстановка одного из них на место другого приводит к контрасту смысла, т.е. невозможна. Контрастирование смыслов высказываний свидетельствует о том, что различение | д | и | т | существенно для русского языка, т.е. что данные сегменты не эквивалентны, а различны.

В итоге определения эквивалентности и неэквивалентности сегментов получаем классы звуков-сегментов, или фонемные элементы. Случаи свободного варьирования исключены в данном перечне фонемных элементов. Так, если признаны эквивалентными высказываний |дарога | и | дароγа |, то соответственно перестают различаться звуки-сегменты | г | и | γ |. Они получают единое обозначение в виде фонемного элемента | г |. Приведем другие пары сегментов, которые могут считаться свободными вариантами. В русском языке допускается параллельное произношение слов | тэрмос | и | т’ермос |, | критэрий | и | крит’ерий | и т.п. Эти различия носят стилевой характер и не затрагивают смыслового содержания слов, ими можно пренебречь в целях компактного описания текстов. Тогда необходимо признать следующие эквивалентности: | т | ~ | т’ |, | э | ~ | е |. Такое «уравнивание» звуков имеет место только для данных высказываний, а не для любых их употреблений. Так | т | и | т’ | в тапка и тяпка невозможно считать эквивалентными.

Таким образом, получив перечень фонемных элементов, можно перезаписать исходные высказывания, устраняя несущественные для дальнейшего анализа различия звуковых признаков в эквивалентных актах речи. Все высказывания теперь расчленены на фонемные элементы, в каждом из них ровно столько единиц, сколько необходимо для различия высказываний, не являющихся повторениями друг друга, и не более.

Наряду с фонемными элементами, имеющими природу линейных сегментов, в высказываниях выделяются суперсегментные элементы. Такие звуковые черты речи, как тон, последовательность ударений, интонация, рассматриваются как «вторичные фонемы», «просодемы» (анг. contours). Они как бы размазаны по всей длине высказывания. Дистрибутивные методы выявляют эквивалентность высказываний по суперсегментным признакам безотносительно к их сегментному составу. Так парные высказывания с одинаковыми сегментами могут быть различными по смыслу и суперсегментным элементам: Он идет? : Он идет. Для каждого языка определяется весь набор просодем, каждая из них обозначается определенным символом | ? |, | ! |, | , |, | . | и т.д. и записывается после фонемных элементов.


ПРОЦЕДУРЫ ОТОЖДЕСТВЛЕНИЯ II (СОБСТВЕННО ФОНОЛОГИЯ)

Имея в качестве данных высказывания, записанные как цепочки элементов, переходим к рассмотрению их сочетаемости. Задача состоит в изучении закономерностей появления фонемных элементов в тексте и нахождении дистрибутивно эквивалентных элементов, которые можно сгруппировать в классы.

Представление актов речи в виде элементов и «просодем» имеет недостатки:

1) Каждый элемент характеризуется конкретными ограниченными окружениями,

2) Количество элементов велико.

Необходимо найти способы для типизации элементов и сокращения тем самым их первоначального числа. Условием для этого является выявление дополнительной дистрибуции.