Смекни!
smekni.com

Итоги (истории синтеза разумноорганизованных языков) 6 (стр. 9 из 21)

1. сколько можно?

2. сколько нужно обычному языку?

3. сколько нужно ОУ языку?

3.3.1 СКОЛЬКО МОЖНО.

Посмотрим, сколько и каких слов ориентировочно можно построить, комбинируя сочетания из пяти букв (считая пока сочетания Аа и аА разными).

С Г СГ ГС СГС ГСГ ССГ ГСС
Вариант 10 - 18 согласных [С] и 10 гласных [Г]
324 180 3240 3240 58320 32400 58320 58320
100 1800 1800 32400 18000 32400 32400
32400 32400 583200 324000 583200 583200
32400 583200 324000 583200 583200
Вариант 15 - 18 согласных [С] и 15 гласных [Г] ( включая ГЙ )
С 324 270 4860 4860 87480 72900 87480 87480
Г 225 4050 4050 72900 60750 72900 72900
СГ 72900 72900 1312200 1093500 1312200 1312200
ГС 72900 1312200 1093500 1312200 1312200

Число возможных слов по числу букв. Без учета ГГГ и ССС.

Букв (схема) 1 (С+Г) 2 (СС+ГС+СГ+ГГ) 3 (ССГ+СГС+ГСС+ГГС+ГСГ+СГГ)
Вариант 10Г 28 784 15120
Вариант 15Г 33 1089 26730

Число односложных ( не более чем трехбуквенных ) слов по варианту 10 = 28+2*180+3*3240=10'108, а по варианту 15 = 33+2*270+3*4860=15'153

При этом еще не учтены комбинаторные возможности тона и Р_знака (мягкость и долгота). Вспомним, в нашем варианте - 20 письменных и еще больше устных Г.

Следовательно, потенциал односложного языка избыточен, т.к. уже число 3х-буквенных слов (10'108) втрое превосходит 95% рубеж понимания. Но "можно", конечно, не значит "нужно"! Да и бумага "всё стерпит". Часть буквосочетаний трудно произносимы, а потому не нужны. Кроме того, часть слов должно пропасть в пустую (неполные классы!).

Однако, вряд ли язык должен быть односложным...

3.3.2 СКОЛЬКО НУЖНО ОБЫЧНОМУ ЯЗЫКУ?

И все же, а сколько нужно? Для этого рассмотрим исследования по одному из спонтанносформировавшихся - русскому языку. В первом приближении эти данные будут одинаковы и для остальных.

Вот что говорит нам частотный словарь Засориной Л.Н. (М 1977).

Из 1056382 (1 млн) словоупотреблений (около 40тыс слов) следующие 10 слов лидируют:

Номер Слово Словоупотреблений Личный % Общий %
1 В,во 42854 4.06 4.06
2 И 36266 3.43 7.49
3 Не 19288 1.83 9.32
4 На 17652 1.67 10.99
5 Я 13839 1.31 12.30
6 Быть 13307 1.26 13.56
7 Что 13185 1.25 14.8
8 Он 13143 1.24 16.05
9 С,со 12975 1.23 17.28
10 А 10719 1.01 18.29

Итак, первые 10 слов еще имеют личный % больше 1%, где-то на 103-ем слове переходится рубеж 0.1% (общий % первой сотни - 41,36%)

Вот эти слова:

как по же это весь который вы за бы ты то от,ото к,ко все мочь мы у один этот из,изо для она свой такой они так сказать но о,об,обо тот вот только еще говорить наш да себя знать год его нет большой до когда уже если дело другой чтобы или сам время какой идти ну новый самый человек мой люди первый рука кто стать жизнь видеть под надо ни очень без день два более при даже хотеть раз видать сейчас теперь товарищ здесь ли должен советский там работа думать глаз страна ведь земля ...

Еще несколько цифр характеризующих строй русского языка:

Рубеж 70% перейден на 1225 словах (100% - 39268, 95% - 12885, 50% - 230) (4%-1, 11%-4, 25%-22, 33%-44, 41%-100, 59%-500)

Итак, в первом приближении, ответ может звучать так: Для понимания 70% спонтанносформировавшегося языка необходимо 1225 слов. А для разумноорганизованного? Меньше, но об этом чуть позже.

Конечно, для других типов текстов (а тем более языков) эти цифры - другие. (м Частотный словарь русского литературного языка, Э.А.Штейнфельд, Таллин, 1963, 400 тысяч словоупотреблений. Первые 10 слов: и, в, на, не, он, я, что, с, этот, быть). Но характер строя будет таким же! И это главный ориентир к выбору слов для нашего языка.

Я считаю, что эволюция нашей цивилизации увеличивает долю экономических и технических знаний в общем объеме знаний. Т.е. сжатая и действительно структурированная информация патентов, законов, и инструкций все чаще встречается людям.

Поэтому, особо существенен следующий вывод авторов (стр.929): "Следовательно, наибольшей частотностью обладают "грамматические" слова, появление которых обусловлено строем языка, затем идут слова, отражающие тематику текстов." Подчиняясь этому выводу и учитывая предназначение и развитие языка, я думаю, лучше (Критерий "ЛУЧШЕ" - субъективен) отдать самые короткие слова и самые сильные связи самым распространенным, но не отдельным понятиям, а структурам! В том числе алгоритмическим языкам, цифрам, математическим операциям и конечно грамматике.

Так все же, сколько нужно? И опять обратимся к еще более ценному труду под редакцией Засориной Л.Н. (Образование употребительных слов русского языка М 1979). Более ценного, потому что в первом труде рассмотрено "Как", а в этом проанализировано "Почему", что и необходимо нам для синтеза "Зачем". И что же там?

Вот трудный путь анализа: 1056382 словоупотребления разделяются на 39268 слов или лучше не так. Миллион словоупотреблений, 40 тысяч слов, после фильтрации 32 тысячи гнездующихся, 4 - нет, 3.2 - отброшены. Далее 32 тысячи содержат 2600 гнезд. Причем, 1600 - 70% всего словаря, имеют частоту от 3х до 100. 500 гнезд - 42%, 100 гнезд - 26%. Точнее 26.6294% или 266682 словоупотребления, что явно больше тысячи слов.

Среди этих 100 гнезд лидируют следующие десятки:

Номер Лидеры словоупотреблений Лидеры продуктивности
Слово Дериватов Общее Личный % Слово Дериватов Общее Личный %
1 Быть 128 17070 1.62 Стоять 284 8583 0.81
2 Стоять 284 8583 0.81 Водить 256 5747 0.54
3 Иметь 231 8325 0.79 Иметь 231 8325 0.79
4 Идти 36 7443 0.71 Ход 196 7285 0.69
5 Ход 196 7285 0.69 Вертеть 193 3078 0.29
6 Делать 153 6103 0.58 Лежать 179 3662 0.35
7 Знать 133 5963 0.56 Дать 169 4890 0.46
8 Водить 256 5747 0.54 Жить 158 3930 0.37
9 Мочь 133 5702 0.54 Род 157 4121 0.39
10 Стать 120 5540 0.52 Делать 153 6103 0.58
Итого 77761 7.36 55724 5.28

Итак, во втором приближении, ответ может звучать так: Для понимания 70% спонтанносформировавшегося языка необходимо 1600 гнезд. Но это больше 1225 слов? Да, но ведь цели исследователей были другими. И они с ними хорошо справились. Еще раз косвенно подтвердив соотношение 1000 слов и 70%.

3.3.3 СКОЛЬКО НУЖНО ОУ ЯЗЫКУ?

А для разумноорганизованного? В 5-10 раз меньше, в зависимости от разумности организации. Слишком сложно сильно превышать цифры продуктивности гнезд типа 284. И даже средние для первой сотни - 89. Правда, в разумноорганизованном Воляпюке этот показатель около 700! Но крайности и не нужны. Как этого достичь? Есть два главных пути: 1й - отремонтировать и использовать закономерности существующего языка и 2й - создать новые.

3.3.3.1 "Ремонт" закономерностей существующего языка.

Рассмотрим "Словообразовательный словарь русского языка" Тихонов А.Н. М 1990г. В нем лидирует корень нес - 504 порождаемых слова. Попытаемся уменьшить объем запоминаемого.

Вначале, рассмотрим суффиксы существительных: нос/чик/итель/ильщик + нес/ун + водонос + меченос/ец. Во всех этих случаях речь идет о субъекте выполняющем действие и все 6 способов практически эквивалентны. Можно было бы использовать любой, но один и не запоминать еще и женские формы этих суффиксов. Если взять другой корень "вести", то с заменой корневой согласной есть еще пара суффиксов вед/ущий и вод/ящий.

Затем, рассмотрим приставки глаголов. По оттенку слов, они разделяются на две группы: пространственные и временные. Часть из них аналогичны предлогам. От/до/в/за/на/под/при/с/у/нести. Вторая часть воз/вз/ (низ - отсутствует) /об/пере/про/раз/нести - также напоминает предлоги. Воз - вверх, о, об - вокруг, пере - над, про - сквозь, раз - обратная для с, сверх – над, а/анти - напротив. Временной смысл приобретается при изменении корневых согласных: до/за/ нашивать, или многократность пере/носить, или кратковременность по/носить, а также из/недо или употребляемые с другими глаголами (водить) сопро/препро/выпро и т.д.

С.ОУ целесообразно (там, где можно) сделать приставки и предлоги аналогами, вплоть до введения новых ранее не применявшихся. Так под предлоги времени ввести приставки к глаголам: начала действия, кратковременности, ускорения (усиления), многократности, замедления, (ослабления), долговременности, окончания. Под приставки псевдо, квази – ввести предлог со значением “похожий на” (обычно реализуемый словами “кажется”, “вроде бы” и т.п.)