Интерактивное исследование неколичественных данных: методика и инструментарий

В этой статье рассматривается методика интерактивного исследования неколичественных данных, извлекаемых из исторических источников. Предлагаемый подход предполагает активное участие исследователя на каждом шаге компьютерного анализа.

Е.Б. Белова

В этой статье рассматривается методика интерактивного исследования неколичественных данных, извлекаемых из исторических источников. Предлагаемый подход предполагает активное участие исследователя на каждом шаге компьютерного анализа. Необходимость такого подхода может быть обоснована следующими двумя утверждениями, касающимися характера исторических данных и процесса их анализа.

Во-первых, неколичественные данные по своему происхождению - это, вообще говоря, данные, извлекаемые из текстовых документов, а следовательно, семантически плохо определенные; их структура не обязательно является регулярной. На формальном уровне единицей анализа является поименованная сущность (объект данных), описываемая произвольным набором элементарных свойств (качеств). Другими словами, сущность определяется как подмножество во множестве свойств/качеств. Свойство, в свою очередь, определяет, посредством своей встречаемости, группу сущностей, и следовательно, может рассматриваться как подмножество во множестве сущностей. Таким образом, мы имеем симметрию, позволяющую обрабатывать сущность и ее свойства схожим образом: рассматривая набор данных как два множества, описываемых зависимостью "многие-ко-многим". Однако, надо отметить, что хотя такая симметрия не всегда осмыслена на уровне интерпретации, она всегда присутствует с формальной точки зрения. Поэтому предлагаемый способ анализа существенным образом опирается на этот факт. На практике набор данных существует как последовательность записей, каждая из которых описывает один объект (определяет его имя и набор качеств). Качества могут принадлежать к различным группам. Эти группы могут служить аналогами переменных ("полей" - в терминах баз данных), а качества, им принадлежащие - значениям переменных. Но группы, с одной стороны, могут иметь более одного значения для каждой записи, а с другой стороны, их существование в общем случае необязятельно. Более того, группы качеств могут существовать динамически и приобретать различный смысл в процессе анализа.

Во-вторых, на практике очень сложно, а иногда даже невозможно выбрать a priori верный алгоритм анализа сложных данных. Поэтому предлагаемый в данной статье программный инструмент QualiDatE [1] поддерживает гибкий механизм для создания пользовательских стратегий анализа.

Основной операцией QualiDatE является кластеризация (классификация). Однако, здесь смысл этой процедуры является более широким, чем в традиционном анализе данных: контролируемый пользователем процесс кластеризации позволяет изучать характеристики набора данных с различных точек зрения и в различных измерениях поскольку и объекты данных, и их свойства могут быть классифицированы. Каждый отдельный акт классификации определяется следующим образом:

указываются эталонные объекты, задающие центры искомых классов;

путем введения порога близости (сходства) определяется насколько другие объекты из исследуемого набора должны быть близки к эталонам;

указывается тип классификации. QualiDatE поддерживает два основных типа близости: симметричную и асимметричную:

На первый взгляд, асимметричная близость может выглядеть странно, поскольку мы привыкли рассматривать сходство как симметричное отношение. Смысл ее использования состоит в том, что у нас должна быть возможность поставить такие задачи как, например, "найти кластер, в котором бы свойства данного объекта доминировали" или "определить, до какой степени данный объект похож на другие объекты из набора данных" - другими словами, оценить эффект "личности" и "толпы" соответственно. В указанных случаях использование асимметричной меры близости более адекватно.

Симметричная близость (1) в случае объектов данных есть ни что иное, как доля общих свойств среди общего набора свойств двух обектов. Асимметричная близость (2) есть число общих свойств относительно числа всех свойств какого-либо объекта. Оба выражения верны, когда веса веса всех свойств равны. Однако, в QualiDatE заложены механизмы манипулирования весами. Если какое-либо свойство с точки зрения исследователя является более важным в сравнении с другими, то ему может быть присвоен более высокий вес. Вследствие этого близость становится условной мерой, отражающей неодинаковую значимость свойств объектов. Несмотря на отсутствие ограничений на значение веса, оба типа мер близости всегда принимают значения в диапазоне от нуля до единицы.

В то всемя как близость между объектами довольно естественно интерпретируется как количественная похожесть (например, похожесть социальных характеристик двух персон), близость свойств может интерпретироваться как корреляционная мера. Например, асимметричная мера близости свойства "грамотный" и "крестьянин" в некотором воображаемом наборе данных, содержащем персональную информацию (в случае равных весов) определяет долю грамотных людей среди крестьян. Или, в вероятностных терминах - это эмпирическая условная вероятность свойства "грамотый" при условии наличия свойства "крестьянин", которая равна отношению частоты встречаемости свойств "грамотный" и "крестьянин" к частоте встречаемости свойства "крестьянин". Однако, в случае неравных весов, когда, например, некоторые лица не могут быть определенно названы грамотными, близость теряет свой очевидный смысл. Однако, она сохраняет функцию корреляционной меры, т.е. отражает степень согласованности проявления свойств.

Стоит отметить, что в нашем методе не имеет значения, обладают ли сравниваемые объекты данных одинаковым числом свойств, или нет[2].

Рассмотрим теперь уже упоминавшиеся выше типы классификации, поддерживаемые программой QualiDatE.

Рис. 1а Разбиение типа покрытие.

Покрытие. В результате этого типа классификации все объекты, расположенные внутри указанных границ, включаются в один кластер. При этом кластеры могут пересекаться, а объекты, не попавшие ни в один из кластеров, образуют так называемый класс остатков (рис. 1а).

Рис. 1б Разбиение с ограничением.

Разбиение с ограничением отличается от покрытия тем, что области пересечения разбиваются в соответствии с максимальной мерой близости (рис. 1б).

Рис 1в Полное разбиение.

Полное разбиение ведет к тому, что каждый элемент данных обязательно попадает в какой-либо класс[3] (рис. 1в), т.е. от предыдущего оно отличается невозможностью появления класса остатков.

В случае покрытия и разбиения с ограничением используется пара чисел (верхний и нижний пороги), изменяющихся в диапазоне от 0 до 1, и определяющих область кластера. Объект будет включен в класс, если его близость до эталона попадает в заданную порогами область. Если верхний порог равен единице, то будет генерироваться класс похожих объектов. В этом случае нижний порог играет роль критического уровня этой похожести. Однако, в общем случае, исследователь может управлять парой пороговых значений и получать кластеры, имеющие самый разный смысл, вплоть до кластера максимально непохожих на эталон объектов. И конечно, всегда остается возможность установить пару порогов на граничные значения (нижний - на ноль, верхний - на единицу), в результате чего все объекты набора данных будут включены в один класс. Выбор порогов до некоторой степени эквивалентен выбору уровня значимости в статистике, поскольку он так же базируется на соображениях здравого смысла и интуиции эксперта.

Полученные в результате классификации группы объектов могут быть "вырезаны" в отдельные наборы данных и обработаны независимо.

Рис. 2 Концептуальный дизайн программного интерфейса

Интерфейс программы QualiDatE нацелен прежде всего на поддержку интерактивного анализа данных. Концептуальный дизайн программного интерфейса показан на рисунке 2.

Набор данных, который может быть обработан параллельно в двух измерениях (как набор сущностей, и как набор качеств/свойств), предстает перед пользователем в различных видах. Это могут быть исходные данные, близости, веса, статистика, меры принадлежности. Смысл первых трех видов (представлений) достаточно очевиден: статистика представляет числовую информацию о наборе данных (как то: метрики объектов, частоты их встречаемости и т.д.); представление мер принадлежностей играет роль своего рода теста, который может производиться до начала собственно классификации, обнаруживая "ближайшего соседа" для каждой сущности.

Конкретный вид каждого представления зависит от текущего состояния, т.е. от того, какой именно фильтр был выбран: набор указанных эталонов, выборка групп, которые должны быть отображены и активная схема классификации. Последнее подразумевает, что в любой момент могут сосуществовать четыре классификационных схемы - по две на каждый тип сущностей; при этом одна для каждой пары становится неактивной (скрытой).

Таким образом, исследуемом наборе данных присутствует некоторое число виртуальных уровней информации. Упоминавшиеся ранее стратегии анализа реализуются пользователем (исследователем) как последовательные шаги с одного уровня на другой или их комбинации. При этом возможны различные сценарии. Некоторые из них, которые кажутся наиболее типичными будут разобраны ниже с формальной точки зрения.

Три сценария анализа.

Первый сценарий (см. рис. 3) предполагает, что исследователь имеет представление о том, какие объекты в наборе данных являются типичными - эталонными в терминах решаемой задачи. Другими словами, исследователь знает какого рода классификацию надо применить к данным. Тогда формально задача формулируется следующим образом: найти группы объектов, представляющие искомые классы. Первым шагом в решении такой задачи будет указание известных специфичных объектов - назначение их эталонами. В простейшем случае может быть использовано полное, жесткое разбиение. Вторым и поледним шагом будет сохранение статистической информации для найденных классов. Если же задача выглядит более сложной, например, предполагается существование объектов, выпадающих из общей схемы, или накладываются жесткие требования на однородность искомых классов, то на втором шаге предлагается использовать просмотр значений принадлежности к классам или близостей. Эти возможности нацелены на то, чтобы выбрать разумный для исследуемого набора данных порог похожести, затем применить разбиение с ограничением или покрытие. Статистическое представление результатов в этом случае может быть финалом, а может и служить базой для последующего пересмотра параметров классификации.

Рис. 3. Схема исследования в соответствии с первым сценарием анализа.

Второй сценарий описывает случай, когда существует некая внешняя (априорная) классификация, определяемая относительно узким набором свойств (см. рис 4).

Тогда задачу можно сформулировать следующим образом: классифицировать объекты по всем другим свойствам в целом и сравнить априорную и апостериорную схемы. Следовательно, мы должны начать с указания свойств, определяющих внешнюю классификацию в качестве эталонных и классифицировать весь набор свойств. В результате этого шага выявляются группы свойств, коррелирующих с эталонными. Теперь в нашем распоряжении имеются группы основных свойств, которые могут подсказать нам, каким образом следует выбрать эталоны среди объектов. На этом шаге разумно установить нулевые веса эталонным свойствам с тем, чтобы они игнорировались при классификации объектов, и повысить веса основных свойств, отличных от эталонных. Теперь классификация даст нам набор эталонных объектов и работа может быть продолжена в соответствии с первым сценарием.

Исследование свойств полученных групп и сравнительная групповая статистика помогает оценить качество классификации. В результате может быть принято решение изменить параметры классификации. Или, если классификация представляется неудовлетворительной, найденные классы и/или объекты, которые не попали ни в один класс, могут быть выделены в новые наборы данных, и для каждого из них всю процедуру можно повторить с самого начала.

Рис. 4. Схема исследования в соответствии со вторым сценарием анализа.

Третий сценарий анализа применим в ситуации, когда ничего определенного об исследуемом наборе данных не известно. В таком случае задача не может быть сформулирована более конкретно, чем "изучить набор данных" (см. рис 5а).

Рис. 5а. Схема исследования в соответствии с третьим сценарием анализа.

Сеанс работы можно начать с просмотра частот свойств. Основываясь на них, пользователь может выбрать несколько наиболее часто встречающихся свойств и принять их за эталонные. Дальнейшая последовательность работы примерно совпадает со вторым сценарием. Альтернативное решение состоит в выборе объектов, содержащих наиболее часто встречаемые свойства, определение их в качестве эталонных и переходе к работе по первому сценарию.

Рис. 5б. Схема исследования в соответствии с третьим сценарием анализа.

В качестве еще одного подхода (см. рис 5б) можно предложить начать сеанс работы с выбора одного объекта в качестве эталона случайным образом. Затем просмотреть близости до него с тем чтобы найти самые непохожие на него объекты, которые потенциально могут служить дополнительными (альтернативными) эталонами. Такого рода предварительный анализ можно продолжать до тех пор, пока не сформируется разумный набор эталонов. После этого снова вступает в действие первый сценарий.

Набор возможных стратегий исследования не ограничивается тремя вышеописанными сценариями. Следует указать по крайней мере еще на три важных применения QualiDatE.

Близость к эталону можно рассматривать как меру принадлежности в смысле теории нечетких множеств. Если исследователь достаточно хорошо знаком с понятиями этой теории, то он может оперировать непосредственно со значениями близости и создавать нечеткие классификации, не используя классификационных функций программы. Кстати говоря, классификация типа покрытие, как она реализована в программе, имеет своим результатом то, что в теории нечетких множеств называется альфа-сечением нечеткого множества.

QualiDatE может использоваться в качестве инструмента для построения кросс-табуляций. Ее отличие от традиционных процедур кросс-табуляции заключается в том, что благодаря определенной взаимозаменяемости понятий группы и сущности, QualiDatE позволяет производить кросс-табуляцию для составных свойств - иначе говоря, для любых комбинаций признаков.

QualiDatE может использоваться как своего рода нечеткая база данных. Выбор объектов на основе близости до эталона может рассматриваться как нечеткий запрос - что-то вроде "найти все, что похоже на это до такой-то степени". Сама эта степень задается установлением весов и порогов. В частном случае нечеткость запроса может быть сведена к нулю, так что его результатом будет являться выборка, основанная на точном совпадении некоторых определенных значений.

* * *

Перейдем к примеру исследования, реализующего то, что выше было описано как второй сценарий.

Предлагаемый к рассмотрению набор данных содержит сведения о членах 1-ой Государственной Думы 1906-ого года. Все данные в нем являются качественными и были извлечены из текстовых источников, таких как биографии, справочники и т.п. Набор данных содержит сведения о фракционной принадлежности каждого депутата и некоторые его социальные характеристики[4].

Рассматриваемые данные используются для выяснения того, существовало ли какое-либо соответсвие между принадлежностъю к фракции и социальным профилем депутата. В центре исследования стоят две наиболее крупные фракции 1-ой Государственной Думы - трудовики и кадеты.

Соответствующая формальная гипотеза, которая должна быть верифицирована, формулируется следующим образом:

cуществуют относительно однородные (в терминах социальных характеристик) группы лиц;

cуществует соответствие между этими группами и принадлежностью к фракции. Т.е. существуют "типичный трудовик" и "типичный кадет", которые представляют ядра своих фракций.

Формальная задача разбивается на следующие четыре шага:

найти типичные характеристики для каждой фракции;

найти эталонных депутатов;

построить кластеры депутатов, игнорируя их фракционную принадлежность;

исследовать пересечение полученных кластеров и подмножеств, задаваемых значениями "трудовик" и "кадет".

При решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.

Выполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (являющихся в этом случае эталонными). Поскольку нашей целью является нахождение свойств, характерных для каждой из фракций и только для нее, то разумно использовать симметричную близость. В принципе, можно использовать и пару асимметричных близостей. При выборе типа классификации мы остановимся на покрытии, поскольку нам необходимо видеть, пересекаются ли два искомых класера (делят ли они некоторые свойства). Таблица 1 представляет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. Все показанные свойства, кроме "русский", характерны только для одной фракции.

Таблица 1. Близости основных свойств до эталонных.

Эталоны Свойства Трудовик Кадет
трудовик трудовик 1.000 0.000
русский 0.199 0.242
общее образ. 0.242 0.072
начальое образ. 0.247 0.053
крестьян.происх. 0.305 0.096
крестьянин 0.296 0.071
"земледелец" 0.223 0.070
кадет зарплата 0.172 0.351
русский 0.199 0.242
юридич. образ. 0.037 0.219
высшее образ. 0.068 0.438
дворянин 0.005 0.307
дворянское происх. 0.015 0.226
кадет 0.000 1.000

Две колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд. Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию своих источников. Например, слово "крестьянин" в действительности может обозначать различные свойства в зависимости от того, используется ли оно для указания сословия, происхождения или занятия. Корреляция между последними тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".

На втором шаге мы переключаемся на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, дворянин из дворян, жалование как источник дохода). Затем (третий шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом случае должна использоваться асимметричная близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено влияние "излишних" характеристик. Классификация должна быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.

Таблица 2а. Распределение фракционной принадлежности среди кластеров "Типичный кадет" и "Типичный трудовик".

Фракции Типичные кадеты Типичные трудовики Остальыне
трудовики 0.023 0.323 0.172
беспартийные 0.045 0.423 0.144
правые 0.114 0.054 0.072
Дем. реформ 0.045 0.000 0.017
националисты 0.000 0.000 0.052
кадеты 0.705 0.100 0.412
соц.-дем. 0.203 0.062 0.027
польск. фракц. 0.045 0.015 0.093

Таблица 2б. Распределение кластеров "Типичный кадет" и "Типичный трудовик" среди различных фракций.

Фракции Типичный кадеты Типичные трудовики Остальные
трудовики 0.011 0.452 0.538
беспартийные 0.020 0.556 0.424
правые 0.152 0.212 0.636
Дем. реформ 0.286 0.000 0.714
националисты 0.000 0.000 1.000
кадеты 0.189 0.079 0.732
соц.-дем. 0.059 0.471 0.471
польск. фракц. 0.065 0.065 0.871

Для того, чтобы оценить результаты классификации (четвертый шаг), мы должны изучить распределение фракционной принадлежности внутри каждого кластера (таблица 2а) и комплементарные (дополнительные к ним) данные - доли "типичных трудовиков" и "типичных кадетов" среди членов различных фракций (таблица 2б). Две таблицы показывают, что около трех четвертей "типичных кадетов" являются в действительности кадетами, но доля первых среди вторых невысока. Таким образом, "типичные кадеты" являются небольшой, но очень однородной группой в своей фракции. Доля "типичных кадетов" достаточно высока и в двух других фракциях - правых и партии демократических реформ - политических соседей кадетов. Случай "типичных трудовиков" несколько более сложен. Они составляют около 1/2 трудовиков, социал-демократов и беспартийных членов Думы; с другой стороны, лишь треть из них являются членами фракции трудовиков, в то время, как их относительное большинство являются беспартийными. Последнее означает, что "типичный трудовик" (или по сути типичный крестьянин) обладал низкой политической самоидентификацией. Тем не менее, доля трудовиков среди тех, кто уже примкнул к какой либо фракции, достаточно высока - более 2/3.

Цифры в колонке "Остальные" в таблице 2б подсказывают нам, что необходимо проделать еще значительную работу - большинство членов обеих из рассматриваемых фракций не принадлежат ни к одному классу. Итак, мы выделяем "остальных" в отдельный набор данных и начинаем на нем второй цикл исследования. Классификация свойств в новом наборе данных позволяет увидеть (таблица 3), что в группе лиц, принадлежавших к фракции кадетов, имеются две пары взаимоисключающих свойств.

Таблица 3. Кластеры "Нетипичные кадеты" и "Нетипичные трудовики".

Эталоны Свойства Трудовик Кадет Жалование Землевладелец
трудовик жалование 0.238 0.339 1.000 0.000
трудовик 1.000 0.000 0.238 0.023
крест.происх. 0.302 0.101 0.230 0.043
крестьянин 0.271 0.061 0.161 0.055
кадет жалование 0.238 0.339 1.000 0.000
русский 0.176 0.226 0.258 0.209
происх. не указ. 0.060 0.252 0.271 0.114
высшее образ. 0.092 0.420 0.420 0.334
дворянин 0.000 0.248 0.124 0.455
землевладелец 0.023 0.217 0.000 1.000
TD>происх. не указ. 0.133 0.361 0.432 0.099
кадет 0.000 1.000 0.339 0.217

Это - значения источника дохода "жалование" и "землевладение" и такие значения сословной принадлежности, как "не указано" и "дворянин". Этот факт позволяет полагать, что в рассматриваемом подмножестве кадетов существовали две различные группы лиц. Для того, чтобы проверить наше предположение добавим жалование и землевладение к набору эталонных свойств. И действительно, мы видим, что землевладение тесно коррелирует с "дворянством" (0.455) и жалование - с неуказанной сословной принадлежностью (0.432). Второй слой трудовиков является одномодальным, совпадая с первым по сословному происхождению и принадлежности и отличаясь по источнику дохода (который здесь преимущественно жалование). Вероятно, эту группу можно назвать сельским средним классом. В терминах того времени эту группу можно назвать демократической интеллегенцией, что отчасти совпадает с понятием сельского среднего класса.

Таким образом, мы должны выбрать одно эталонное лицо для трудовиков и два для кадетов и следовать дальше по описанному сценарию. По оканчанию второго цикла анализа данных мы располагаем пятью относительно однородными классами лиц, которые могут быть поименованы в соответствии с содержательной интерпретацией их свойств: Землевладельцы ("кадеты- землевладельцы"), Интеллегенция(I) ("типичные кадеты" первого цикла), Интеллегенция(II) ("кадеты на жаловании"), Интеллегенция(III) ("демократическая интеллегенция") и Крестьяне ("типичные тредовики" первого цикла).

Размытый социальный профиль Интеллегенции(II) может представляться неудовлетворительным. Однако, неуказанное сословное происхождение и/или сословная принадлежность не есть лишь отсутствие данных. Мы можем обратиться к представлению близостей и выявить от факт, что "высшее образование" близко дворянскому происхождению и принадлежности, с одной стороны, и к неуказанным значениям этих свойств, с другой. Это позволяет нам предположить, что тенденция не указывать сословные характеристики была свойственна образованному дворянству, т.е. высшему слою интеллегенции. Это станет более ясным, если мы примем во внимание, что либералы того времени рассматривали само понятие сословия как анахронизм. Более детальное исследование показывает также, что среди "кадетов на жаловании" в свою очередь могут быть выделены две однородные подгруппы. Первая из них в целом близка по профилю к Интеллегенции1, выделенной на первом цикле исследования. Вторая - меньшая и более специфичная - группа образованных евреев.

Результаты этого исследования могут быть сведены в двух диаграммах (см. рис. 6-а и 6-б), отображающих распределение лиц из пяти найденных кластеров среди различных фракций и обратное распределение - партийные принадлежности в каждом из кластеров. Вторая диаграмма построена в предположении, что пять кластеров могут быть ранжированы в традиционном порядке слева-направо в соответствии с их социальным статусом. Области на заднем плане показывают доли беспартийных и членов польской фракции в каждом кластере. Такое отображение позволяет нам соотнести социальные профили этих двух групп членов Думы, оставшихся за пределами нашего исследования, с построенной классификационной схемой.

Возвращаясь к той постановке задачи, которая была дана в начале рассмотренного примера исследования, мы можем сказать, что существовало соответствие между принадлежностью к фракции и социальным профилем депутата, хотя оно не является однозначным и четким. В формальных терминах нами были выявлены пять достаточно однородных групп объектов, принадлежность к которым хорошо согласуется с их принадлежностью к априорным классам.

Полученные результаты следут рассматривать как предварительные. Целью второй части статьи было не столько представить исчерпывающее решение конкретной исторической проблемы, сколько показать в действии подход, реализованный в программе QualiDatE. Здесь была сделана попытка продемонстрировать, что несмотря на простоту формального аппарата, лежащего в основе описываемого подхода, использование гибко управляемых процедур классификации, плюс возможность рассматривать набор данных с различных точек зрения, позволяет исследователю построить свою собственную стратегию анализа, ведущую к получению легко интепретируемых результатов различного уровня детализации.

Рисунок 6 а Распределение фракционной принадлежности внутри кластеров.

На графике: A - крестьяне, B - Интеллегенция III, C - Интеллегенция II, D - Интеллегенция I, E - землевладельцы

Рисунок 6 б. Распределение фракционной принадлежности внутри кластеров.

Список литературы

1.Е.Белова, "Анализ качественных данных исторических источников: альтернативный подход"//Компьютер и историческое знание, Барнаул, 1994

2.Симметричная и асимметричная меры близости совпадают, когда обекты имеют равное число свойств (например, в случае файла простой табличной структуры).

3.Аналогом такой классификации может служить хорошо известный метод разбиения по критерию "ближайшего соседа".

4.В действительности, это лишь фрагмент большой базы данных, составленной и исследованной Н.Б.Селунской, Л.И.Бородкиным и Ю.Григорьевой. Более подробно о материалах, на основе которых была создана рассматриваемая база данных, можно узнать в диссертационной работе Ю.Г.Григорьевой "Источниковедческие проблемы изучения материалов истории создания I Государственной Думы и первых выборов".

ОТКРЫТЬ САМ ДОКУМЕНТ В НОВОМ ОКНЕ