Особенности метода кластерный анализ при большом количестве наблюдений кластерный анализ метод (стр. 1 из 5)

Государственное образовательное учреждение

высшего профессионального образования

ВОЛГО-ВЯТСКАЯ АКАДЕМИЯ ГОСУДАРСТВЕННОЙ СЛУЖБЫ

Дзержинский филиал

Кафедра «Математических и естественнонаучных дисциплин»

Курсовой проект

по дисциплине «Методологические основы информационного обеспечения управления»

Особенности метода кластерный анализ при большом количестве наблюдений (кластерный анализ метод К-средних) в социологических исследованиях

Специальность:«Государственное и муниципальное управление»

Выполнила:

студентка гр. 07 - ГОД - 1

Танаева А. В.

Научный руководитель:

КПН, доцент

Поляков Е. А.

Дзержинск

2011 г.

РЕЦЕНЗИЯ

На курсовой проект

студента ____ курса, группа №_______

________________________________________________________________

(фамилия, имя, отчество)

Вопросы оценки:

Соответствие работы выбранной в соответствии с заданием теме_________________________________________________________________

(соответствует, не соответствует)¹

Обоснование актуальности работы ²______________________________________
Логичность общих выводов в заключении_________________________________

(актуальна, неактуальна)

4.Правильность выбора основной цели работы и соответствие задач, поставленных для достижения цели______________________________________________________

5 Научная новизна_______________________________________________________

6 Правильность проводимых расчетов (для проектов)_________________________

7 Самостоятельность в работе ____________________________________________

8 Правильность оформления работы в соответствии с методическими указаниями руководителя_______________________________________________________________

9 Своевременность представления работы руководителю: _____________________

(своевременно, с опозданием)

Логичность общих выводов в заключении_________________________________

Общая оценка за работу - ___________________________________________________

Научный руководитель работы ________________________________________________

(ученая степень, звание, подпись, расшифровка подписи)

«___»______________200__г.

Примечания:

1. Оценка за работу выставляется в ведомость по пятибалльной системе как среднее арифметическое из суммы всех полученных оценок.

2. При получении неудовлетворительных оценок по пунктам 1 или 8, работа оценивается неудовлетворительно и возвращается на доработку.

3. При несвоевременной сдаче контрольной работы руководителю общая оценка снижается на 1 балл.

4. Работа должна быть представлена руководителю для рецензирования не позднее, чем за 10 дней до начала экзаменационной сессии.

5. Студент, не выполнивший работу к экзамену (зачету) не допускается.

¹критерии оценки соответствия:

- не соответствует – неудовлетворительно - работа возвращается для устранения

недостатков – более 25% работы содержит материал, не имеющий к ней отношения (определяется от общего количества параграфов)

- соответствует - т.е. менее 25% работы содержит материал, не имеющий к ней отношения (определяется от общего количества параграфов)

Данный пункт на суммарную оценку не влияет, если недостаток устранен студентом до сдачи работы в указанный срок.

²при обосновании актуальности курсовой работы оценка определяется по следующим критериям:

тема актуальна – если студентом дана:

· правильная оценка проблемы с точки зрения современных взглядов на ее историческое значение;

· практическая и теоретическая значимость работы в настоящее время;

· возможность и необходимость дальнейшего совершенствования и развития основных положений рассматриваемой проблемы.

Оглавление

Введение……………………………………………………………………………………………..4Глава 1. Кластерный анализ……………………………………......5

1.1. Алгоритм кластерного анализа k-средних (k-means)……………………..5

1.1.1.Описание алгоритма………………………………………………...6

1.1.2. Проверка качества кластеризации……………………………....7

1.2. АлгоритмPAM ( partitioning around Medoids)…………………………………8

1.3. Сложности, возникающие при кластерном анализе………………………..9

1.4. Сравнительный анализ иерархических и неиерархических методов кластеризации……………………………………………………………………………10

Глава 2. Алгоритмыкластерногоанализа…………….11

2.1. Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)…………………………………………………………………………………11

2.2. Алгоритм WaveCluster…………………………………………………………11

2.3. АлгоритмыкластерногоанализаClarans, CURE, DBScan……………...12

2.4. Алгоритм CLARA (Clustering LARge Applications)………………………...12

2.5. Итеративная кластеризация в SPSS……………………………………...13

2.6. Кластеризация в Data Mining…………………………………………………16

Глава 3. Опрос, посвященный психологическому состоянию личности…………………………………………………….19

3.1. Факторный анализ……………………………………………………………...19

3.2. Быстрый кластерный анализ………………………………………………..21

Приложение………………………………………………………………………24

1. Анкета, с помощью которой я смогу провести факторный анализ…..24

2. Матрица, которая получилась после набивки анкеты…………………...26

Заключение……………………………………………………………………….27

Список используемых источников………………………….28

Введение

Кластерный анализ (англ. Dataclustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке [9. с-3].

Кластерный анализ применяют в различных областях человеческой деятельности: медицина, химия, психология, управление и во многом другом. Поэтому я считаю, что тема моего курсового проекта актуальна.

В своей работе я ставлю ряд задач:

1. Рассмотреть метод кластерный анализ как объект исследования

2. Понять, как помогает этот метод в социологических исследованиях

3. Научиться анализировать вопросник с помощью этого метода.

Кластерный анализ выполняет следующие основные задачи:

Разработка типологии или классификации; исследование полезных концептуальных схем группирования объектов; порождение гипотез на основе исследования данных, проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Глава 1. Кластерный анализ

Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов.

В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. [1. с-4]

Работа кластерного анализа опирается на два предположения. Первое предположение - рассматриваемые признаки объекта в принципе допускают желательное разбиение пула (совокупности) объектов на кластеры. Второе предположение - правильность выбора масштаба или единиц измерения признаков.
Методы кластерного анализа можно разделить на две группы:

1. иерархические;

2. неиерархические.

Каждая из групп включает множество подходов и алгоритмов.
Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.
Рассмотрим иерархические и неиерархические методы подробно.

1.1. Алгоритм кластерного анализа k-средних (k-means)

Наиболее распространен среди неиерархических методов алгоритм k-средних, также называемый быстрым кластерным анализом. Полное описание алгоритма можно найти в работе Хартигана и Вонга (Hartigan and Wong, 1978). В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для возможности использования этого метода необходимо иметь гипотезу о наиболее вероятном количестве кластеров.

Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Основной тип задач, которые решает алгоритм k-средних, - наличие предположений (гипотез) относительно числа кластеров, при этом они должны быть различны настолько, насколько это возможно. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.

Общая идея алгоритма: заданное фиксированное число k кластеров наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга. [5. с-68-73]

1.1.1.Описание алгоритма

1. Первоначальное распределение объектов по кластерам.

Выбирается число, именуемое k, и эти точки считаются "центрами" кластеров. Каждому кластеру соответствует один центр.