Смекни!
smekni.com

Построение выборки в социологическом исследовании (стр. 5 из 7)

В общем случае кластерная выборка основана на первоначальном отборе группировок (кластеров) и затем — на изучении всех единиц внутри кластеров. Возможными примерами кластеров, используемых в больших общенациональных опросах, являются сельские районы, городские квартиры, избирательные участки. При изучении специфических популяций используются иные кластеры: больницы — при изучении пациентов, школы — при изучении школьников и т. п.

Корректное применение кластерной процедуры основано на неукоснительном соблюдении четырех необходимых условий:

1) кластеры должны быть однозначно и явно заданы: каждый член генеральной совокупности должен принадлежать к одному (и только одному) кластеру;

2) число членов генеральной совокупности, входящих в каждый кластер, должно быть известно или поддаваться оценке с приемлемой степенью точности;

3) кластеры должны быть не слишком велики и географически компактны, иначе кластерная выборка теряет всякий финансовый смысл;

4) выбор кластеров должен быть осуществлен таким способом, который минимизирует рост выборочной ошибки (последний процесс, в свою очередь, является неизбежным следствием кластеризации).

Для того чтобы уяснить, как именно кластерная процедура влияет на рост выборочной ошибки, рассмотрим ее на простейшем примере. Допустим, мы изучаем труд и занятость жителей небольшого сельского района. Для того чтобы составить полный список-основу для случайной выборки, нам пришлось бы предварительно посетить все сельские советы, а в некоторых случаях — и весьма отдаленные деревни. Располагая ограниченными ресурсами, мы решаем использовать имеющуюся в нашем распоряжении карту района, на которой отмечены все населенные пункты, включая самые небольшие хутора. Известна и численность населения для каждого пункта. Естественными границами кластеров-поселений являются шоссе и проселочные дороги. Составив список всех 40 деревень и хуторов, мы можем теперь без труда осуществить простую случайную выборку кластеров. Для отдельного поселения вероятность попадания в выборку составит 1/40. Если, например, мы собираемся опросить 200 человек, нам, скорее всего, потребуется отобрать 1—2 кластера-поселения. Отметим здесь, что естественные различия в величине кластеров никак не влияют на процедуру кластерного отбора.

Что при этом происходит с выборочной ошибкой и, следовательно, с получаемыми в нашем исследовании статистическими параметрами генеральной совокупности сельского населения района (т. е. с оценками возраста, дохода и т. п.)? Чтобы ответить на этот вопрос, мы должны ввести еще одно статистическое понятие «независимых наблюдений» (степеней свободы).

Предположим, мы хотим оценить соотношение работающих и пенсионеров в обследуемом нами районе. Мы отобрали, условно, три деревни по 30 домовладений каждая (итого 90 домовладений). Однако в ходе опроса выясняется, что в двух деревнях, не входящих ни в одно сельхозобъединение или кооператив, живут исключительно старики-пенсионеры, а в одной, построенной недавно для переселенцев из Средней Азии, живут только молодые семьи с детьми. Таким образом, каждая деревня является населенной либо только работающими семейными парами, либо исключительно «пенсионерской». В результате мы можем заранее предсказать результат обследования каждой деревни (кластера), посетив лишь один дом. Если в первом доме интервьюер обнаружит чету пенсионеров, во всех остальных домах тоже будут жить пенсионеры. Если в первом доме живут люди трудоспособного возраста, посещение остальных 29 домовладений приведет к тому же результату. Фактически для каждой деревни мы будем располагать одним независимым наблюдением и, посетив 90 семей в трех деревнях, получим лишь три независимых, информативных наблюдения относительно распределения работающих и пенсионеров в выборке. Соответственно наши оценки величины данного соотношения в генеральной совокупности окажутся более неточными, чем в случае 90 независимых наблюдений. Причина возникающей ошибки заключается в том, что использованные вами кластеры (деревни) оказались гомогенными, однородными по исследуемому признаку трудовой занятости, хотя по другим признакам, например, по политической активности, они вполне могут быть гетерогенными, неоднородными. В принципе можно показать, что рост выборочной ошибки для кластерной выборки (в сравнении с простой случайной) является функцией двух нерешенных — величины кластеров и гомогенности исследуемого признака внутри каждого кластера.

Ясно, что оценка гомогенности часто становится важной практической задачей в планировании кластерной выборки. Основная проблема здесь заключается в том, что соответствующими данными о распределении признаков внутри кластеров исследователь располагает после завершения собственно полевой стадии. Практически при проектировании выборки обычно основываются на уже существующих данных предыдущих исследований, переписей и т. п.

Таблица 2

Значения мер гомогенности р для кластеров, состоящих из домовладений (для основных социально-демографических параметров)

Параметр Значение р для кластера, имеющего средний размер п
п = 3 п = 9 n = 27 n = 62
Доля домовладений: — находящихся в личной собственности; ,170 ,171 ,161 ,096
— наемных, с низкой квартплатой; ,235 ,169 ,107 ,062
— наемных, с высокой квартплатой; ,430 ,349 ,243 ,112
Среднее количество жильцов ,230 ,186 ,142 ,066
Доля среди жильцов:
— белых мужчин ,100 ,088 ,077 ,058
— безработных мужчин ,060 ,070 ,045 ,034
— мужчин в возрасте 25—34 лет ,045 ,026 ,018 ,008

Мера гомогенности р ведет себя так же, как соответствующий коэффициент корреляции. Величина р — это корреляция между значениями признака для всех возможных парных сочетаний элементов, входящих в кластер. Эта величина обычно положительна и возрастает с ростом гомогенности элементов внутри кластера. Если наблюдения внутри кластера абсолютно независимы (как в примере случайного распределения между разными кластерами), то р = 0. При использовании территориальной кластерной выборки городского населения, например при отборе кварталов или многоэтажных домов, р для признаков экономического статуса может быть весьма высоким из-за «пороговых» эффектов: в престижном кооперативном доме маловероятно встретить семьи с очень низкими доходами (верхний порог) и, наоборот, лишь немногие состоятельные люди обитают в коммуналках, подобно герою «Золотого теленка» Александру Ивановичу Корейко (нижний порог).

Ориентировочное представление о типичных значениях р и их изменении для кластеров разной величины для общенационального выборочного исследования дает табл. 2. В таблице показаны величины р для имеющих разные размеры кластеров, составленных из соседних городских домовладений (квартир и домов). Данные таблицы основаны на выборке городского населения США (N> 100000).

Еще одной немаловажной практической проблемой в планировании кластерной либо стратифицированной выборки является сравнение эффективности затрат на исследование при разных среднем размере кластера и количестве кластеров (заметим, что и кластеры, и страты часто обозначают общим термином — «первичные единицы отбора»). Функция, описывающая зависимость расходов от вышеперечисленных двух переменных, выглядит так:


Сt = ас1 + пс2,

где Ct — общая стоимость исследования,

а — количество «первичных единиц отбора»,

с1 — средние затраты на обследование первичной единицы отбора, планируемые для данного исследования,

n — общий размер планируемой выборки,

с2 — средние затраты на проведение одного интервью.

Дальнейшим обобщением идей случайного отбора из субпопуляций и естественных группировок, лежащих в основе, соответственно стратифицированной и кластерной выборок, является многофазная (многоступенчатая) выборка. Построение такой выборки представляет собой довольно сложную статистическую задачу, подходы к решению которой мы рассмотрим лишь в самом обобщенном виде.

В простейшем случае многофазная выборка состоит из двух фаз случайного отбора. На первой — как при кластерном отборе — выбираются «первичные единицы отбора», например, районы, избирательные участки, предприятия. На второй фазе производится случайный отбор единичных членов генеральной совокупности — отдельных респондентов, семей и т. п. Так как «первичные единицы отбора» могут существенно отличаться по величине (как, например, отличаются друг от друга городские квартиры или дома с разной численностью проживающих), то результатом первой фазы может стать неравная вероятность попадания в выборку для членов генеральной совокупности, относящихся к разным «первичным единицам отбора». В этом случае исследователь имеет возможность выравнивания вероятностей на последующих фазах (например, из «первичной единицы отбора», где проживает 1000 семей, он выберет 10, а из «первичной единицы», где живет 500 семей, будет отобрано 20).

Рассмотрим многофазную процедуру на простейшем примере с равной вероятностью отбора.

Пусть нам необходимо осуществить выборку размером 2000 человек из генеральной совокупности населения крупного города, где проживает 4 млн. человек. Каждая «первичная единица отбора» — городской квартал — содержит 1000 единиц (т. е. отдельных респондентов). На первой фазе мы отберем из 100000 кварталов («первичных единиц отбора») 400, так что для каждого квартала вероятность попадания в выборку составит:

400:100000 = 0,004.

На следующей стадии из 1000 жителей каждого квартала мы отберем 50, так что для каждого респондента суммарная накопленная вероятность попадания в двухфазную выборку составит: