Выборочные исследования в эконометрике (стр. 5 из 6)

15. Какие темы Вы считаете полезным рассмотреть дополнительно?

16. Сформулируйте иные Ваши замечания и предложения по курсу "Основы экономики": по лекциям, практическим и индивидуальным занятиям.

Д. Дополнительная информация

17. Какие предметы обучения - самые трудные, какие - самые легкие на первом семестре?

18. Подрабатываете ли Вы? Если согласны, укажите примерную (среднюю) сумму в месяц.

19. Существенна ли для Вас стипендия?

20. Есть ли у Вас дома компьютер?

21. Участвуете ли Вы в каких-либо политических движениях, партиях? Если согласны, назовите.

Проверка однородности двух биномиальных выборок

Как сравнить две группы - мужчин и женщин, молодых и пожилых, и т.п.? В маркетинге это важно для сегментации рынка. Если две группы не отличаются по ответам, значит, их можно объединить в один сегмент и проводить по отношению к ним одну и ту же маркетинговую политику, в частности, осуществлять одни и те же рекламные воздействия. Если же две группы различаются, то и относиться к ним надо по-разному. Это - представители двух разных сегментов рынка, требующих разного подхода при борьбе за их завоевание.

Эконометрическая постановка такова. Рассматривается вопрос с двумя возможными ответами, например, "да" и "нет". В первой группе из n₁ опрошенных m₁ человек сказали "да", а во второй группе из n₂ опрошенных m₂ сказали "да". В вероятностной модели предполагается, что m₁ и m₂- биномиальные случайные величины B(n₁ , p₁) и B(n₂ , p₂) соответственно. (Запись B(n , p) означает, что случайная величина m, имеющая биномиальное распределение B(n , p) с параметрами n - объем выборки и p - вероятность определенного ответа (скажем, ответа "да"), может быть представлена в виде m= X₁+ X₂+…+X_n, где случайные величины X₁, X₂,…,X_nнезависимы, одинаково распределены, принимают два значения1 и 0, причем Р(X_i= 1) = р, Р(X_i= 0)= 1-р, i=1,2,…,n.)

Однородность двух групп означает, что соответствующие им вероятности равны, неоднородность - что эти вероятности отличаются. В терминах математической статистики: необходимо проверить гипотезу однородности

H₀ : p₁ = p₂

при альтернативной гипотезе

H₁ : p₁

p₂.

(Иногда представляют интерес односторонние альтернативные гипотезы

Оценкой вероятности р₁ является частота р₁*=m₁/n₁, а оценкой вероятности р₂ является частота р₂*=m₂/n₂. Даже при совпадении вероятностей р₁ и р₂ частоты, как правило, различаются, как говорят, "по чисто случайным причинам". Рассмотрим случайную величину р₁* - р₂*. Тогда

M(р₁* - р₂*) = р₁ - р₂, D(р₁* - р₂*) = р₁ (1 - р₁ )/ n₁ + р₂ (1-р₂ )/ n₂ .

Из теоремы Муавра-Лапласа и теоремы о наследовании сходимости [4, п.2.4] следует, что

где

- функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Для практического применения этого соотношения следует заменить неизвестную эконометрику дисперсию разности частот на оценку этой дисперсии:

D*(р₁* - р₂*) = р*₁ (1 - р*₁ )/ n₁ + р*₂ (1-р*₂ )/ n₂ .

С помощью указанной выше математической техники можно показать, что

При справедливости гипотезы однородности M(р₁* - р₂*) = 0. Поэтому правило принятия решения при проверке однородности двух выборок выглядит так:

1. Вычислить статистику

2. Сравнить значение модуля статистика |Q| с граничным значением K. Если |Q|<K, то принять гипотезу однородности H₀ . Если же |Q|>K, то заявить об отсутствии однородности и принять альтернативную гипотезу H₁ .

Граничное значение К определяется выбором уровня значимости статистического критерия проверки однородности. Из приведенных выше предельных соотношений следует, что при справедливости гипотезы однородности H₀ для уровня значимости

имеем (при

Следовательно, граничное значение в зависимости от уровня значимости целесообразно выбирать из условия

Здесь

- функция, обратная к функции стандартного нормального распределения. В социально-экономических исследованиях наиболее распространен 5% уровень значимости, т.е.

Для него К = 1,96.

Пример. Пусть в первой группе из 500 опрошенных ответили "да" 200, а во второй группе из 700 опрошенных сказали "да" 350. Есть ли разница между генеральными совокупностями, представленными этими двумя группами, по доле отвечающих "да"?

Уберем из формулировки примера термин "генеральная совокупность".

Пусть из 500 опрошенных мужчин ответили "да, я люблю пепси-колу" 200, а из 700 опрошенных женщин 350 сказали "да, я люблю пепси-колу". Есть ли разница между мужчинами и женщинами по доле отвечающих "да" на вопрос о любви к пепси-коле?

В рассматриваемом примере нужные для расчетов величины таковы:

Вычислим статистику

Поскольку |Q| = 3,45 > 1,96, то необходимо отклонить нулевую гипотезу т принять альтернативную. Таким образом, мужчины и женщины отличаются по рассматриваемому признаку - любви к пепси-коле.

Необходимо отметить, что результат проверки гипотезы однородности зависит не только от частот, но и от объемов выборок. Предположим, что частоты (доли) зафиксированы, а объемы выборок растут. Тогда числитель статистикиQ не меняется, а знаменатель уменьшается, значит, вся дробь возрастает. Поскольку знаменатель стремится к 0, то дробь возрастает до бесконечности и рано или поздно превзойдет любую границу. Есть только одно исключение - когда в числителе стоит 0. Следовательно, вывод эконометрика должен выглядеть так: "различие обнаружено" или "различие не обнаружено". Во втором случае различие, возможно, было бы обнаружено при увеличении объемов выборок.

Как и для доверительного оценивания вероятности, во ВЦИОМ разработаны две полезные таблицы, позволяющие оценить вызванные чисто случайными причинами допустимые расхождения между частотами в группах. Эти таблицы рассчитаны при выполнении нулевой гипотезы однородности и соответствуют ситуациям, когда частоты близки к 50% (табл.7) или к 20% (табл.8). Если наблюдаемые частоты - от 30% до 70%, то рекомендуется пользоваться первой из этих таблиц, если от 10% до 30% или от 70% до 90% - то второй. Если наблюдаемые частоты меньше 10% или больше 90%, то теорема Муавра-Лапласа и основанные на ней асимптотические формулы дают не очень хорошие приближения, целесообразно применять иные, более продвинутые математические средства, в частности, приближения с помощью распределения Пуассона.

Табл.7.

Допустимые расхождения (в %) между частотами в двух группах в случае, когда наблюдаются частоты от 30% до 70%

ОбъемыГрупп	750	600	400	200	100
750	6	7	7	10	12
600	7	8	8	11	13
400	7	8	10	11	14
200	10	11	11	13	16
100	12	13	14	16	18

Табл.8.

Допустимые расхождения (в %) между частотами в двух группах в случае, когда наблюдаются частоты от 10% до30% или от 70% до 90%

ОбъемыГрупп	750	600	400	200	100
750	5	5	6	8	10
600	5	6	7	8	10
400	6	7	8	9	11
200	8	8	9	10	12
100	10	10	11	12	14

В условиях разобранного выше примера табл.7 дает допустимое расхождение 7%. Действительно, объем первой группы 500 отсутствует в таблице, но строки, соответствующие объемам 400и 600, совпадают для первых двух столбцов слева. Эти столбцы соответствуют объемам второй группы 750 и 600, между которыми расположен объем 700, данный в примере. Он ближе к 750, поэтому берем величину расхождения, стоящую на пересечении первого столбца и второй (и третьей) строк, т.е. 7%. Поскольку реальное расхождение (10%) больше, чем 7%, то делаем вывод о наличии значимого различия между группами. Естественно, этот вывод совпадает с полученным ранее расчетным путем.