Организация выборочных наблюдений и обеспечение репрезентативности выборки

Теоретический вопрос: Выборочное статистическое наблюдение является наиболее широко применяемым видом не сплошного наблюдения. При выборочном методе обследованию подвергается сравнительно набольшая часть всей изучаемой совокупности (обычно до 5-10 %, реже до 15-20 %). При этом подлежащая изучению статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью.

Теоретический вопрос: Организация выборочных наблюдений и обеспечение репрезентативности выборки

Выборочное статистическое наблюдение является наиболее широко применяемым видом не сплошного наблюдения. При выборочном методе обследованию подвергается сравнительно набольшая часть всей изучаемой совокупности (обычно до 5-10 %, реже до 15-20 %). При этом подлежащая изучению статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью. Отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию, называется выборочной совокупностью или выборкой. Значение выборочного метода состоит в том, что при минимальной численности обследуемых единиц проведение исследования осуществляется в более короткие сроки и с минимальными затратами труда и средств. Это повышает оперативность статистической информации, уменьшает ошибки регистрации.

Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части, организованной по принципу случайного отбора.

При случайном отборе каждой единице изучаемого объекта (массового явления, генеральной совокупности) обеспечивается определенная (обычно равная) вероятность попасть в количество обследуемых единиц (в выборку) и тем самым исключается субъективность, тенденциозность и односторонность в подборе этих единиц.

При строгом соблюдении принятых правил отбора выборочное наблюдение репрезентативно в широком смысле слова: при нем обеспечивается близкое соответствие состава охваченной наблюдением выборки и состава генеральной совокупности. Благодаря этому по данных выборочного наблюдения можно определить с желательной степенью приближения интересующие исследователей характеристики изучаемого явления.

Выборочный метод при проведении ряда исследований является единственно возможным, например, при контроле качества продукции (товара).

Выборочный метод иногда применяется для проверки данных даже сплошного учета. Минимальная численность обследуемых единиц позволяет провести исследование более тщательно и квалифицированно. Так, при переписи населения практикуются выборочные контрольные обходы для проверки правильности записей сплошного наблюдения.

Проведение выборочного наблюдения складывается из ряда последовательных этапов:

1) обоснование целесообразности проведения выборочного метода в соответствии с задачами исследования;

2) составление программы проведения статистического исследования выборочным методом;

3) решение организационных вопросов сбора исходной информации;

4) установление доли выборки, т.е. части подлежащих обследованию единиц генеральной совокупности;

5) обоснование способов формирования выборочной совокупности;

6) осуществление отбора единиц из генеральной совокупности для их обследования;

7) фиксация в отобранных единицах выборки значений изучаемых признаков;

статистическая обработка полученной в выборке информации с определением обобщающих характеристик изучаемых признаков;

9) определение количественной оценки ошибки выборки;

10) распространение обобщающих выборочных характеристик на генеральную совокупность.

В зависимости от способа организации выборочного наблюдения и применяемых способов отбора различают также виды выборочного наблюдения:

1) простая случайная выборка (собственно-случайная);

2) механическая случайная выборка;

3) типическая случайная выборка;

4) серийная (гнездовая) выборка;

5) многоступенчатая (многостепенная или комбинационная) выборка.

Выборку можно производить из конечной (ограниченной) и неограниченной генеральной совокупности. Поэтому целесообразно различать выборочный метод и по этому признаку. Иногда различают также большие, охватывающие значительное число обследуемых единиц, выборки и малые выборки.

Каждый из указанных основных способов отбора может реализоваться по схеме повторного (когда зафиксированная в выборке единица возвращается в генеральную совокупность) или бесповоротного отбора (когда зафиксированная единица исключается из дальнейшего просмотра и может попасть в выборку только один раз). Целесообразно различать выборки и по этому признаку.

Большую актуальность приобретает выборочный метод в условиях перехода к рыночной экономике. Развитие различных форм собственности, изменения в характере экономических отношений, как указывалось в предыдущих лекциях, обусловливают изменения функций учета и статистики, сокращение и упрощение статистической отчетности.

По сравнению с другими методами, применяющими не сплошное наблюдение, выборочный метод имеет существенное преимущество. При соблюдении правил научной организации выборочного наблюдения появляется возможность количественной оценки ошибки репрезентативности (представительности).

Репрезентативность означает, что с некоторой наперед заданной или определенной статистически погрешностью можно считать, что представленное в выборочной совокупности распределение изучаемых признаков соответствует их реальному распределению. Для обеспечения репрезентативности выборки данных необходимо учесть ряд обязательных для любого исследования условий. Среди них важнейшими являются следующие:

  • каждая единица генеральной совокупности должна иметь равную вероятность попадания в выборку
  • выборка переменных производится независимо от изучаемого признака
  • отбор производится из однородных совокупностей
  • число единиц в выборке должно быть достаточно большим
  • выборка и генеральная совокупность должны быть по возможности статистически однородны.

Задача 1 Вычислить индексы сезонности и построить сезонную волну за полугодие.

год
1 2 3
январь 26,2 27,5 27,2
февраль 25,8 27,1 26,8
март 25,6 26,9 26,5
апрель 25,4 26,6 26,3
май 26,5 27,9 27,5
июнь 26,8 28,2 27,8

Решение

Решение сведем в таблицу:

год Всего за три года В среднем за три года Индекс сезонности
1 2 3
1 2 3 4 5=2+3+4 6=5/3 7
январь 26,2 27,5 27,2 80,9 26,97 16,56%
февраль 25,8 27,1 26,8 79,7 26,57 16,31%
март 25,6 26,9 26,5 79 26,33 16,17%
апрель 25,4 26,6 26,3 78,3 26,10 16,03%
май 26,5 27,9 27,5 81,9 27,30 16,76%
июнь 26,8 28,2 27,8 82,8 27,60 16,95%
Итого 157,3 166,2 165,1 488,6 162,87

Построим волну сезонности:

Вывод: В динамике показателей явно прослеживается наличие сезонной компоненты. Наибольшим средним значением характеризуется месяц июнь (=16,95%), а наименьшее среднее значение приходится на апрель (=16,03%). График сезонной волны наглядно демонстрирует наличие сезонной компоненты в изучаемом показателе.

Задача 2. Имеются данные о 23 рабочих-сдельщиках, представленные в следующей таблице:

Номер рабочих Стаж работы, лет Месячная выработка продукции, у.е.
1 14 285
2 19,5 375
3 22,5 392
4 17,5 340
5 19 345
6 15,5 318
7 15,7 310
8 29 405
9 26,2 377
10 27 417
11 24 390
12 25 373
13 23,5 371
14 14 317
15 22 355
16 18 330
17 19 347
18 23,2 353
19 18 305
20 18,4 335
21 20,5 343
22 21,5 353
23 21 360

Для изучения зависимости между приведенными показателями произвести группировку рабочих по стажу работы, выделив 5 групп с равными интервалами. По каждой из них и в совокупности подсчитать количество рабочих (абсолютное и в процентах к итогу), средний стаж работы, среднемесячную выработку продукции. Результаты представить в таблице, сделать краткие выводы.

Решение

Определяем величину интервала:

Разбиваем на группы: [14; 17), [17; 20), [20; 23), [23; 26), [26, 29].

Строим вспомогательную таблицу для рассчитанных интервалов:

Размер интервала Номер рабочих Стаж работы, лет Месячная выработка продукции, у.е.
[14; 17) 1 14 285
6 15,5 318
7 15,7 310
14 14 317
Итого 4 59,2 1230
[17; 20) 2 19,5 375
4 17,5 340
5 19 345
16 18 330
17 19 347
19 18 305
20 18,4 335
Итого 7 129,4 2377
[20; 23) 3 22,5 392
15 22 355
21 20,5 343
22 21,5 353
23 21 360
Итого 5 107,5 1803
[23; 26) 11 24 390
12 25 373
13 23,5 371
18 23,2 353
Итого 4 95,7 1487
[26, 29] 8 29 405
9 26,2 377
10 27 417
Итого 3 82,2 1199

Стоим итоговую таблицу:

Группировка рабочих по стажу работы за … год

Группы рабочих по стажу работы, лет Число рабочих Стаж работы, лет Месячная выработка продукции, у.е.
абсолютное в % к итогу всего на 1 чел. всего на 1 чел
1 2 3 4 5=4/2 6 7=6/2
[14; 17) 4,0 17,4 59,2 14,8 1230 307,5
[17; 20) 7,0 30,4 129,4 18,5 2377 339,6
[20; 23) 5,0 21,7 107,5 21,5 1803 360,6
[23; 26) 4,0 17,4 95,7 23,9 1487 371,8
[26, 29] 3,0 13,0 82,2 27,4 1199 399,7
Итого: 23,0 100,0 474,0 20,6 8096,0 352,0

Вывод: для всех групп рабочих характерна следующая тенденция: с увеличением стажа работы растет месячная выработка продукции 1 человеком. Также можно отметить тот факт, что больше всего рабочих имеют стаж от 7 до 10 лет, а затем количество рабочих с ростом стажа начинает снижаться.


Задача 3.

1. Построить прогноз методом среднего абсолютного прироста. Обосновать метод выбора прогнозирования, предварительно проверив предпосылки его реализации.

2. Построить прогноз методом среднего темпа роста, предварительно проверив предпосылки его реализации.

3. Построить прогноз методом экстраполяции трендовых моделей.

4. Произвести оценку точности прогнозов, полученных методом экстраполяции трендовых моделей на основе:

- средней квадратической ошибки

- коэффициента несоответствия.

Сделать выводы.

Исходные данные:

Динамика числа семей, состоявших на учете на получение жилья в одном из регионов Республики Беларусь за январь-октябрь 2009 года

Месяц Число семей, состоявших на учете на получение жилья, тыс.ед., yi
Январь 175,60
Февраль 177,20
Март 199,30
Апрель 202,10
Май 222,90
Июнь 244,00
Июль 257,30
Август 227,90
Сентябрь 251,10
Октябрь 295,00

Решение

    Прогноз методом среднего абсолютного прироста
Месяц Число семей, состоявших на учете на получение жилья, тыс.ед., yi yi 2 i i 2

Январь 175,60 30835,36 - - 175,600 0,000 0,000
Февраль 177,20 31399,84 1,60 2,56 188,867 -11,667 136,111
Март 199,30 39720,49 22,10 488,41 202,133 -2,833 8,028
Апрель 202,10 40844,41 2,80 7,84 215,400 -13,300 176,890
Май 222,90 49684,41 20,80 432,64 228,667 -5,767 33,254
Июнь 244,00 59536,00 21,10 445,21 241,933 2,067 4,271
Июль 257,30 66203,29 13,30 176,89 255,200 2,100 4,410
Август 227,90 51938,41 -29,40 864,36 268,467 -40,567 1645,654
Сентябрь 251,10 63051,21 23,20 538,24 281,733 -30,633 938,401
Октябрь 295,00 87025,00 43,90 1927,21 295,000 0,000 0,000
Итого 2252,40 520238,42 119,40 4883,36 2353,000 -100,600 2947,020

Для осуществления прогноза должна выполняться предпосылка:

Проверим:

Условие не выполняется, следовательно, прогноз построить нельзя.

    Прогноз методом среднего темпа роста
Месяц Число семей, состоявших на учете на получение жилья, тыс.ед., yi Тр уТр
Январь 175,60 - 175,60
Февраль 177,20 1,009 186,022
Март 199,30 1,125 197,062
Апрель 202,10 1,014 208,758
Май 222,90 1,103 221,148
Июнь 244,00 1,095 234,273
Июль 257,30 1,055 248,177
Август 227,90 0,886 262,906
Сентябрь 251,10 1,102 278,510
Октябрь 295,00 1,175 295,039
Итого 2252,40 9,56 2307,49

Проверим предпосылки осуществления прогноза:

2252,40 < 2307,49

Так как предпосылки не выполняются, прогноз методом среднего темпа роста построить невозможно.

    Прогноз методом экстраполяции трендовых моделей.

Модель прямой.

Месяц Число семей, состоявших на учете на получение жилья, тыс.ед., yi Номер месяца, t t2 yi xt yt (yi -yt )2 yi 2
Январь 175,6 1 1 175,6 172,8327 7,657798 30835,36
Февраль 177,2 2 4 354,4 184,4788 52,98075 31399,84
Март 199,3 3 9 597,9 196,1248 10,08159 39720,49
Апрель 202,1 4 16 808,4 207,7709 32,15921 40844,41
Май 222,9 5 25 1114,5 219,417 12,1315 49684,41
Июнь 244 6 36 1464 231,063 167,3652 59536
Июль 257,3 7 49 1801,1 242,7091 212,8946 66203,29
Август 227,9 8 64 1823,2 254,3552 699,875 51938,41
Сентябрь 251,1 9 81 2259,9 266,0012 222,0461 63051,21
Октябрь 295 10 100 2950 277,6473 301,1171 87025
Итого 2252,4 55 385 13349 2252,4 1718,309 520238,42

Yt = 161,57+11,65t

Построим прогноз:

Номер месяца, t yt
11 289,2933
12 300,9394
13 312,5855

Оценка точности прогноза:

Среднеквадратическая ошибка:

13,11

Коффициент несоответствия:

Модель параболы

Yt = 161,7867 + 11,34606t + 0,027273t2

Построим прогноз:

Номер месяца, t yt
11 289,8933
12 301,8667
13 313,8945

Месяц Число семей, состоявших на учете на получение жилья, тыс.ед., yi Номер месяца, t t2 t3 t4 yi xt yi xt2 yt (yi -yt )2 yi 2
Январь 175,6 1 1 1 1 175,6 175,6 173,16 5,9536 30835,36
Февраль 177,2 2 4 8 16 354,4 708,8 184,5879 54,58075 31399,84
Март 199,3 3 9 27 81 597,9 1793,7 196,0703 10,43094 39720,49
Апрель 202,1 4 16 64 256 808,4 3233,6 207,6073 30,33005 40844,41
Май 222,9 5 25 125 625 1114,5 5572,5 219,1988 13,69897 49684,41
Июнь 244 6 36 216 1296 1464 8784 230,8448 173,058 59536
Июль 257,3 7 49 343 2401 1801,1 12607,7 242,5455 217,6966 66203,29
Август 227,9 8 64 512 4096 1823,2 14585,6 254,3006 696,992 51938,41
Сентябрь 251,1 9 81 729 6561 2259,9 20339,1 266,1103 225,3092 63051,21
Октябрь 295 10 100 1000 10000 2950 29500 277,9745 289,8661 87025
Итого 2252,4 55 385 3025 25333 13349 97300,6 2252,4 1717,916 520238,4

Оценка точности прогноза:

Среднеквадратическая ошибка:

13,10693

Коффициент несоответствия:

Выводы: Таккак коэффициенты несоответствия при построении модели прямой и модели параболы близки к нулю, можно сказать, что прогноз будет довольно точен. Однако значение среднеквадратического отклонения (не близкое к нулю) и в первом, и во втором случае указывает на то, что прогноз не будет совершенным. Исходя из того, что значения показателей оценки точности прогноза в случае построения модели параболы ниже, чем при построении модели прямой, для расчета прогнозируемых значений следует воспользоваться моделью параболы. Получаем, что в ноябре 2009 года число семей, состоящих на учете на получение жилья, составит 289,9 тыс., в декабре – 301,87 тыс., в январе 2010 года – 313,89 тыс.