Выборки и их представления (стр. 2 из 3)

Наблюдаем функции эмпирического и теоретического распределений; определим по графику значение статистики

— ìåðû различия между этими функциями. Величина D_n, конечно же, определяется пакетом:

Esc - Esc — вместо опции Histogram выбираем K-S Test - ENTER. Сообщается значение статистики « ...statistic DN = ....» и «...significance level = ...» т.е. уровень значимости

Если эта вероятность мала (сотые доли или меньше), гипотезу о соответствии наблюдений теоретическому распределению следует отклонить. В противном случае признают, что наблюдения не противоречат гипотезе.

Описание двумерных выборок

Пример. В табл.2 приведены результаты химического анализа 32 образцов сланцевых пород на содержание двуокиси кремния (SiO₂ – x) и двуокиси алюминия (Al₂O₃ – y).

Построим диаграмму рассеяния для этой выборки, определим выборочные характеристики: среднее, дисперсии, коэффициент корреляции и построим диаграмму рассеяния и двумерную гистограмму.

Таблица 2

¹	X	Y	¹	X	Y	¹	X	Y	¹	X	Y
1	57.8	17.2	9	53.9	16.1	17	53.8	16.3	25	50.9	14.7
2	54.6	17.9	10	60	14.8	18	53.1	17.2	26	49.6	16.1
3	54.8	18.8	11	56.2	17	19	51.5	15.8	27	52.2	19.5
4	51.7	19.9	12	55.2	17.8	20	54	15	28	50.5	15.6
5	61.1	16	13	53.3	19.9	21	50.4	14.4	29	51.1	18.1
6	62.3	17.8	14	57.9	17.1	22	53	15.3	30	52.2	19,5
7	52.2	18.8	15	54	15.5	23	53.3	16.6	31	49.2	15.7
8	49.2	19.3	16	52.6	17.6	24	51.6	14.9	32	49.3	13.2

а) Ввод данных:

А.2.File Operations — file name: WORK, Desired operation: С (операция Edit (редактирование) в списке Operations) - F6 - F6 - В окне Add additional column (добавить дополнительные столбцы) вводим имена новых переменных: Name: x1, Type: N (тип вещественный), Width: 13 (или меньше; - число десятичных разрядов) - F6 - Name: y1 - F6 - ESC - вводим данные в колонки x1 и y1. - F6 - Save and Exit (запомнить и выйти) - ENTER (появляется описание созданных переменных).

Замечание. При вводе удобнее вводить числа без десятичной точки, а затем операцией J и опцией A (ASSIGNMENT - назначение) разделить на 10.

б) Представление выборки диаграммой рассеяния:

E.1.X-Y Line and Scatterplots - вносим в строку x: x1, в строку у: y1 - F6. Появляется диаграмма рассеяния, которую можно отредактировать (F5): изменять надписи, диапазоны величин по осям, частоту делений и т.д. Диаграмму выводим на печать (F4).

в) Определение выборочных характеристик:

F.1.Summary Statistics - Data vectors: x1, во второй строке: y1, Statistics: A, B, F, H, I, - F6. Появляется таблица выборочных характеристик для двух переменных x1 и x2.

Определение выборочной ковариационной матрицы: Q.2.Covariance Analysis (анализ ковариаций) - Data vectors: x1, во второй строке: y1 - F6. Появляется матрица ковариаций (в данном случае, 2´2).

выборочная корреляционная матрица определяется процедурой Q.1.Correlation Analysis.

г) Построение двумерной гистограммы:

F.7.Three - Dimensional Histogram - Sample 1: x1, Sample 2: y1 - F6 - Поправляем, если необходимо, параметры графика - F6.

Появляется трехмерный график. Выводим его на печать или сохраняем.

3. Выполнение в пакете STATISTICA

Генерация выборки

Сгенерируем, например, выборку объема n =50 с показательным распределением со средним значением 5.

Создадим новый файл:

File - New Data - укажем имя файла в окне File Name : descript (например) - OK. На экране сетка-таблица; в ее заголовке указаны название и размеры : 10v * 10c - ( 10 переменных ( variables ) - столбцов по 10 наблюдений ( cases ) - строк.

Преобразуем таблицу к размерам 1´50:

кнопка Vars (на экране) - Delete; окно Delete Variables: укажем какие переменные- столбцы убрать : From variable : var 2, To variable : var 10 - OK - Кнопка Cases - Add ( добавление ) - окно Add Cases: укажем, сколько строк добавить и куда : Number of Cases to Add : 40, Insert after Case : 1 ( например ) - OK.

Сгенерируем выборку:

выделим столбец - переменную Var1 ( щелчком мыши по ее заглавию) - нажмем правую клавишу - в открывшемся меню выберем Variable specs ( спецификации переменной ) - в появившемся окне Variable 1 введем Name x ( например ) , в нижнем поле Long name вводится выражение, определяющее переменную. Ввод можно сделать набором на клавиатуре или с помощью клавиши Functions, выбирая в меню Kategory и Name требуемую функцию и вставляя клавишей Insert. Для задания закона распределения следует ввести, например,

=rnd(2) для R[0, 2],

=Vnormal(rnd(1); 2; 0.5 ) для N(2, s²=0.5²),

=VExpon(rnd(1); 0.2 ) для E(5) со средним 1/0.2=5; (для нашего примера вместо значения параметра l=0.2 можно набрать выражение 1/5).

Такая форма задания определяется способом генерации: с помощью функции, обратной (буква V) к функции распределения и генератора случайных чисел R[0, 1] ( rnd(1)).

Распечатаем выборку командой Print меню File.

Посмотрим выборку графически:

Graphs - Custom Graphs (настраиваемые графики) - 2D graphs - в открывшемся окне все можно оставить по умолчанию - .OK. Наблюдаемый график (рис.2) распечатаем.

Рис. 2. Наблюдения, распределенные по показательному закону со средним 5 (n = 50).

Построение вариационного ряда

Первый способ:

выделим требуемую переменную (столбец) - нажмем правую клавишу мыши - выберем Quiq Stats Graphs (быстрые статистики и графики) - Values / Stats of Vars (значения и статистики ) - наблюдаем вариационный ряд и выборочное среднее (mean) и стандартное отклонение ( SD ).

Второй способ:

войдем в модуль Data Menagement (двойной щелчек левой клавишей мыши на чистом поле и выбор модуля в окне Module Switcher; если модуль уже загружен, то Alt+Tab до появления модуля) - Analysis Sort - устанавливаем имя переменной, тип сортировки: Ascen (по возрастанию ) или Desc ( по убыванию) - OK.

Функция эмпирического распределения

Первый способ:

Graphs - Stats 2D Graphs - Histogram - в появившемся окне установим: Graph Type : Regular, Cumulative Counts (накопленные частоты), Fit Type (подбираемый тип) : Exponential (для нашего примера) или off (без подбора), Variablles: x, Categories (число интервалов группирования) : 250 - OK.

Наблюдаем график функции эмпирического распределения (рис. 3). График можно отредактировать: изменить линии, точки, фон, шкалы, надписи; для этого необходимо подвести стрелку в нужное иесто и дважды щелкнуть левой клавишей мыши. Выведем его на печать или сохраним.

Рис.3. Функция эмпирического распределения

Второй способ:

упорядочим по возрастанию нашу выборку (см. Построение вариационного ряда);

образуем новую переменную F для значений функции:

клавиша Var - Add - ... ( см. Генерация выборки) - выделим новую переменную NEWVAR - правая клавиша мыши - Variable Specs ... - Name: F - Long name:

= V0/50

(оператор V0 создает массив целых чисел) ; построим график:

Graphs - Custom Graphs - 2D Graph - в новом окне установим: в поле X: x, в поле Y: F, Step Plot (ступеньки, но не Line Plot - линии) - OK.

Наблюдаем функцию эмпирического распределения (с точностью до мелкого группирования с 250 интервалами).

Группирование данных

Analysis Frequency Tables - в окне Frequency Tables зададим No of exact intervals: 10 (10 интервалов группирования; или Step size: 2, starting at: 0), в поле Display options отметим Cumulative frequences ( накопленные частоты ), Percentages (проценты - относительные частоты), Cumulative Percentages (накопленные частоты ) - OK.

Наблюдаем таблицу группированных данных. Выведем ее на печать или сохраним.

Построение гистограммы частот

Graphs - Stats 2D Graphs - Histograms - в появившемся окне устанавливаем: имя переменной, Graph Type: Regular, Fit Type; off ( без подбора ) или нужный тип, число интервалов группирования Categories: или Auto (автоматический выбор числа интервалов) - OK.

Наблюдаем гистограмму (рис. 4). Отредактируем график, если необходимо. Выведем на печать или сохраним.

Рис. 4. Гистограмма.

Выборочные характеристики

первый способ: на заголовке столбца с выборкой щелкнем правой клавишей мыши - Quick Basic Stats... - Descriptives of var - получаем таблицу с характеристиками: mean (среднее), Confid 95% ( доверительные границы нижняя и верхняя с уровнем доверия 0.95 ), Sum ( сумма ), Minimum, Maximum, Range ( размах ), Variance ( дисперсия ), Std. Dev. ( стандартное отклонение ) и др. Сравним выборочное среднее, медиану и стандартное отклонение с соответствующими теоретическими значениями. Это же можно сделать через меню: Anflisis - Quick Basic Stats ...