Анализ выживаемости в системе Statistica (стр. 1 из 5)

МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РФ

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ

Кафедра математической статистики и эконометрики

Курсовая работа:

«Анализ выживаемости в системе «Statistica»

Исполнитель:

Егоров Т.П.

гр. ДЭС-401

Преподаватель:

Иванова Л.В.

Москва, 2008

Содержание

Основные проблемы анализа выживаемости……………………………..……3

I. Таблицы времён жизни …………… …………… …………… …………… ..4

1.1 Исходные данные………………………………………………………….….4

1.2 Построение таблиц времён жизни……………………………………...……6

1.3 Аппроксимация эмпирических данных теоретическим распределением……………………………………………………………………11

II. Оценки Каплана-Майера…………………………………………………..…17

III. Сравнение выживаемости в группах…………………………………….…21

Список литературы………………………………………………………………23

Основные проблемы анализа выживаемости

Методы анализа выживаемости (Survival Analisis) первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали шароко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и время отказов)

Одной из важных характеристик, описывающих течение болезни, является продолжительность жизни пациентов с момента поступления в клинику или после проведения операции. В принципе, для описания средних времен жизни и сравнения новой методики со старой можно использовать стандартные статистические методы. Однако рассматриваемые данные имеют специфику, которую следует учитывать. Дело в том, что в медицинской практике мы часто имеем дело с неполными данными.

Это связано с тем, что трудно наблюдать все время жизни пациента после операции, так как пациент мог быть выписан или переведен в другую клинику и связь с ним была утеряна. При этом мы располагаем не полной информацией о времени жизни пациента, а лишь частичной. Естественное желание исследователя использовать все данные, т. е. анализировать как полные времена жизни, так и неполные, и не терять с трудом собранную информацию. Для этого и предназначены методы анализа выживаемости, которые позволяют изучать неполные или цензурированные данные. Наблюдения, которые содержат неполную информацию, называются неполными или цензурированными (например, «пациент А был жив по крайней мере 4 месяца после того, как был переведен в другую клинику и контакт с ним был потерян»). Это пример цензурированного наблюдения: информация о том, что пациент был жив 4 месяца, важна и может быть использована для построения оценок. Наблюдения от момента операции до летального исхода называется полными.

Итак, в анализе выживаемости различают полные (по-английски complete) и неполные, или цензурированные, наблюдения (по-английски censored). Конечно, можно было использовать только полные времена жизни, но тогда мы имели бы в своем распоряжении очень мало наблюдений и соответственно неточные оценки. Использование, наряду с полными наблюдениями, неполных или цензурированных наблюдений является главной особенностью методов анализа выживаемости.

I.Таблицы времён жизни

1.1. Исходные данные

Таблица 1

Данные о пациентах, перенесших операцию на сердце

	MONTH_1	DAY_1	YEAR_1	MONTH_2	DAY_2	YEAR_2	CENSORED	AGE	ANTIGEN	MISMATCH	HOSPITAL
1	JANUARY	6	68	JANUARY	21	68	CENSORED	54	0	1,11	HILLVIEW
2	MAY	2	68	MAY	5	68	CENSORED	40	0	1,66	HILLVIEW
3	AUGUST	31	68	MAY	17	70	COMPLETE	51	0	1,32	HILLVIEW
4	SEPTEMBR	9	68	JANUARY	14	69	CENSORED	48	0	0,36	ST_AND
5	OCTOBER	5	68	DECEMBER	8	68	COMPLETE	54	0	1,89	ST_AND
6	OCTOBER	26	68	JULY	7	72	COMPLETE	54	0	0,87	BINER
7	NOVEMBER	22	68	AUGUST	29	69	COMPLETE	49	0	1,12	BINER
8	NOVEMBER	20	68	DECEMBER	13	68	CENSORED	56	0	2,05	HILLVIEW
9	FEBRUARY	15	69	FEBRUARY	25	69	COMPLETE	55	1	2,76	HILLVIEW
10	FEBRUARY	8	69	NOVEMBER	29	71	COMPLETE	43	0	1,13	BINER
11	MARCH	29	69	MAY	7	69	COMPLETE	42	0	1,38	HILLVIEW
12	APRIL	13	69	APRIL	13	71	COMPLETE	58	0	0,96	ST_AND
13	JULY	16	69	NOVEMBER	29	69	COMPLETE	52	1	1,62	ST_AND
14	MAY	22	69	APRIL	1	74	CENSORED	33	0	1,06	ST_AND
15	AUGUST	16	69	AUGUST	17	69	CENSORED	54	0	0,47	BINER
16	SEPTEMBR	3	69	DECEMBER	18	71	COMPLETE	44	0	1,58	BINER
17	SEPTEMBR	14	69	NOVEMBER	13	69	COMPLETE	64	0	0,69	HILLVIEW
18	JANUARY	16	70	APRIL	1	74	CENSORED	49	0	0,91	BINER
19	JANUARY	3	70	APRIL	1	74	CENSORED	40	0	0,38	HILLVIEW
20	MAY	19	70	JULY	12	70	COMPLETE	49	0	2,09	HILLVIEW
21	MAY	13	70	JUNE	29	70	COMPLETE	61	1	0,87	ST_AND
22	MAY	9	70	MAY	9	70	CENSORED	41	0	0,87	ST_AND
23	JULY	4	70	APRIL	1	74	CENSORED	48	0	0,75	BINER
24	OCTOBER	15	70	APRIL	1	74	CENSORED	45	0	0,98	BINER
25	JANUARY	5	71	FEBRUARY	18	71	CENSORED	36	0	0,00	ST_AND
26	JANUARY	11	71	OCTOBER	1	73	COMPLETE	48	0	0,81	BINER
27	FEBRUARY	22	71	APRIL	14	71	COMPLETE	47	0	1,38	HILLVIEW
28	MARCH	22	71	APRIL	1	74	CENSORED	36	0	1,35	HILLVIEW
29	APRIL	24	71	JANUARY	2	72	COMPLETE	48	1	1,08	HILLVIEW
30	AUGUST	18	71	OCTOBER	8	71	COMPLETE	52	0	1,51	ST_AND
31	NOVEMBER	8	71	APRIL	1	74	CENSORED	38	0	0,98	ST_AND
32	OCTOBER	13	71	AUGUST	30	72	COMPLETE	48	1	1,82	ST_AND
33	DECEMBER	15	71	APRIL	1	74	CENSORED	41	0	0,19	BINER
34	NOVEMBER	20	71	JANUARY	9	72	COMPLETE	49	0	0,66	BINER
35	JANUARY	7	72	APRIL	1	74	CENSORED	32	1	1,93	BINER
36	MARCH	4	72	SEPTEMBR	6	73	CENSORED	48	0	0,12	HILLVIEW
37	MARCH	17	72	MAY	22	72	COMPLETE	51	0	1,12	HILLVIEW
38	MAY	18	72	JANUARY	1	73	CENSORED	19	0	1,02	HILLVIEW
39	APRIL	9	72	JUNE	13	72	COMPLETE	45	1	1,68	ST_AND
40	JUNE	10	72	APRIL	1	74	CENSORED	48	0	1,20	ST_AND
41	JUNE	21	72	JULY	16	72	COMPLETE	53	1	1,68	ST_AND
42	AUGUST	20	72	APRIL	1	74	CENSORED	47	0	0,97	BINER
43	AUGUST	17	72	APRIL	1	74	CENSORED	26	1	1,46	BINER
44	OCTOBER	7	72	DECEMBER	9	72	COMPLETE	56	1	2,16	BINER
45	SEPTEMBR	22	72	OCTOBER	4	72	CENSORED	29	0	0,61	HILLVIEW
46	NOVEMBER	18	72	APRIL	1	74	CENSORED	52	1	1,70	HILLVIEW
47	MAY	31	73	APRIL	1	74	CENSORED	49	0	0,81	HILLVIEW
48	FEBRUARY	4	73	MARCH	5	73	COMPLETE	54	0	1,08	ST_AND
49	DECEMBER	31	72	APRIL	1	74	CENSORED	46	0	1,41	ST_AND
50	JANUARY	17	73	APRIL	1	74	CENSORED	52	1	1,94	ST_AND
51	FEBRUARY	24	73	APRIL	13	73	CENSORED	53	0	3,05	BINER
52	MARCH	7	73	DECEMBER	29	73	COMPLETE	42	0	0,60	BINER
53	MARCH	8	73	APRIL	1	74	CENSORED	48	1	1,44	BINER
54	MAY	19	73	JULY	8	73	COMPLETE	46	0	2,25	HILLVIEW
55	APRIL	27	73	APRIL	1	74	CENSORED	54	0	0,68	HILLVIEW
56	AUGUST	21	73	OCTOBER	28	73	COMPLETE	51	1	1,33	HILLVIEW
57	SEPTEMBR	12	73	OCTOBER	8	73	CENSORED	52	1	0,82	ST_AND
58	MARCH	2	74	APRIL	1	74	CENSORED	45	0	0,16	ST_AND
59	AUGUST	7	73	APRIL	1	74	CENSORED	47	0	0,33	ST_AND
60	SEPTEMBR	17	73	FEBRUARY	25	74	COMPLETE	43	0	1,20	BINER
61	OCTOBER	16	73	APRIL	1	74	CENSORED	26	0	0,46	BINER
62	DECEMBER	12	73	APRIL	1	74	CENSORED	23	1	1,78	BINER
63	MARCH	19	74	APRIL	1	74	CENSORED	28	1	0,77	HILLVIEW
64	MARCH	31	74	APRIL	1	74	CENSORED	35	0	0,67	ST_AND

В строках располагаются данные о каждом из прооперированных пациентов. В столбцах указаны даты начала наблюдения за пациентом (дата поступления в клинику/дата операции) – первые три переменные, даты окончания наблюдения (пациент выписался, и связь с ним была потеряна или умер) – последние три переменные. Программа интерпретирует первую и четвёртую переменные как месяцы, вторую и пятую – как дни, а третью и шестую – как год. Имеется также возможность сразу ввести времена жизни (что соответствует одной переменной в файле данных, вместо шести указанных) или даты в другом формате (соответственно, две переменные: дата начала и дата окончания наблюдения).