Математична статистика - Руденко В.М. -
2.4. РЕГРЕСІЯ

Статистичні зв'язки між змінними досліджуються не лише методами кореляційного, а й регресійного аналізу, які доповнюють один одного. Основне завдання кореляційного аналізу - визначення зв'язку між випадковими змінними і оцінювання його інтенсивності та напряму. Основне завдання регресійного аналізу є встановлення форми і вивчення залежності змінних.

Регресія дозволяє за величиною однієї ознаки (змінна x) знаходити середні (очікувані) значення іншої ознаки (змінна У), зв'язаної з x кореляційно. Оскільки в дослідженнях конкретний вид взаємозв'язків невідомий, одне з головних завдань регресійного аналізу полягає у доборі відповідного виразу У = / (X), графік якого проходить через емпіричні точки (або досить близько до них) і таким чином зв'язує змінні x і У.

Вираз У = / (X) має назву рівняння регресії, функція/ (X) - функція регресії, а їхні графіки - лінії регресії. Регресійний аналіз виявляє кількісну залежність ознаки-фактора (залежної змінної) від одного або декількох ознак-факторів (незалежної змінної). Ця залежність може бути одномірною чи ба-гатомірною (множинною), як лінійною, так і нелінійною.

Одномірна лінійна регресія

Одномірна лінійна регресія припускає тільки дві змінні, наприклад, незалежну x і залежну У, а також рівняння лінійного типу Т=а0 + a1■X. Лінійна регресії дає можливість виявляти, на скільки змінюється середня величина однієї ознаки при зміні іншої. Побудова лінійної регресії полягає у розрахунках коефіцієнтів лінійної регресії а0 і а1:

X (х,- - У)

а - £ (,- X)2 ; (2.28)

а0 = У - а1 ■ X, (2.29)

де У і X - середні значення змінних У і x.

Вибір значень коефіцієнтів а0 і а1 виконується за методом "найменших квадратів" так, щоб сума^(у;-У~) = ^Су _а0 _а1 ■ Хі)2 була мінімальною.

Якщо незалежною ознакою виступає У а залежною - x, то рівняння лінійної регресії буде мати інший вигляд типу X =Ь0 + Ь1-У. Коефіцієнти лінійної регресії Ь0 і Ь1 відрізнятимуться від коефіцієнтів а0 і а1.

Приклад 2.10. Оцінити залежність успішності навчання (У) від затраченого часу (X). Емпіричні дані представлено в таблиці рис. 2.62.

Послідовність рішення:

o Виконати розрахунки коефіцієнтів регресії а0 і а1 :

- у комірки В15 і С15 внести =СРЗНАЧ(Б3:Б13) і =СРЗНАЧ(С3:С13) і отримати середні значення масивів X ~ 2,39 і У ~ 4,09;

- у комірках Б3:Н13 розрахувати різниці, добутки і квадрати різниць за допомогою відповідних формул, що показано на рис. 2.63;

- у комірках Р14:Н14 розрахувати суми добутків і квадратів різниць;

- у комірках Б17 і Б17 розрахувати коефіцієнти лінійної регресії а1 і а0 за допомогою виразів =Р14Л314 і =С15-017*В15:

я1 = 7,11/5,19 ~ 1,37 і а0 = 4,09-1,37-2,39 ~ 0,82;

Рис. 2.62. Розрахунки лінійної регресії

Рис. 2.63. Формули для розрахунку лінійної регресії

- виконати у комірках 13:113 розрахунки теоретичного значення 7 за ре-гресійним рівнянням F=0,82+1,37■X. Для цього у комірку 13 внести вираз =$0$18+$0$17*Б3. Аналогічні вирази внести в інші комірки стовпчика І;

- у комірках Н17:Н18 аналогічним способом розрахувати коефіцієнти регресії Ь0 і Ь1 регресійного рівняння X =Ь0 + ЬгУ;

- у комірці Б21 розрахувати коефіцієнт кореляції за допомогою виразу =Р14/КОРЕНЬ(в14*И14) або =ПИРСОН(Б3:Б13;С3:С13), отримати гху^ 0,76;

- побудувати графіки лінійної регресії (рис. 2.64).

Висновки. Рівняння регресії F=0,82+1,37oX а також X=0,67 + 0,42-У (графіки регресії) дають можливість аналітичного прогнозування значень залежної змінної за допомогою незалежної змінної. Отримані регресійні рівняння мають різні коефіцієнти регресії і виконують різні прогнозуючи функції: перше прогнозує У за значеннями X, друге - навпаки, x за значеннями У (звичайно, якщо таке прогнозування має сенс).

Множинна регресія

Множинна регресія - це оцінювання, наприклад, змінної У лінійною комбінацією т незалежних зміннихх12, хт. Найпростіший варіант регресії має місце для т=2, коли необхідно спрогнозувати залежність однієї змінної У від двох змінних х1 і Х2. Рівняння такої множинної регресії має вигляд:

? = Бх X! + Б2 ■ X2 + Б0, (2.30)

де Б1 = Ь1 o Зу/^; Б2 = Ь2 ■ $у/$г;, Б0 = У - Ах X1 - А2 o X2;

Ь1 = (Гу1 ~ Гу2 o Г12 )/(1 - Г122 ) ; Ь2 = у2 " Гу1 ' Г12 )/(1 " ^2 )

зу, з1, з2 , У, X1, X2 - стандартні відхилення і середні значення У , х1 і х2 ; Гу1, Гу2, г12 - коефіцієнти парної кореляції Пірсона між У і Х1, У і Х2, Х1 і Х2. Для оцінювання зв'язку, з одного боку, змінної У, а з іншого - двох змінних Х1 і Х2, використовують коефіцієнт множинної кореляції:

Ку-1,2 =д/Ь1 o Гу1 + Ь2 o Гу2 . (2.31)

Приклад 2.11. Спрогнозувати залежність змінної У від комбінації незалежних зміннихХ1 і Х2 за емпіричними даними рис. 2.65. Послідовність рішення:

o Виконати розрахунки коефіцієнтів множинної регресії і множинної кореляції (рис. 2.65 і 2.66):

- у комірки В15:015 внести =СРЗНАЧ(В3:В14), =СРЗНАЧ(С3:С14) і =СРЗНАЧ(03:014), отримати середні значення У ~ 4,00, X~ 5,83 і ї2 =3,17;

- у комірки В16:016 внести функції =СТАНДОТКЛОН(В3:В14),

=СТАНДОТКЛОН(С3:С14), =CTAHflOTFJIOH(D3:D14) і отримати стандартні відхилення sy ~ 0,74; s1 ~ 2,17 і s2 ~ 1,11 ;

- у комірках В17:В19 розрахувати коефіцієнти парної кореляції Пірсона за допомогою функції MS Excel =ПИРСОН() з відповідними аргументами і отримати такі значення ry1 ~ 0,68; ry2 ~ 0,11 і r12 ~ -0,21;

- у комірки В20 і В21 внести вирази =(B17-B18*B19)/(1-B19A2) і =(B18-B17*B19)/(1-B19A2), отримати значення b1 ~ 0,74 і b2 ~ 0,27;

- у комірки Е20:Е22 внести вирази =B20*B16/C16, =B21*B16/D16 і =B15-E20*C15-E21*D15, отримати значення коефіцієнтів множинної регресії В1 ~ 0,25; ^2 ~ 0,18 і В-0 ~ 1,97;

Рис. 2.65. Параметри регресії та множинна кореляція Яу-1^

- виконати у комірках Е3:Е14 розрахунки теоретичного значення 7 за рівнянням множинної регресії типу Г=0,251oX1+0,18oX2+1,97. Для цього у комірку Е3 внести вираз =$Е$20*С3+$Е$21*Б3+$Е$22. Аналогічні вирази внести в комірки Е4:Е14;

- у комірку В22 внести вираз =КОРЕНЬ(В20*В17+В21*В18) і отримати значення коефіцієнта множинної кореляції Яу-1^ ~ 0,73.

Рис. 2.66. Формули для розрахунку регресії та множинної кореляції

Регресійне рівняння 7=0,251 oX1+0,18oX2 +1,97 дає можливість прогнозування змінної У за змінними х1 і Х2. Наприклад, прогнозованими значеннями можуть бути такі: 1 ~ 2,83 дляХ1=2 і Х2=2 і 1 ~ 3,08 дляХ1=3 і Х2=2 та ін. Коефіцієнт множинної кореляції Яу12 =0,73 свідчить про суттєвий прямий зв'язок між змінної У, з одного боку, і змінними Х1 і Х2, з другого, проте оцінити вклад у кореляцію кожної змінної окремо не представляється можливим.

Запитання. Завдання.

1. Розкрийте ідею методів регресії як засобу прогнозування.

2. Охарактеризуйте прогнозуючі можливості одномірної лінійної регресії.

3. Охарактеризуйте прогнозуючі можливості множинної регресії.

4. Повторіть математичні процедури завдань за прикладами 2.10 - 2.11.

5. Виконайте лабораторну роботу № 7.

Одномірна лінійна регресія
Множинна регресія
3. ОСНОВИ ТЕОРІЇ ЙМОВІРНОСТЕЙ
3.1. ВИПРОБУВАННЯ ТА ПОДІЇ
Основні поняття і означення
Операції над подіями
Ймовірність подій
Умовна ймовірність
Формула повної ймовірності
Формула Байєса