Теорія статистики - Мармоза А.Т. -
Розділ 9. Кореляційний аналіз

9.1. Поняття про кореляційний аналіз

Вивчення реальної дійсності показує, що практично кожне суспільне явище знаходиться в тісному зв'язку і взаємодії з іншими явищами, якими б випадковими вони не здавалися на перший погляд. Так, наприклад, рівень урожайності сільськогосподарських культур залежить від множини природних і економічних факторів, тісно пов'язаних між собою.

Дослідження і вимірювання взаємозв'язків і взаємозалежностей соціально-економічних явищ є одним з найважливіших завдань статистики.

Для дослідження взаємозв'язків між явищами статистика використовує ряд методів і прийомів: статистичні групування (прості і комбінаційні). індексний, кореляційний і дисперсійний аналіз, балансовий, табличний, графічний та ін. Зміст, специфіка і можливості застосування деяких з перелічених методів уже були розглянуті в попередніх розділах підручника. Індексний і графічний методи розглядаються відповідно в 11 і 12 розділах.

Поряд з уже розглянутими методами вивчення взаємозв'язків особливе місце займає метод кореляції, який є логічним продовженням таких методів як аналітичне групування, дисперсійний аналіз і зіставлення паралельних рядів. В поєднанні з цими методами він надає статистичному аналізу закінчений, завершений характер.

Засновниками теорії кореляції є англійські статистики Ф.Гальтон (1822-1911 pp.) і К.Пірсон (1857-1936 pp.).

Термін кореляція походить від англійського слова correlation - співвідношення, відповідність (взаємозв'язок, взаємозалежність) між ознаками, що виявляється при масовому спостереженні зміни середньої величини однієї ознаки залежно від значення іншої. Ознаки, що пов'язані між собою кореляційним зв'язком, називають корельованими.

Кореляційний аналіз дає змогу виміряти ступінь впливу факторних ознак на результативні, встановити єдину міру тісноти зв'язку і роль досліджуваного фактора (факторів) у загальній зміні результативної ознаки. Кореляційний метод дозволяє одержати кількісні характеристики ступеня зв'язку між двома і більшим числом ознак, а тому на відміну від розглянутих вище методів, дає більш широке уявлення про зв'язок між ними.

Зв'язки між факторами досить різноманітні. При цьому одні ознаки виступають в ролі факторів, що діють на інші, зумовлюючи їх зміну, другі -в ролі дії цих факторів. Перші з них називають факторними ознаками, другі -результативними.

Досліджуючи зв'язки між ознаками, необхідно виділити насамперед два види зв'язків: 1) функціональний (повний) і 2) кореляційний (статистичний) зв'язок.

Функціональним називають такий зв'язок між ознаками, при якому кожному значенню однієї змінної (аргумента) відповідає строго визначене значення другої змінної (функції). Такі зв'язки спостерігаються в математиці, фізиці, хімії, астрономії та інших науках.

Наприклад, площа круга (8 = яР2) і довжина кола (С = 27ГЇР) повністю визначається величиною радіуса, площі трикутника і прямокутника - довжиною їх сторін тощо. Так, із збільшенням радіуса кола на 1 см його довжина збільшується на 6,28 см, на 2 см - на 12,56 см і т.д.

У сільськогосподарському виробництві прикладом функціонального зв'язку може бути зв'язок між виручкою від продажу продукції, ціною реалізації 1 ц і кількістю реалізованої продукції; валовим збором, урожайністю і розміром посівної площі; фондовіддачею, вартістю валової продукції і основних фондів; заробітною платою і кількістю відпрацьованого часу при погодинній оплаті тощо.

Функціональний зв'язок виявляється як у сукупності в цілому, так і в кожній її одиниці абсолютно точно і виражається за допомогою аналітичних формул.

В соціально-економічних явищах функціональні зв'язки між ознаками трапляються рідко. Тут найчастіше мають місце такі зв'язки між змінними величинами, при яких чисельному значенню однієї з них відповідає кілька значень інших. Такий зв'язок між ознаками дістав назву кореляційного (статистичного) зв'язку. Наприклад, відомо, що із збільшенням доз мінеральних добрив і поліпшенням їхньої структури (співвідношення), як правило, урожайність сільськогосподарських культур підвищується, але добре відомо, що приріст урожайності у кожному окремому випадку буде різним при однакових нормах внесення добрив. Крім того, одні і ті самі норми добрив, навіть при дуже вирівняних умовах, часто по-різному впливають на урожайність. Крім самих добрив на величину формування урожайності впливають також інші фактори, насамперед, такі як якість грунту, опади, строки і способи сівби та збирання тощо. Відома закономірність між урожайністю і добривами проявиться при досить великій кількості спостережень і при порівнянні досить великої кількості середніх значень результативної і факторної ознак.

Прикладом кореляційного зв'язку в сільськогосподарському виробництві може бути зв'язок між продуктивністю тварин і рівнем годівлі, якістю кормів, породністю худоби; між стажем роботи і продуктивністю праці робітників тощо.

Кореляційний зв'язок є неповним, він проявляється при великій кількості спостережень, при порівнянні середніх значень результативної і факторної ознак. У цьому відношенні виявлення кореляційних залежностей пов'язано з дією закону великих чисел: тільки при досить великій кількості спостережень індивідуальні особливості і другорядні фактори згладяться і залежність між результативною і факторною ознаками, якщо вона має місце, виявиться досить виразно.

За допомогою кореляційного аналізу вирішують такі основні завдання:

а) визначення середньої зміни результативної ознаки під впливом одного або кількох факторів (в абсолютному або відносному вимірі);

б) характеристика ступеня залежності результативної ознаки від одного з факторів при фіксованому значенні інших факторів, включених до кореляційної моделі;

в) визначення тісноти зв'язку між результативними і факторними ознаками (як з усіма факторами, так і з кожним фактором окремо при виключенні впливу інших);

г) визначення і розкладання загального обсягу варіації результативної ознаки на відповідні частини і встановлення ролі кожного окремого фактора в цій варіації;

д) статистична оцінка вибіркових показників кореляційного зв'язку. Кореляційний зв'язок виражається відповідними математичними рівняннями. За напрямом зв'язок між корелюючими ознаками може бути прямим і оберненим. При прямому зв'язку обидві ознаки змінюються в одному напрямі, тобто із збільшенням факторної ознаки зростає результативна і навпаки (наприклад, зв'язок між якістю грунту і врожайністю, рівнем годівлі і продуктивністю тварин, стажем роботи і продуктивністю праці). При оберненому зв'язку обидві ознаки змінюються в різних напрямах (наприклад, зв'язок між урожайністю і собівартістю продукції, продуктивністю праці і собівартістю продукції).

За формою або аналітичним вираженням розрізняють зв'язки прямолінійні (або просто лінійні) і нелінійні (або криволінійні). Якщо зв'язок між ознаками виражається рівнянням прямої лінії, то його називають лінійним зв'язком, якщо ж він виражається рівнянням будь-якої кривої (параболи, гіперболи, показникової, степеневої і т.д.), то такий зв'язок називають нелінійним або криволінійним.

Залежно від кількості досліджуваних ознак розрізняють парну (просту) і множинну кореляцію. При парній кореляції вивчають зв'язок між двома ознаками (результативною і факторною), при множинній кореляції - зв'язок між трьома і більшим числом ознак (результативною і двома і більшим числом факторів).

За допомогою методу кореляційного аналізу вирішується два головних завдання: 1) визначення форми і параметрів рівняння зв'язку; 2) вимірювання тісноти зв'язку.

Перше завдання вирішується знаходженням рівняння зв'язку і визначенням його параметрів. Друге - за допомогою розрахунку різних показників тісноти зв'язку (коефіцієнта кореляції, кореляційного відношення, індексу кореляції та ін.).

Схематично кореляційний аналіз можна поділити на п'ять етапів:

1) постановка завдання, встановлення наявності зв'язку між досліджуваними ознаками;

2) відбір найістотніших факторів для аналізу;

3) визначення характеру зв'язку, його напряму і форми, вибір математичного рівняння для вираження існуючих зв'язків;

4) розрахунок числових характеристик кореляційного зв'язку (визначення параметрів рівняння і показників тісноти зв'язку);

5) статистична оцінка вибіркових показників зв'язку.

Науково обґрунтоване застосування кореляційного методу потребує перед усім глибокого розуміння суті взаємозв'язків соціально-економічних явищ. Сам метод не встановлює наявність і причин виникнення зв'язків між досліджуваними явищами, його призначення полягає в їх кількісному вимірюванні. На першому етапі кореляційного аналізу здійснюється загальне ознайомлення з досліджуваним об'єктом і явищами, уточнюються мета і завдання дослідження, встановлюється теоретична можливість причинно-наслідкового зв'язку між ознаками.

Встановлення причинних залежностей в досліджуваному явищі передує власне кореляційному аналізу. Тому застосуванню методів кореляції повинен передувати глибокий теоретичний аналіз, який охарактеризує основний процес, що протікає в досліджуваному явищі, визначить суттєві зв'язки між окремими його сторонами і характер їх взаємодії.

Попередній аналіз даних створює основу для формулювання конкретного завдання дослідження зв'язків, відбору найважливіших факторів, встановлення можливої форми взаємозв'язку ознак і тим самим приводить до математичної формалізації - до вибору математичного рівняння, яке найбільш повно відтворить існуючі зв'язки.

Одним із найважливіших питань кореляційного аналізу є відбір результативної і факторної (факторних) ознак. Факторні і результативні ознаки, що відбираються для кореляційного аналізу, повинні бути суттєвими, перші повинні безпосередньо впливати на другі. Відбір факторів для включення їх в кореляційну модель повинен базуватися передусім на теоретичних основах і практичному досвіді аналізу досліджуваного соціально-економічного явища. Велику допомогу в розв'язанні цього завдання можуть надати такі статистичні прийоми і методи, як зіставлення паралельних рядів, побудова таблиць розподілу чисельностей за двома ознаками (кореляційних таблиць), побудова статистичних групувань як за результативною ознакою з аналізом взаємопов'язаних з нею факторів, так і за факторною ознакою (або комбінацією факторних ознак) з аналізом їх впливу на результативну ознаку.

Відбір факторів для парних кореляційних моделей не складний: з множини факторів, що впливають на результативну ознаку, відбирається один із найважливіших факторів, який в основному визначає варіацію результативної ознаки або ж фактор, істотність впливу якого на результативну ознаку передбачається вивчити або перевірити. Відбір факторів для множинних кореляційних моделей має ряд особливостей і обмежень. Вони будуть розглянуті при викладенні питань множинної кореляції.

Одною з головних проблем побудови кореляційної моделі є визначення форми зв'язку і на цій основі встановлення типу аналітичної функції, що відображає механізм зв'язку результативної ознаки з факторною (факторними). Під формою кореляційного зв'язку розуміють тип аналітичного рівняння, що виражає залежність між досліджуваними ознаками.

Вибір того або іншого рівняння для дослідження зв'язків між ознаками є найбільш важким і відповідальним завданням, від якого залежать результати кореляційного аналізу. Всі подальші найретельніші розрахунки можуть бути обезцінені, якщо форма зв'язку вибрана невірно. Важливість цього етапу полягає в тому, що правильно встановлена форма зв'язку дає змогу підібрати і побудувати найбільш адекватну модель і на основі її розв'язання одержати статистично вірогідні і надійні характеристики.

Встановлення форми зв'язку між ознаками в більшості випадків обґрунтовується теорією або практичним досвідом попередніх досліджень. Якщо форма зв'язку невідома, то при парній кореляції математичне рівняння може бути встановлено за допомогою складання кореляційних таблиць, побудови статистичних групувань, перегляду різних функцій на ЕОМ і вибір такого рівняння, яке дає найменшу суму квадратів відхилень фактичних даних від вирівняних (теоретичних) значень та ін.

Залежно від вихідних даних теоретичною лінією регресії можуть бути різні типи кривих або пряма лінія. Так, якщо зміна результативної ознаки під впливом фактора характеризується постійними приростами, то це вказує на лінійний характер зв'язку, якщо ж зміни результативної ознаки під впливом фактора характеризується постійними коефіцієнтами зростання, то є підстава припустити криволінійний зв'язок.

Особливе місце в обґрунтуванні форми зв'язку при проведенні кореляційного аналізу належить графікам, побудованих у системі прямокутних координат на основі емпіричних даних. Графічне зображення фактичних даних дає наочне уявлення про наявність і форму зв'язку між досліджуваними ознаками.

Згідно з правилами математики при побудові графіка на осі абсцис відкладають значення факторної ознаки, а на осі ординат - значення результативної ознаки. Відклавши на перетині відповідних значень двох ознак точки, одержимо точковий графік, який називають кореляційним полем. За характером розміщення точок на кореляційному полі роблять висновок про напрям і форму зв'язку. Достатньо поглянути на графік, щоб прийти до висновку про наявність і форму зв'язку між ознаками. Якщо точки концентруються навколо уявної осі напрямленої зліва, знизу, направо, вгору, то зв'язок прямий, якщо к навпаки зліва, зверху, направо, вниз - зв'язок обернений. Якщо точки розкидані по всьому полю, то це свідчить про те, що зв'язок між ознаками відсутній або дуже слабкий. Характер розміщення точок на кореляційному полі вказує також і на наявність прямолінійного або криволінійного зв'язку між досліджуваними ознаками.

За допомогою графіка добирають відповідне математичне рівняння для кількісної оцінки зв'язку між результативною і факторною ознаками. Рівняння, що відображає зв'язок між ознаками, називають рівнянням регресії або кореляційним рівнянням. Якщо рівняння регресії зв'язує лише дві ознаки, то воно називається рівнянням парної регресії. Якщо рівняння зв'язку відображає залежність результативної ознаки від двох і більше факторних ознак, воно називається рівнянням множинної регресії. Криві, побудовані на основі рівнянь регресії, називають кривими регресії або лініями регресії.

Розрізняють емпіричну і теоретичну лінії регресії. Якщо на кореляційному полі з'єднати точки відрізками прямої лінії, то одержимо ламану лінію з деякою тенденцією, яка називається емпіричною лінією регресії. Теоретичною лінією регресії називається та лінія, навколо якої концентруються точки кореляційного поля і яка вказує основний напрям, основну тенденцію зв'язку. Теоретична лінія регресії повинна відображати зміну середніх величин результативної ознаки в міру зміни величин факторної ознаки при умові повного взаємопогашення всіх інших - випадкових по відношенню до фактора - причин. Отже, ця лінія має бути проведена так, щоб сума відхилень точок кореляційного поля від відповідних точок теоретичної лінії дорівнювала нулю, а сума квадратів відхилень була б мінімальною величиною. Пошук, побудова, аналіз і практичне застосування теоретичної лінії регресії називають регресійним аналізом.

За емпіричною лінією регресії не завжди вдається встановити форму зв'язку і добрати рівняння регресії. В таких випадках будують і розв'язують різні рівняння регресії. Потім оцінюють їх адекватність і добирають таке рівняння, яке забезпечує найкращу апроксимацію (наближення) фактичних даних до теоретичних і достатню статистичну вірогідність і надійність.

Якщо підходити строго, регресійно-кореляційний аналіз слід розчленувати на регресійний і кореляційний. Регресійний аналіз вирішує питання побудови, розв'язання і оцінки рівнянь регресії, а при кореляційному аналізі до цих питань приєднується ще коло питань пов'язаних із визначенням тісноти зв'язку між результативною і факторною (факторними) ознаками. В подальшому викладенні регресійно-кореляційний аналіз розглядається як єдине ціле і називається просто кореляційний аналіз.

Щоб результати кореляційного аналізу знайшли практичне застосування і дали науково обґрунтовані результати, повинні виконуватись певні вимоги відносно об'єкта дослідження і якості вихідної статистичної інформації. Основні з цих вимог такі:

- якісна однорідність досліджуваної сукупності, що передбачає близкість формування результативних і факторних ознак. Необхідність виконання цієї умови випливає із змісту параметрів рівняння зв'язку. З математичної статистики відомо, що параметри є середніми величинами. В якісно однорідній сукупності вони будуть типовими характеристиками, в якісно різнорідній - спотвореними, що перекручують характер зв'язку. Кількісна однорідність сукупності полягає у відсутності одиниць спостереження, які за своїми числовими характеристиками суттєво відрізняються від основної маси даних. Такі одиниці спостереження слід виключати із сукупності і вивчати окремо;

- досить велике число спостережень, оскільки зв'язки між ознаками виявляються тільки внаслідок дії закону великих чисел. Кількість одиниць спостереження повинна в 6 - 8 разів перевищувати кількість включених у модель факторів;

- випадковість і незалежність окремих одиниць сукупності одна від одної. Це означає, що значення ознак у одних одиниць сукупності не повинні залежати від значень у інших одиниць даної сукупності;

- стійкість і незалежність дії окремих факторів;

- сталість дисперсії результативної ознаки при зміні факторних ознак; - нормальний розподіл ознак.

9.1. Поняття про кореляційний аналіз
9.2. Парна (проста) лінійна кореляція
9.3. Показники тісноти зв'язку
9.4. Криволінійна кореляція
9.5. Статистична оцінка вибіркових показників зв'язку
9.6. Непараметричні критерії оцінки кореляційного зв'язку
9.7. Особливості кореляційного аналізу в рядах динаміки
Розділ 10. Ряди динаміки
10.1. Поняття про ряди динаміки і їх види. Наукові умови побудови рядів динаміки
10.2. Показники ряду динаміки