Хі - квадрат (критерій згоди Пірсона - %2) є об'єктивною оцінкою близькості емпіричних розподілів до теоретичних. Використовується, як уже було сказано, у тих випадках, коли необхідно встановити відповідність двох порівнюваних рядів розподілу - емпіричного і теоретичного, або двох емпіричних. При цьому порівнюються частоти названих рядів розподілу, виявляються розбіжності між ними і визначається вірогідність цих розбіжностей.
За допомогою Хі - квадрат критерію можна виявити відміни в розподілі двох емпіричних рядів, порівнювати вибірки, які мають альтернативні ознаки, а також оцінювати вірогідність кореляції між альтернативними ознаками. Як і інші критерії згоди (Колмогорова А, Романовского, Фішера Б, Ястремского Ь), х2 являє собою деяку величину, яка оцінюється з певною ймовірністю. Він може приймати різні завжди додатні значення (малі й великі). При ^2=0 слід вважати, що відміни між частотами порівнюваних рядів розподілу відсутні. Даний критерій не рекомендується використовувати для оцінки малих вибірок.
Як було показано в § 1.4, за допомогою х2 - критерію можна здійснити статистичну перевірку гіпотез відносно розподілів, тобто відповідність емпіричних даних розподілу деякому теоретичному закону розподілу. Таку оцінку наближення емпіричного розподілу до теоретичного дає сума співвідношень частот
де пф, пт - відповідно частоти емпіричного і теоретичного ряду.
Збіг емпіричних і теоретичних частот зумовлює величину х1 = 0. Це вказує на підтвердження нульової гіпотези. (Но). При наявності достовірної різниці у частотах емпіричного і теоретичного ряду величина х1 буде свідчити про неправильність висунутої гіпотези.
Значення параметра ХІ - квадрат зростає із збільшенням різниці між частотами. Величина х2 також залежить від числа ступенів вільності. Чим менше значення х2, тим вищі його ймовірність і вірогідність. Таким чином, при зміні величини х2 від 0 до а> імовірність його змінюється від 1 до 0. У міру наближення п к а> розподіл х2 наближається до нормального.
При використанні ХІ - квадрат критерію необхідно пам'ятати про достатньо велике число одиниць вибірки (п > 50) і величини частот (п > 5). Як було сказано раніше при п, < 5 об'єднують сусідні інтервали ряду розподілу. Якщо вибіркова сукупність досить велика,
Хі - квадрат критерій буде обґрунтований, тобто у такому випадку він майже завжди спростовує невірну гіпотезу. Серед розроблених критеріїв згоди цей критерій забезпечує мінімальну помилку в прийнятті невірної гіпотези.
При оцінці відмінностей між емпіричним і теоретичним розподілами потрібно знати величини х1 , які відповідають визначеним рівням значимості. Для цієї мети К.Пірсон розробив стандартні таблиці, в яких на перетині значень х1 і числа ступенів вільності подані ймовірності, які оцінюють величину х1 (додаток 6) .
Якщо за розрахунковими даними значення ймовірності виявиться дуже малою величиною, наприклад 0,01, то відмінності між досліджуваними рядами потрібно вважати істотними, тобто нульова гіпотеза не приймається. Якщо ж імовірність виявиться не малою, розбіжності вважаються випадковими і нульова гіпотеза приймається. Р.Фішер довів, що ризик зробити помилку буде невеликим, якщо провести суміжну лінію у ймовірності Р = 0,05. Значення х1 , які лежать за цією лінією (0,04; 0,03; 0,02 тощо), .вказують на наявність істотних відхилень.
При розрахунку числа ступенів вільності досліджуваних частот враховують кількість обчислювальних статистичних характеристик теоретичної функції розподілу. У даному випадку використовувана кількість таких параметрів дорівнює 2 (~,<т) , звідси и =І-1- 2 .
Приклад. Розглянемо розрахунок оцінки відмінності теоретичного і емпіричного розподілів 54 підприємств за трудомісткістю виробництва одиниці продукції (табл. 100).
Для знаходження величини х% використовується відома формула:
де п;,пт - відповідно емпірична і теоретична частоти ряду розподілу. У нашому прикладі, підсумовуючи часткові значення величин х%, одержуємо розрахункове значення х2 - критерію, що дорівнює 4,57. Знаходимо число ступенів вільності для даного випадку :и=І -1-р=6-1-2=3 (І = 6, оскільки два останні інтервали об'єднані в один). За стандартною таблицею /додаток. б/ знаходимо Р(х1 =4,57) при числі ступенів вільності, рівному 3. Табличне значення Р( х1 )= 0,1718. Даний рівень імовірності значно відрізняється від нуля. Тому відмінність між емпиричним і теоретичним розподілами потрібно вважати випадковою і досліджуваний розподіл підприємств за трудомісткістю одиниці продукції необхідно визнати як підпорядкований закону нормального розподілу.
Таблиця 100
Розрахунок критерію х1 при оцінці відмінностей між емпіричним і теоретичним
рядами розподілу
Серединне значення /центр/ інтервалу, хі | Частота, "і | Центрування, хі ~ х 1 | Нормоване відхилення, хі~х 1 а | Табличне значення функції, f(t) | Теоретична частота, щ | Різниця частот, (", -"т) | Xі - критерій, (щ -nT)2 пт |
241 | 6 | 148 | 1,52 | 0,1257 | 5 | 1 | 0,20 |
307 | 10 | 82 | 0,84 | 0,2803 | 10 | 0 | 0,00 |
373 | 20 | 16 | 0,16 | 0,3939 | 15 ' | 5 | 1,60 |
439 | 7 | 50 | 0,51 | 0,3503 | 13 | -6 | 2,77 |
505 | 7 | 116 | 1,19 | 0,1965 | 3 | 0 | 0.00 |
571 | 2 | 182 | 1,87 | 0,0695 | 1 | 0 | 0,00 |
637 | 2 | 248 | 2,55 | 0,0154 | |||
Всього | 54 | X | X | X | 54 | X | 4,57 |
Замість значень показників ймовірності (Р х2), розроблених К.Пірсоном, Р.Фішер розрахував стандартну таблицю значень х1 , які відповідають шуканим імовірностям при різному числі ступенів вільності варіації (додаток. 7).
Розрахунок, такої стандартної таблиці він аргументував тим, що в практичних обчисленнях не так важливо знати точне значення ймовірності Р, яке відповідає значенню х2, як визначити, в який мірі вірогідно фактичне значення х2. Тому в стандартних таблицях Р.Фішера наведено значення х2, які відповідають певним рівням імовірності Р х2. При цьому потрібно відмітити, що названі таблиці містять значення ^2<1, які зустрічаються для малих ступенів вільності, і значення ^2>30 - для великих величин и .
Стандартні математичні таблиці значень х2, Р. Фішера мають більш широкі аспекти практичного використання при розрахунках статистичних оцінок. Випадок їх використання при перевірці гіпотези про розподіли був розглянутий у § 1.4. Нижче викладені деякі інші аспекти розрахунку статистичних оцінок з застосуванням критичних значень х2 стандартних таблиць Р.Фішера.
За допомогою критерію ХІ- квадрат можна перевірити належність кількох вибіркових даних однієї і тієї ж генеральної сукупності при вирішенні питання про однорідність вибірки.
Приклад. Порівняти варіаційний ряд продуктивності молочного стада корів ферм великого рогатої худоби з частковою механізацією і повною механізацією виробничих процесів.
Обчислення хі- квадрат критерію для встановлення різниці в частотах двох емпіричних рядів полягає в тім, що за частоти невідомої генеральної сукупності приймаються величини половини суми частот по кожному інтервалу порівнюваних рядів розподілу (табл. 101).
Подальші розрахунки зводяться до знаходження різниці емпіричних і теоретичних частот і визначення суми їх співвідношень по вже відомій формулі Хі - квадрат критерію (табл. 102).
При цьому в ряд емпіричних частот заносять у послідовному попарної запису частоти обох рядів, у графу теоретичних частот - відповідні їм усереднені частоти теоретичного ряду. Розраховані часткові значення х2 підсумовують і
2 2
отриману суму ) порівнюють із стандартним значенням (%т) при рівні
значимості а = 0,05 і числі ступенів вільності варіації и=І-1= 9-1=8 (додаток. 7). Як бачимо, критична точка для цих параметрів становить 15,5, тобто величина
22
%т дорівнює 15,5 і менше % на 4,4 при порозі імовірності Р = 0,95.
Таблиця 101
Розрахунок теоретичних частот при порівнянні двох емпіричних рядів
Середньорічний надій, кг | Емпірична частота поголів'я корів на фермах з різним рівнем механізації | Теоретичні частоти, п + п2 пт =--2 2 | |
Частково механізованих, п | Цілком механізованих, п2 | ||
3500-3700 | 10 | 4 | 7 |
3700-3900 | 12 | 8 | 10 |
3900-4100 | 16 | 10 | 13 |
4100-4300 | 21 | 11 | 16 |
4300-4500 | 15 | 21 | 18 |
4500-4700 | 7 | 17 | 12 |
4700-4900 | 7 | 15 | 11 |
4900-5100 | 6 | 12 | 9 |
5100-6300 | 6 | 2 | 4 |
100 | 100 | 100 |
Таблиця 102
Розрахунок значення критерію %г ПРИ порівнянні двох емпіричних рядів
Емпіричні частоти у парнопослідовному запису, пі | Теоретичні частоти, пт | Розрахункові величини | |
п, ~ пт | пт | ||
10 | 7 | 3 | 1,29 |
4 | 7 | -3 | 1,29 |
12 | 10 | 2 | 0,40 |
8 | 10 | -2 | 0,40 |
16 | 13 | 3 | 0,69 |
10 | 13 | -3 | 0,69 |
21 | 16 | а | 1,56 |
11 | 16 | -5 | 1,56 |
15 | 18 | -3 | 0,50 |
21 | 18 | 5 | 0,50 |
7 | 12 | -5 | 2,08 |
17 | 12 | 5 | 2,08 |
7 | 11 | -4 | 1,45 |
15 | 11 | 4 | 1,45 |
6 | 9 | -3 | 1,00 |
12 | 9 | 3 | 1,00 |
6 | 4 | 2 | 1,00 |
2 | 4 | -2 | 1,00 |
200 | 200 | X | 19,94 |
Оскільки %2 > ^ можна зробити висновок про вірогідність різниці двох
емпіричних рядів за показниками продуктивності молочного стада корів. Як видно, стан механізації виробничих процесів суттєво впливає на показники продуктивності тварин які обслуговуються . А вибіркову сукупність поголів'я корів, з обслуговуванням при повній механізації процесів, слід вважати якісно іншою- вона належить до другої генеральної сукупності.
У порівнянні із способом обчислення величини Хі -квадрата, розглянутого раніше (в §1.4), коли мова йшла про порівняння емпіричного і теоретичного ряду, в даному прикладі значення %
занижено майже в два рази. Це зумовлюється прийнятим способом обчислення, коли при обробці даних використовується не різниця частот, а напіврізниця, і кількість величин часткових значень х1 більша в два рази, ніж в розрахунках розбіжностей емпіричного і теоретичного рядів розподілу.
При порівнянні двох емпіричних рядів розподілу, представлених неоднаковою кількістю одиниць вибіркової сукупності (Іп1^Іп2),
розрахунок ХІ - квадрат критерію має свою особливість
Приклад. Потрібно визначити, чи вірогідна розбіжність частот за показниками врожайності зернових культур в інтервальному ряді розподілу підприємств з посівами озимої і ярої пшениці (табл. 103).
Таблиця 103
Розрахунок теоретичних частот при порівнянні двох емпіричних рядів з нерівною кількістю одиниць спостережень
Урожайність зернових культур, ц з 1 га | Число підпрємств (частота) з посівами пшениці | Сума частот, щ+ п2 | Теоретичні частоти | |||
(п1 + п2)Т.п1 Т' £(п1 + п21) | т2 І(п1 + п 2) | |||||
озимої, п1 | ярої, п2 | |||||
30-35 | 5 | 8 | 13 | 9,0 | 4,0 | |
35-40 | 20 | 10 | 30 | 20,8 | 9,2 | |
40-45 | 35 | 15 | 50 | 34,6 | 15,4 | |
45-50 | 20 | 5 | 25 | 17,3 | 7,7 | |
50-55 | 10 | 2 | 12 | 8,3 | 3,7 | |
Всього | 90 | 40 | 130 | 90,0 | 40,0 |
На першому етапі розрахунків визначають теоретичні частоти для двох емпіричних рядів (табл. 104), суми за якими повинні бути рівні сумам частот
відповідних рядів(Т.п, = Епп = пт2).Потім розраховують часткові значення %г за раніше описаною схемою і одержані значення підсумовують (табл. 104).
2
Розрахункова величина хі - квадрат критерію ) в розглянутому прикладі
дорівнює 8,39. Число ступенів вільності у = (І1 - 1)(І2 -1) , де І1 -число інтервалів, І2 - число емпіричних рядів розподілу. Таким чином, і)=(5-1)(2-1)=4. За стандартною таблицею значень %г (додаток 7) знаходимо теоретичне значення
хі- квадрат критерію ( ^2) .
Для порогу ймовірності Р =0,95 і числа ступенів вільності 4 величина
22
його становить 9,5. Оскільки % > % можна зробити висновок про неістотність
різниці в частотах двох емпіричних рядів розподілу, які являють собою неоднакову вибірку за кількістю одиниць спостереження.
Таблиця 104
Розрахунок значення критерію %г ПРИ порівнянні двох емпіричних рядів з нерівною кількістю одиниць спостережень
Емпіричні частоти в парнопослідовному запису, п | Теоретичні частоти, пт | Розрахункові величини | |
п - пт | (д - пт )2 пт | ||
5 | 9,0 | -4,0 | 1,78 |
8 | 4,0 | 4,0 | 4,00 |
20 | 20,8 | -0,8 | 0,03 |
10 | 9,2 | 0,8 | 0,07 |
35 | 34,6 | 0,4 | 0,00 |
15 | 15,4 | -0,4 | 0,01 |
20 | 17,3 | 2,7 | 0,42 |
5 | 7,7 | -2,7 | 0,95 |
10 | 8,3 | 1,7 | 0,35 |
2 | 3,7 | -1,7 | 0,78 |
130 | 130 | X | 8,39 |
Хі - квадрат критерій використовується також при порівняні двох альтернативах розподілів, представлених у вигляді кореляційної решітки. Формула, за якою обчислюється х1 , в цьому випадку має вигляд:
(аа1 - вс)--п
2 І 2 ]
X =---,
(а + е)(с + а )(а + с)(е + а)
де а,в,с,а- частоти у відповідних клітинах кореляційної решітки;
п - число одиниць вибіркової сукупності. Для прикладу розглянемо таблицю розподілу робітників по двох групах альтернативних ознак (табл. 105).
Після підстановки у наведену вище формулу даних таблиці 105 одержимо:
Таблиця 105
Розрахунок значення %г ПРИ порівнянні альтернативних розподілів
Число ступенів вільності у = (І - 1)(І2 - 1) =(2-1)(2-1)=1 (І1.І2- число груп відповідно по першій і другій ознаках). Отримане розрахункове
значення Хі - квадрат критерію (%Рг) порівнюємо з табличним значенням (додаток 7).
Для порогу ймовірності 0,95 величина його становить 3,8. Оскільки £ > £т (43,4 > 3,8), можна зробити висновок, що
розглядувані альтернативні розподіли різняться значимо, тобто матеріальний стимул зумовлює підвищення продуктивності праці робітників.
Одне із практичних значень Хі - квадрат критерію полягає у тому, що розрахункову його величину при альтернативних ознаках (% ) можна використовувати для визначення ступеня тісноти зв'язку
між ними. Такою статистичною характеристикою є коефіцієнт кореляції (гх).Розрахунок його проводиться за такою формулою:
Для прикладу, розглянутого вище, величина коефіцієнта
43,4
кореляції становитиме: гх =1 400^4 = ,434 = 0,659.
По його рівню можна стверджувати про досить значний ступінь тісноту зв'язку між продуктивністю праці і її матеріальним стимулюванням.
Крім розглянутих випадків Хі- квадрат критерій може бути застосований і для других розподілів, в яких розбіжності між теоретичними (очікуваними) і фактичними частотами не відповідають якій-небудь очевидній структурі. Використовують даний критерій згоди і при з'ясуванні об'єктивності побудови ряду розподілу, тим самим виключаючи можливість підгонки одиниць спостереження з метою відповідності їх одна одній.
Проте, використання цього критерію передбачає ряд обмежень , яких необхідно дотримуватись при розрахунку х2 як критерію істотності. Як було відмічено раніше, при перевірці гіпотези на відповідність емпіричного розподілу теоретичному бажано мати не менше 50 одиниць спостереження, а в кожній теоретично розрахованій групі мінімально допустима границя величини частот умовно приймається рівною 5 (інколи 3). У зв'язку з цим при малочисельності груп (як правило, крайніх) їх об'єднують. При визначенні відповідності розподілів нормальному закону число ступенів вільності дорівнює числу груп (інтервалів) мінус три (/ - 3). Пояснюється це тим, що обчислення теоретичних частот пов'язано тут трьома умовами (обмеженнями), які визначають нормальний розподіл: визначеним обсягом вибірки (п), середньою величиною (~), від якої знаходяться центральні відхилення, середнім квадратичним відхиленням (сг), за яким проводиться нормування центральних відхилень серед груп (інтервалів).
При об'єднанні інтервалів (у випадку наявності в ряді розподілу частот нижче мінімально допустимого рівня) число ступенів вільності коригують. Величина вторинного числа ступенів вільності дорівнюватиме різниці між числом інтервалів після їх об'єднання мінус 3 (І' -3). Тому для прикладу, розглянутого в § 1.4., останніх два інтервали потрібно було об'єднати. У зв'язку з цим число ступенів вільності становитиме и=І - 3 = 7-3=4.
При цьому стандартне значення Хі- квадрат критерію для Р = 0,95 дорівнюватиме 9,5 (додаток 7).
Розглянуті вище випадки використання Хі - квадрат критерію свідчать про широкі можливості його застосування в практиці статистико - економічного аналізу.
§ 1.7. Перевірка гіпотез про істотність різниць між дисперсіями по F - критерію
§ 1.8. Перевірка гіпотез про істотність різниць дисперсій за критеріями Кохрана і Бартлета
ТЕМА 2. МЕТОДИ БАГАТОМІРНОГО СТАТИСТИЧНОГО АНАЛІЗУ
§ 2.1. Загальне поняття багатомірного статистичного аналізу
§ 2.2. Основні поняття методу факторного аналізу, суть вирішуваних ним завдань
§ 2.3. Математичні основи теорії факторного аналізу . Матриця даних
§ 2.4. Формування вихідної інформації і факторних моделей
§ 2.5. Виділення факторів і визначення їх навантажень
§ 2.6. Метод головних компонент. Загальне поняття методу, його завдання