Розглянуті в попередніх параграфах способи оцінки відмінності між двома вибірковими спостереженнями ґрунтувалися на припущенні про нормальний характер розподілу генеральних сукупностей (або близькому до нормального). Але експериментатору (досліднику) не завжди відома форма розподілу даних, з яких проводиться вибірка. Тому використання критеріїв X і х1 може інколи привести до суб'єктивної оцінки результатів спостережень. У зв'язку з цим в математичній статистиці розроблені критерії оцінки вибірок з будь - якого виду розподілу.
Теоретичною основою їх розробки є припущення, що ряд послідовних спостережень можна розглядати як просту незалежну вибірку з незмінним розподілом. Ці критерії одержали назву непараметричних. Для їх розрахунків непотрібно обчислювати середню, дисперсію та інші статистичні характеристики вибіркових розподілів. У деяких випадках для розрахунку непараметричних критеріїв використовуються не безпосередні дані спостереження, а різного роду впорядковані ряди (з нагромадженими частотами, ранжировані різниці одиниць спостережень і т.п.). Критерії, які розраховуються у цьому випадку, називають порядковими.
До непараметричних критеріїв відносять: критерій Л, (ламбда) Колмогорова, критерій Уайта, критерій Уілксона.
Ступінь наближення емпіричного розподілу до обчислюваного (теоретичного), в равній мірі як і порівняльну оцінку двох однорідних варіаційних рядів, визначають за допомогою непараметричного критерію Л (ламбда). Якщо використання хі- квадрат критерію ґрунтується на використанні таких вибіркових характеристик (параметрів) як середня (5с) і стандарт (а), то при розрахунку Л -критерію їх обчислення непотрібно. Він оснований на відповідності рядів інтегральних (нагромаджених) частот досліджуваних сукупностей. Суть його полягає в розрахунку величини максимальної різниці (D) нагромаджених частот (частостей) емпіричного і теоретичного розподілів. Тобто для використання цього критерію необхідне впорядкування двох рядів розподілу у вигляді їх кумуляції. А.Н.Колмогоров довів, що при необмеженому зростанні чисельності вибірки (n) імовірність нерівності Dyfn >Х прямує до границі
limРф4П >х) = і£ (-1)к е-2Л
де D - величина максимальної різниці нагромаджених частот (частостей) емпіричного і теоретичного розподілів.
Непараметричний показник X розраховується як відношення максимальної різниці (без врахування її знака) нагромаджених частот емпіричного і теоретичного рядів розподілу до кореня квадратного із чисельності вибірки:
D max| ni - nT І
У випадку повного збігу порівнюваних частот в рядах розподілу X = 0. Чим більша розбіжність в рядах, тим більша величина ламбда-критерію. Але занадто велику величину X випадковими відхиленнями у порівнюваних рядах розподілу пояснити важко, тому робиться висновок про невідповідність вибіркового розподілу і теоретично припущеного.
Критерій згоди Колмогорова (а), на відміну від Хі- квадрат критерію, дуже простий не тільки в розрахунках, але й не передбачає використання стандартних таблиць для його оцінки. Теоретично доведено, що при чисельності вибіркової сукупності приблизно більш 25 одиниць (n > 25) граничні значення критерію ламбда (ХІ), що відповідають трьом порогам довірчої імовірності (Р = 0,95; Р = 0,99; Р= 0,999), дорівнюють відповідно 1,36; 1,63; 1,95. Показник числа ступенів вільності при цьому не розраховується.
Таким чином, якщо лр >хт, то з відповідною ймовірністю розбіжності між емпіричним і теоретичним розподілами визнаються значущими (істотними).
Приклад. Продемонструємо розрахунок критерію згоди Колмогорова на прикладі розподілу підприємств за урожайністю зернових культур (табл. 106).
Таблиця 106
Розрахунок критерію "ламбда" (X ) при оцінці розбіжностей між емпіричним і теоретичним
рядами розподілу
Серединне значення (центр) інтервалу, Хі | Частота, я, | Центрування, хі ~* | | Нормоване відхилення, Iх! ~* | а | Табличне значення функції, ед | Теоретична частота (заокруглена), пт | Нагромаджені частоти | СІ = пгПт 1 | |
гі, | ||||||||
20,5 | 7 | 6,4 | 1,42 | 0,1456 | 6 | 1 | 6 | І |
23,5 | 15 | 3,4 | 0,75 | 0,3011 | 12 | 22 | 18 | 4 |
26,5 | 16 | 0,4 | 0,10 | 0,3970 | 15 | 38 | 33 | 5 |
29,5 | 9 | 2,6 | 0,58 | 0,3372 | 13 | 47 | 46 | 1 |
32,5 | 5 | 5,6 | 1,24 | 0,1849 | 7 | 52 | 53 | 1 |
35,5 | 3 | 8,6 | 1,91 | 0,0644 | 3 | 55 | 56 | 1 |
38,5 | 2 | 11,6 | 2,58 | 0,0143 | І | 57 | 57 | 0 |
X | 57 | X | X | X | X | X | X | X |
Максимальне значення різниці нагромаджених частот емпіричного і теоретичного рядів розподілу дорівнює " - гіт = 5 ■ Величина ламбда-критерію становитиме:
Х=-5= = 0,66.
Одержана величина критерію (0,66) значно менше теоретичного її рівня (Л05= 1,36) відповідного порога ймовірності (Р = 0,95). Тому розходження між емпіричним розподілом і нормальним визнаються невірогідними, тобто розходження між частотами знаходяться в межах випадкових коливань.
Для виявлення вірогідності двох емпіричних розподілів, одержаних в результаті вибірки з однієї і тієї ж генеральної сукупності, але які мають неоднакову кількість одиниць, критерій "ламбда" обчислюється за формулою:
Би, Щ, и,и,
X = -1--- max -
Би,
де -1 - суми нагромаджених частот по кожному інтервалу першого ряду гі
розподілу, поділені на обсяг вибірки;^"і - те ж по другому ряду розподілу;
^гі. _ Zrii max - максимальне абсолютне значення (без врахування знака)
різниці часток від ділення нагромаджених частот на обсяг вибірки;
и1, и2 - обсяги одиниць вибіркової сукупності по першому і другому ряду розподілів.
У таблиці 107 представлені два емпіричних ряди розподілу підприємств за врожайністю зернових культур, відібраних з однієї генеральної сукупності, але які різняться обсягами вибірки.
В останній графі цієї таблиці максимальна різниця кумульованих частот
представлена величиною 0,07. Підставивши її у вище наведену формулу,
знайдемо значення критерію "ламбда".
Ггі1хгі7 пг7 /100 х 200 " ґп
Х = d max Р-^ = 0.07,-= 0,57 .
1+ n2 V 100 + 200
Розрахована величина критерію менше граничних критичних значень X для всіх трьох порогів імовірності (Л005 = 1,36; 10 01 = 1,63; 10 001 = 1,95). Це свідчить
про неістотність розбіжностей між порівнюваними емпіричними рядами розподілу. Звідси висновок про те, що обидві вибірки репрезентують досліджувану генеральну сукупність.
У випадках, коли під знаком радикала громіздкі числа, розглянуту вище формулу приводять до вигляду:
Xі = d2 max ril^ri..
П + n2
Таблиця 107
Розрахунок критерію "ламбда" {X >при оцінці розбіжностей між емпіричними рядами розподілу з
неоднаковими обсягами вибірки
Серединне значення інтервалу, Хі | Частоти | Нагромаджені частоти | Розрахункові дані | |||||
"і | п, | ги Пі | гй Пі | Пі Пі | ||||
20,5 | 3 | 5 | 3 | 5 | 0,03 | 0,02 | 0,01 | |
23,5 | 10 | 15 | 13 | 20 | 0,13 | 0,10 | 0,03 | |
26,5 | 12 | 20 | 25 | 40 | 0,25 | 0,20 | 0,05 | |
29,5 | 20 | 58 | 45 | 98 | 0,45 | 0,49 | 0,04 | |
32,5 | 19 | 44 | 64 | 142 | 0,64 | 0,71 | 0,07 | |
35,5 | 16 | 20 | 80 | 162 | 0,80 | 0,81 | 0,01 | |
38,5 | 10 | 15 | 90 | 177 | 0,90 | 0,88 | 0,02 | |
41,5 | 5 | 10 | 95 | 187 | 0,95 | 0,93 | 0,02 | |
44,5 | 4 | 8 | 99 | 195 | 0,99 | 0,97 | 0,02 | |
47,5 | 1 | 5 | 100 | 200 | 1,00 | 1,00 | X | |
X | 100 | 200 | X | X | X | X | X |
Підставивши в цю формулу необхідні значення, маємо:
* = о,0722000- = 0,327; 300
X = ^0,327 = 0,57.
§ 1.8. Перевірка гіпотез про істотність різниць дисперсій за критеріями Кохрана і Бартлета
ТЕМА 2. МЕТОДИ БАГАТОМІРНОГО СТАТИСТИЧНОГО АНАЛІЗУ
§ 2.1. Загальне поняття багатомірного статистичного аналізу
§ 2.2. Основні поняття методу факторного аналізу, суть вирішуваних ним завдань
§ 2.3. Математичні основи теорії факторного аналізу . Матриця даних
§ 2.4. Формування вихідної інформації і факторних моделей
§ 2.5. Виділення факторів і визначення їх навантажень
§ 2.6. Метод головних компонент. Загальне поняття методу, його завдання
§ 2.7. Кластерний аналіз. Загальне поняття, його математичні основи та завдання