Теорія статистики - Мармоза А.Т. -
7.2. Помилки при перевірці статистична гіпотез. Статистичні критерії і критична область

В результаті перевірки статистичної гіпотези, що ґрунтується на даних вибірки обмеженого обсягу, можна відхилити і прийняти нульову гіпотезу (відповідно вибіркові дані суперечать і узгоджуються з Н0). Звідси видно, що перевірка статистичних гіпотез пов'язана з ризиком прийняття помилкових рішень.

Неправильне рішення може бути прийняте у двох випадках. В зв'язку з цим розрізняють помилки двох родів.

Помилка першого роду полягає в тому, що нульова гіпотеза Н0 відхиляється, хоча в дійсності вона є правильною.

Помилка другого роду полягає в тому, що приймається нульова гіпотеза Н0, хоча насправді правильною є альтернативна гіпотеза На.

Якщо, наприклад, встановлено, що новий пестицид є кращим, хоча насправді його дія не відрізняється від старого, це помилка першого роду; якщо ми вирішили, що обидва види пестицидів однакові, тоді як насправді новий вид є кращим, то допущена помилка другого роду.

Правильні і неправильні рішення можуть бути отримані в двох випадках, що наочно ілюструє табл.7.1.

Таблиця 7.1. Можливі результати перевірки нульової гіпотези

Результат перевірки Но

Можливий стан гіпотези, що перевіряється

правильна гіпотеза Н0

правильна гіпотеза На

Н" відхиляється

Помилка першого роду а

Правильне рішення

Но приймається

Правильне рішення

Помилка другого роду р

Імовірність допустити помилку першого роду (невиправдане відхилення Н0) отримала назву рівня значущості і позначається а. Імовірність зробити помилку другого роду (прийняття неправильної гіпотези Н0) позначається р. Отже, можна сказати, що при великому числі вибірок частка хибних висновків дорівнює а, якщо правильна Н0, і дорівнює р, якщо правильна На.

Помилки І і II роду за своїми наслідками нерівнозначні і ведуть до різних матеріальних втрат. Тому вибір рівня значущості повинен ґрунтуватись на обліку можливих втрат: чим більші ці втрати, тим меншим повинен бути рівень значущості. Однак, якщо знижується рівень значущості, збільшується імовірність появи помилок другого роду. В цьому розумінні помилки І і II роду є конкуруючими.

Оскільки помилки І і II роду практично виключити неможливо, то в кожному випадку необхідно прагнути до зменшення втрат від цих помилок. При практичній перевірці гіпотез прагнуть до того, щоб за помилку І роду прийняти ту із можливих помилок, яка спряжена з більш серйозними наслідками на практиці.

Рівень значущості встановлюється самим дослідником залежно від характеру і важливості задач, що їх розв'язують (за так званим принципом практичної впевненості). Рівень значущості являє собою ту мінімальну імовірність, починаючи з якої можна визнати подію практично неможливою. Можна користуватись стандартними значеннями а = 0,10; 0,05; 0,01; 0,001; 0,0001 та ін. Найчастіше а встановлюють на рівні 0,05 і 0,01. При більш відповідальних рішеннях а підвищують до 0,001. Рівень значущості, наприклад, а = 0,05, означає, що в середньому в 5 випадках із 100 є ризик допустити помилку І роду, тобто відхилити правильну гіпотезу (Но).

Встановлюючи певний рівень значущості, дослідник контролює імовірність помилки І роду: чим він нижчий, тим частіше Н0 буде визнаватись правильною. Однак, як було зазначено вище, зниження рівня значущості веде до появи помилок другого роду. В більшості випадків єдиним шляхом одночасного зменшення імовірності появи помилок двох родів є збільшення чисельності вибірки.

Для перевірки нульової гіпотези і прийняття висновку щодо сумісності вибіркових даних з висунутою гіпотезою використовують спеціальні статистичні критерії, що є зведенням правил, за якими перевірювану гіпотезу або приймають, або відхиляють. Інакше кажучи, критерій визначає ті властивості, якими повинні володіти вибіркові дані, щоб гіпотеза могла бути прийнята або відхилена.

Для кожного виду гіпотез, що перевіряються, розроблені спеціальні критерії, серед яких найчастіше використовуються і-критерії нормального розподілу і розподілу Стьюдента, Б-критерій Фішера-Снедекора, %2(хі-квадрат) розподілу Пірсона та ін.

Статистичні критерії, які використовуються для перевірки статистичних гіпотез, бувають двох видів: параметричні і непараметричні.

Параметричними називають критерії, які ґрунтуються на припущенні, що розподіл випадкової величини в сукупності підпорядкований деякому відомому закону (наприклад, нормальному, біномінальному, Пуассона). До таких критеріїв відносяться критерії ., Б, %2 та ін.

Непараметричними (порядковими) називають критерії, використання яких не пов'язано із знанням закону розподілу випадкової величини, їх можна застосовувати і тоді, коли досліджуваний розподіл значно відрізняється від нормального. До таких критеріїв належать, зокрема, критерій знаків Вілкоксона, Уайта, Манна-Уїтні та ін.

Параметричні критерії більш ефективні порівняно з непараметричними. Проте вони можуть бути використані для сукупностей, які мають нормальний або близький до нормального розподіл. Непараметричні критерії можуть бути використані при будь-якій формі розподілу. Єдиною умовою їх застосування є взаємна незалежність даних спостереження.

У множині можливих значень вибраного критерію можна виділити дві підмножини, що не перетинаються, одна з яких містить значення критерію, а друга - ні. Перша підмножина називається критичною областю, а друга областю припустимих значень.

Критичною областю називають ті значення критерію, при яких нульова гіпотеза відхиляється. Областю припустимих значень (областю прийняття Н0) називають сукупність значень використовуваного критерію, при яких нульова гіпотеза приймається.

Точки, які відділяють критичну область від області допустимих значень, називають критичними точками.

Розрізняють односторонню і двосторонню критичні області.

Односторонньою називають правосторонню або лівосторонню критичну область. Ці області визначаються такими нерівностями: для правосторонньої критичної області к > акр, де акр - додатне число, для лівосторонньої к < акр, - де акр - від'ємне число.

Двостороння критична область визначається нерівностями к < аь к > а2, де а2 > аь або коротко |к| > акр, де акр > 0.

Вибір односторонньої або двосторонньої критичної області залежить від конкретних умов і мети задач, що розв'язуються. Наприклад, при альтернативній гіпотезі На : хі Ф х2 слід користуватись двосторонньою критичною областю, а при гіпотезах На : хі > х2 і На : Хі < х2 - односторонньою (відповідно правосторонньою і лівосторонньою) критичною областю.

Критичну область доцільно будувати так, щоб вона найкращим чином відрізняла нульову від альтернативної гіпотези.

Критерій перевірки гіпотези повинен бути підібраний так, щоб ризик допущення помилок був мінімальним. При цьому дуже важливо визначити імовірність того, що не буде припущено помилку II роду. Ця імовірність характеризує чутливість критерію до помилок II роду і дістала назву потужності критерію.

Потужністю критерію називається імовірність відхилення випробуваної гіпотези Н0, коли правильною є альтернативна гіпотеза На(1-|3). Отже, потужність критерію є імовірність того, що не буде припущено помилку II роду. Звичайно, бажано мати найпотужніший критерій, бо це забезпечить мінімальну імовірність припущення помилки II роду. Тому з усіх можливих критеріїв слід вибирати найпотужніший.

Потужність (чутливість) критерію може бути підвищена двома способами: а) збільшенням рівня значущості. Проте цей шлях не зовсім прийнятний, бо необґрунтовано підвищується імовірність помилок І роду; б) збільшенням чисельності вибірки.

При формулюванні висновків за результатами перевірки гіпотези керуються таким принципом (правилом): якщо фактичне значення критерію потрапляє в критичну область, то Н0 відхиляють, якщо ж фактичне значення критерію належить до області припустимих значень, то Н0 приймають.

Для кожного критерію складено спеціальні таблиці, за якими знаходять його табличне значення (критичні точки), що відокремлюють критичну область від області припустимих значень. Знайдене табличне значення критерію порівнюють з його фактичним значенням. Якщо фактичне значення критерію, визначене за даними вибірки, буде більшим від табличного значення, то нульову гіпотезу потрібно відхилити і прийняти альтернативну гіпотезу. Якщо ж фактичне значення критерію буде меншим або таким, що дорівнює табличному, то робиться висновок про згоду даних спостереження з нульовою гіпотезою, тобто підстави для відмови від Н0 немає і тому її треба прийняти.

Якщо, наприклад, у досліді перевіряють вплив будь-якого фактора на результативну ознаку за допомогою X - критерію Стьюдента, то висновки формулюються так. Якщо Хф^ > Ха, то нульову гіпотезу (Н0 : фактор не впливає на результативну ознаку) відхиляють, а вплив фактора на результативну ознаку вірогідний, істотний. Якщо ж перевіряють вірогідність різниці між середніми двох або кількох малих вибірок, то у цьому разі (Хфщ^ > Ха) говорять, що відмінності між середніми настільки значні, що вони не можуть бути результатом випадкового варіювання вибіркових даних, тому вони повинні бути визнані істотними, вірогідними.

За ситуації, коли виявиться, що Хфщ^ < Ха , роблять зворотні висновки: нульова гіпотеза (Н0: фактор не впливає на результативну ознаку) приймається, вплив фактора на результативну ознаку, неістотний, невірогідний, а сама різниця між середніми лежить у межах можливих випадкових коливань, а тому вона неістотна, невірогідна.

При цьому слід мати на увазі, що згода з нульовою гіпотезою не доводить її абсолютної справедливості. Це лише свідчення про необхідність подальшої її перевірки, зокрема шляхом збільшення обсягу вибірки або поки більш переконливі дослідження не дозволять зробити протилежний висновок. Тому при формулюванні остаточних висновків в цьому випадку більш правильно говорити про те, що дані спостереження не суперечать нульовій гіпотезі і, отже, не дають підстави для її відхилення.

7.3. Загальна схема перевірки статистичної гіпотези
7.4. Перевірка статистичних гіпотез щодо середніх величин
7.5. Перевірка статистичних гіпотез щодо розподілів
7.6. Перевірка статистичної гіпотези про істотність розбіжностей між дисперсіями
Розділ 8. Дисперсійний аналіз
8.1. Теоретичні основи і принципова схема дисперсійного аналізу
8.2. Дисперсійний аналіз при групуванні даних за однією ознакою
8.3. Застосування дисперсійного аналізу для оцінки вірогідності різниці двох середніх
8.4. Дисперсійний аналіз при групуванні даних за двома ознаками
Розділ 9. Кореляційний аналіз