Між характеристиками вибіркової сукупності і шуканими параметрами відповідних характеристик генеральної сукупності існують певні розбіжності. їх називають помилками спостереження. Загальна величина помилки вибіркового спостереження зумовлюється можливістю виникнення двох видів помилок: помилки реєстрації і помилки репрезентативності.
Помилки реєстрації виникають внаслідок недостатнього рівня кваліфікації працівників, неточності підрахунків, недосконалості вимірювальних приладів і т.ін. Ймовірність виникнення помилок реєстрації при вибірковому обстеженні значно менша, ніж при суцільному, адже вибіркове здійснюється кваліфікованішими працівниками і організовується більш ретельно і конструктивно, ніж суцільне. При вибірковому спостереженні завдяки скороченню кількості досліджуваних одиниць значно зменшується можливість одержати помилки реєстрації. Спеціально підібрані і навчені спостережувачі не зацікавлені у викривленні спостережуваних даних, що також сприяє одержанню більш об'єктивної інформації про обстежувану сукупність об'єктів.
У той же час при вибірковому спостереженні виникають помилки, які не мають місця при суцільному обстеженні - помилки репрезентативності . Вони являють собою розбіжність між величиною одержаних по вибірці показників і величиною тих показників, котрі були б одержані при проведенні з однаковим рівнем точності суцільного спостереження.
Отже, помилка вибірки (помилка репрезентативності) - це абсолютна величина різниці між відповідними вибірковою і генеральною характеристиками: (~ - х) - помилка для середньої; (¥-р) - помилка для частки р - частка ознаки відповідно у вибірковій і генеральній сукупностях). Природа виникнення такої помилки полягає в тому, що вибіркова сукупність не точно відтворює генеральну сукупність.
Помилки репрезентативності можуть бути випадковими і систематичними. Так, при вибірковому викопуванні коренів цукрових буряків для визначення їх урожайності у вибіркову сукупність випадково можуть потрапити дещо кращі від середніх екземпляри. У цьому випадку може йти мова про випадкову помилку репрезентативності. У разі, якщо у вибірку будуть систематично відбиратися кращі екземпляри, то мова буде йти про систематичну помилку репрезентативності, яка зумовлена навмисним порушенням правил відбору.
Таким чином - систематичні помилки спрямовані в один бік і можуть виникати у зв'язку з особливостями прийнятої системи відбору і обробки даних спостереження або у зв'язку з порушенням встановлених правил і принципів відбору.
Випадкові помилки не мають певного напряму. їх виникнення пояснюється недостатньо рівномірним представленням у вибірковій сукупності різних категорій одиниць генеральної сукупності. Оскільки розподіл одиниць спостереження вибіркової сукупності не зовсім точно відтворює розподіл одиниць генеральної сукупності, вибірка не може точно відображати генеральну сукупність, а отже, повністю усунути випадкові помилки неможливо, їх можна звести до незначних розмірів.
Питання визначення можливої і фактичної помилки вибірки має першочергове значення при організації і проведенні вибіркового обстеження. її величина характеризує ступінь надійності одержаних результатів вибіркового обстеження і зумовлює об'єктивність оцінок параметрів генеральної сукупності. Як і сама вибіркова характеристика, помилка вибірки є випадковою величиною. Розмір випадкової помилки вибірки визначається згідно із граничними теоремами ймовірностей. Розрізняють середню і граничну помилку вибірки. Під середньою (стандартною) помилкою вибірки розуміють таке розходження між вибірковою і генеральною середньою (~ - х), яке не перевищує розмір середнього квадратичного відхилення (±ст). Максимально можливе розходження (~ -х) називають граничною помилкою вибірки, тобто - це максимум помилки при заданій імовірності її появи.
Існують дві формули середньої помилки вибірки. Одна з них використовується при вимірюванні середнього значення ознаки (наприклад, на підприємстві вибірково обстежується середній розмір зарплати працюючих), друга - коли вибірково вимірюється частка ознаки (наприклад, частка високооплачених працівників на підприємстві).
Коли вибірка здійснюється за принципом повторного відбору, то
т = А-
формули середньої помилки мають вигляд: для середньої - V и
т =-
для частки - їй .
Повторну вибірку використовують дуже рідко. Як правило, вибірка організовується за принципом безповторного відбору. Стосовно до цього принципу відбору в наведених вище формулах середньої помилки в підкореневий вираз вводиться додатковий
1 - - . .
множник ( N), де N - чисельність генеральної сукупності.
Отже, для безповторної вибірки формули середньої помилки
набудуть вигляду:
т = .1-(1--)
а) при визначенні середнього значення ознаки - V и N ;
|и<1-м)п
,_ . т = --х (1 -)
б) при визначенні частки ознаки - V п N .
Теорією ймовірностей доведено : ствердження про те, що генеральні характеристики не відхиляються від вибіркових на величину більшу, ніж величина помилки вибірки (т), завжди має постійний ступінь імовірності 0,683. Імовірність ствердження можна підвищити, подвоївши або потроївши середню помилку (2 т; 3 т). У цьому випадку ймовірність стверджень досягає рівнів 0,954 або 0,997, тобто з тисячі випадків відповідно в 954 і 997 випадках вибіркові характеристики будуть відрізнятися від генеральних на величину обчисленої помилки вибірки. У решти випадків (46 і 3) відхилення генеральних і вибіркових параметрів може виходити за межі обчисленої помилки.
Таким чином, щоб підвищити ймовірність ствердження, необхідно розширити межі відхилень шляхом збільшення середньої
І* - х|
помилки в ст разів, де відношення різниці середніх до середнього квадратичного відхилення являє собою величину так званого нормованого відхилення (і).
Отже, з визначеною ймовірністю можна стверджувати, що відхилення генеральних і вибіркових характеристик не перевищать деякої величини - граничної помилки вибірки (А). Гранична помилка вибірки пов'язана з середньою помилкою рівнянням Л= і т, де і-нормоване відхилення (коефіцієнт кратності, коефіцієнт довіри), яке залежить від рівня ймовірності.
Величина ймовірності задається залежно від мети і завдань дослідження. Ймовірність потрапляння помилки репрезентативності у межах ± 1 визначається за формулою інтеграла ймовірностей
р(і) = -1= І е 2 йі
лІ2ж 0
Таблиця 87
Витяг із стандартних таблиць "Функція Лапласа"
1,00 | 1,96 | 2,00 | 2,50 | 2,58 | 3,00 | 3,30 | |
р | 0,683 | 0,950 | 0,954 | 0,997 | 0,990 | 0,667 | 0,999 |
Значення цього інтеграла міститься в стандартних математичних таблицях "Функція Лапласа" (див. додат. 5, ). В таблиці 87 наведені рівні ймовірностей р для деяких цілих і дробових значень і.
Припустимо, що помилку вибірки треба оцінити з імовірністю 0,954. Це означає, що розбіжність між вибірковою і генеральною середньою не перевищить двох величин середньої помилки, тобто в 95,4 % випадків помилка репрезентативності не вийде за межі ± 2; при ймовірності 0,997 - за межі ± 3 і т. ін.
Для чисельно малих статистичних сукупностей не може бути застосована теорема Ляпунова, яка з'ясовує загальні умови, при здійсненні котрих розподіл суми незалежних випадкових величин прямує до нормального, оскільки значення вибіркової середньої (х ) тут занадто залежить від величини кожної випадкової змінної. Характер розподілу х в цих умовах буде істотно відрізнятися від нормованого розподілу, а довірчі інтервали і довірчі ймовірності (про них мова піде нижче) при малих вибірках можуть бути розраховані тільки за умов нормального розподілу досліджуваної ознаки. За розрахунками Ст'юдента, ймовірність того, що абсолютна величина різниці вибіркової і генеральної середньої буде менше граничної
помилки вибірки (і* Ні являє собою функцію від нормативного відхилення (x) і чисельності вибірки ("). Формула цього доведення
рЛ* - х(ір) = і А(1 +-) 2 йі
має вигляд: 1 1 1 "-1 ,
А = -,-2 _
п(п _2 г ^ г Д ^ _
де < 2 , 2 - гамма - функція.
У практичних розрахунках використовуються таблиці розподілу С'юдента б (x), в яких дано рівні ймовірностей для різних значень п і x (додат.2 ).
На основі теоретичних рівнів імовірностей розраховують фактичні їх рівні. При цьому розрахункова ймовірність (р) становитиме : р = І5 (і) ~0.5]'2. Із сказаного вище випливає, що після обчислення середньої помилки вибірки виникає питання обчислення граничної помилки репрезентативності (а) розмір її у вибірковому спостереженні може бути менший або більший від середньої помилки репрезентативності (-"). Згідно теореми Чебишева і Ляпунова, яка визначає ймовірність того, що гранична помилка вибірки не перевищить x разів взяту середню помилку вибірки (-"), вирішують питання про граничну помилку. Наведемо формулювання теореми Чебишева: з імовірністю, як завгодно близькою до одиниці, можна стверджувати, що при достатньо великій кількості незалежних спостережень вибіркова середня (*) буде як завгодно мало відрізнятися від генеральної середньої (*). Отже, гранична помилка вибірки (а) обчислюється з певною ймовірністю (р), якій відповідає x - разове значення середньої помилки (-"):д= x .
Межі середньої характеристики в генеральній сукупності становитимуть: для середньої - х = ~ ± А;
для частки - р = м ±А.
У розгорнутому вигляді формули граничної помилки для повторної і безповторної схеми відбору наведені у наступному прикладі.
Приклад. Розглянемо конкретний приклад розрахунку граничної помилки вибірки при визначенні середньої характеристики у вибірковій сукупності і частки вибірки.
Умова. У сільськогосподарських підприємствах району площа зернових культур становить 20000 га. При 10 % - му безповторному відборі встановлено, що середня урожайність зернових в районі дорівнює 30 ц/га, середньоквадратичне відхилення урожайності становить 2 ц. Питома вага високоврожайних культур 60%. Потрібно визначити з ймовірністю 0,954 граничну помилку середньої врожайності зернових культур по вибірці і граничну помилку частки, тобто питомої ваги високоврожайних культур в загальній площі посіву.
Хід рішення. Встановлюємо чисельність вибіркової сукупності - 10% від 20000 га, вона дорівнює 2000 га. Маємо : ~ = 30; № 20000; "= 2000; ст= 2; у= 0,60; р= 0,954; 1= 2.
а - = 4" -) - 2Л1---(1 - і000-) = 0,08 * V п N Ї2000 20000
Отже, різниця між вибірковою середньою урожайністю і генеральною середньою буде не більша за 0,08 ц. Межі середньої генеральної урожайності в центнерах: 29,92 * 30 * 30,08.
Гранична помилка для частки становить:
д = іН^ІЇ) = 2І0,60(1 - 0,60)(1 -і000!) = 0,02 " V п N V 2000 20000
Таким чином, помилка у визначенні частки високоврожайних культур у вибірковій сукупності не перевищить 2 %, тобто питома вага високоврожайних культур знаходиться у межах 58 ^ 60 ^ 62%.
Величина випадкової помилки репрезентативності залежить: 1) від способу формування (відбору) вибіркової сукупності; 2) від обсягу вибірки; 3) від ступеня варіації досліджуваної ознаки у генеральній сукупності.
А це означає, що для одержання мінімальної помилки необхідно дотримуватися таких математичних положень: 1) чим більший обсяг вибірки, тим повніше взаємопогашаються випадкові відхилення. Величина помилки вибірки обернено пропорційна кореню квадратному з чисельності вибірки. При збільшенні вибіркової сукупності у чотири рази помилка вибірки зменшується у два рази; 2) збільшення показника варіації досліджуваної ознаки зумовлює збільшення помилки вибірки, тобто величина останньої прямо пропорційна середньому квадрату відхилень.
Слід пам'ятати, що при вибірковому обстеженні відсутня інформація про розмір дисперсії, тому велична її приймається наближеним показником у вигляді вибіркового середнього квадрата відхилень.
Для кожного конкретного способу відбору у вибіркову сукупність величина помилки репрезентативності може бути визначена за відповідними формулами.
Повернемося до повторної і безповторної схеми відбору з генеральної сукупності. Оскільки при безповторному відборі чисельність генеральної сукупності зменшується ( при повторному -вона залишається незмінною), після кожного відбору ймовірність потрапити у вибірку для одиниць, що залишаються, підвищується. Тому середня помилка тут буде меншою, ніж при повторному відборі.
Перетворення формули середньої помилки для середньої при
повторному відборі "п у вигляд дає підстави
стверджувати, що середня квадратична помилка (середнє квадратичне відхилення вибіркової середньої від генеральної) прямо пропорційна варіації ознаки у генеральній сукупності і обернено пропорційна кореню квадратному з обсягу вибірки. Гранична помилка вибірки (А), як випадкова величина, може бути в кожному конкретному випадку менша, рівна або більша за середню помилку(т) . Ймовірність її величини при досить великій сукупності вибірки визначають за теоремою Ляпунова:
2
1 +і - '-
р(а < 'т = -== і е 2 й' = /(і) л/2я- -'
Значення інтеграла Лапласа (функція від x) містяться в стандартних математичних таблицях (додаток ). За такими таблицями можна встановити, що
2
1р(А< т) =-,- іе 2й' = 0,683
при x = ^2ж ;
2р(а< 2т) = -¡=1 е 2 й' = 0,954 при x = ^2ж 2 .
Наведені розрахунки свідчать про те, що практично неймовірно
. . . 3^
одержати помилку, більшу за 3 т, тобто більшу, ніж *п . Отже, практично вірогідно, що генеральна середня не вийде за границі:
~ - 3-і < х < ~ + 3-і
Як уже зазначалося вище, при безповторному способі відбору для середньої помилки вибірки вводять поправочний коефіцієнт
м_ 1 , де п, n- відповідно чисельність вибіркової і генеральної сукупностей. Для досить великих обсягів генеральної сукупності замість значення n 1 вводять значення n тоді формула набуває
N - п N - п 1 п вигляду: N-1 N N.
З врахуванням наведеної поправки дисперсія вибіркової середньої становить:
°2 =-(1" -) * п N .
Середні помилки середньої і частки у вибірковій сукупності для власне випадкового відбору наведено у згаданій вище таблиці.
Для механічного способу відбору помилка репрезентативності розраховується аналогічно формулам для власне випадкового відбору.
При типовому способі відбору розрахунок середньої помилки має деякі особливості. Розглянемо їх.
З викладеного вище зрозуміло, що середня помилка вибірки залежить від середнього квадрата відхилень (дисперсії) досліджуваної ознаки. Згідно правилу складання і розкладання
дисперсій маємо: °у +°г, де °у - загальна дисперсія; °*- між групова дисперсія; ^ - внутрішньогрупова дисперсія.
Для типової вибірки міжгрупова дисперсія вимірює варіацію
групових середніх ( х>) відносно загальної середньої (~), тобто :
Цей вид дисперсії пояснює варіацію, викликану ознакою, покладеною в основу групувань при виділенні типових груп і не може розглядатися як помилка вибірки. Називають її систематичною дисперсією. Отже, при розрахунках середньої помилки вибірки цей вид дисперсії виключається.
Але кожна типова група має варіацію ознаки, викликану впливом різних неврахованих факторів - внутрішньогрупову
(залишкову) варіацію. Остання розраховується як середня арифметична з групових дисперсій:
де 1 - групові вибіркові дисперсії.
Саме ця частина варіації залишається непоясненою і повинна розглядатися як помилка вибірки. Тобто формула середньої помилки типової вибірки має вигляд:
V п
де п - загальний обсяг вибірки ( п ~ ИИ|).
<у2 (а2
За правилом складання і розкладання дисперсій маємо : 2 у, тому середня помилка типової вибірки, як правило, менша за середню помилку при власне випадковій вибірці. Оскільки середня помилка типової вибірки дає точніші результати (висновки), її широко використовують в досліджені економічних явищ.
Треба пам'ятати, що організація типової вибірки зумовлена, як правило, власне випадковим відбором. Адже відбір одиниць з кожної групи здійснюють власне випадковим методом. При цьому застосовується схема безповторного відбору. З цих причин до середньої помилки середньої чи частки при безповторній схемі
. 1 - -
відбору вводять поправку N .
При серійному способі відбору по кожній відібраній серії розраховується значення дисперсії. Середня арифметична з цих
ґг2
дисперсій становить внутрішньосерійну ( вс), тобто залишкову дисперсію.
Варіація серійних середніх (Х|) навколо загальної вибіркової
середньої * характеризується міжсерійною дисперсією (Стмс) . Структурна формула її має вигляд:
де п° - чисельність вибірки в серії.
2 2 2
Згідно з правилом розкладання дисперсії маємо а' ~ а"с + 0мс. Внутрішньосерійна дисперсія розраховується на основі даних суцільного спостереження відібраних серій. А це означає, що помилка репрезентативності залежить від міжсерійної дисперсії. її розраховують за схемою безповторного відбору серій:
пс N .
Для зазначених вище способів відбору при розрахунках граничної помилки як для середньої, так і для частки, середню помилку множать на коефіцієнт довіри (і), величина якого залежить від рівня обраної ймовірності. Детально це питання викладено в § 4.4.
Здійснення вибіркового обстеження ґрунтується, насамперед, на знанні природи досліджуваних процесів та явищ і глибокому теоретичному аналізі. Вибіркове обстеження починають з копіткої підготовки роботи, яка передбачає вирішення таких питань: мета і об'єкт дослідження; програма та інструментарій обстеження; джерела і способи збирання необхідної інформації; підбір і підготовка кадрів, пробні обстеження і ряд інших питань.
Організація вибіркового спостереження з метою відтворення генеральної сукупності висуває ряд завдань, вирішення яких ґрунтується на теорії вибіркового методу. Розглянемо їх .
1. По-перше, це вирішення питання щодо встановлення чисельності вибіркової сукупності. Суть цього завдання полягає в тому, щоб знайти відповідь на запитання - скільки потрібно відібрати одиниць спостереження, щоб помилка вибірки з певним рівнем ймовірності не перевищувала встановлений розмір.
2. Друге завдання вибіркового спостереження має на меті оцінку показників, одержаних за вибірковими даними. Вирішення цього завдання полягає у визначенні граничної помилки вибіркової сукупності.
3. Третє завдання вибірки зводиться до встановлення ймовірностей здійснення певного розміру помилки. Для цього необхідно знати середню і граничну помилки вибірки, розрахувати нормоване відхилення, на підставі якого за стандартними таблицями інтеграла ймовірності визначається рівень ймовірності.
Визначення границь, в яких знаходяться характеристики всієї сукупності, ускладнюється у випадках, коли генеральна сукупність досліднику невідома. Адже при відомій генеральній сукупності завжди можна побудувати схему всіх можливих випадків вибірки з
ТЕМА 12. ПОДАННЯ СТАТИСТИЧНИХ ДАНИХ: ТАБЛИЦІ, ГРАФІКИ, КАРТИ
§ 12.1. Статистичні таблиці, їх види і правила оформлення
§ 12.2 Графічний метод
12.2.1. Роль і значення графічного методу в наукових дослідженнях
12.2.2. Основні елементи статистичного графіка
12.2.3. Види статистичних графіків і способи їх побудови
ПРОГРАМОВАНИЙ КОНТРОЛЬ ЗНАНЬ
МОДУЛЬ І
Тема 1. Методологічні засади статистики