Статистика - Опря А.Т. - ТЕМА 6. АНАЛІЗ ПОДІБНОСТІ РОЗПОДІЛІВ

§ 6.1. Статистична оцінка параметрів розподілу

Питання статистичної оцінки пов'язують в єдине ціле такі проблемні аспекти математичної статистики, як наукова методологія, випадкові величини, статистичні розподіли та ін. Для будь-якої вибірки притаманні помилки, зумовлені неповнотою охоплення одиниць, помилками вимірювання і тому подібними причинами. Такі помилки в реальному житті надають кожній гіпотезі (зокрема, сформульованій на базі економічних висновків) випадковий, стохастичний характер. Незалежно від кількості змінних, передбачених теоретичними гіпотезами, робиться припущення, що вплив різних видів помилок може бути достатньо точно описаний за допомогою лише однієї складової. Такий методологічний підхід дозволяє обмежитися одномірним розподілом імовірностей при одночасному оцінюванні декількох параметрів.

Статистична оцінка - це один із двох типів статистичного судження (другий тип - перевірка гіпотез). Вона являє собою особливого роду метод судження про числові значення характеристик (параметрів) розподілу генеральної сукупності за даними вибірки з цієї сукупності. Тобто, маючи результати вибіркового спостереження, ми намагаємося оцінити (з найбільшою точністю) значення визначених параметрів, від яких залежить розподіл ознаки (змінної), яка нас цікавить, у генеральній сукупності. Оскільки вибірка включає тільки частину одиниць генеральної сукупності (інколи дуже мале їх число), існує ризик допустити помилку. Незважаючи на зменшення такого ризику зі збільшенням числа одиниць спостереження, він все ж має місце при вибірковому спостереженні. Звідси, прийнятим за результатами вибірки рішенням надають імовірнісний характер. Але було б невірним розглядати статистичні судження тільки з позицій імовірностей. Такій підхід не завжди виявляється достатнім для побудови правильних теоретичних припущень відносно параметрів генеральної сукупності. Часто потрібен ще ряд додаткових суджень, які б забезпечили більш глибоке обґрунтування. Наприклад, потрібно оцінити з можливо більшим наближенням значення середньої чисельності кваліфікованих робітників у підприємствах регіону. При цьому оцінюється середня арифметична змінної х з генеральної сукупності, яка має нормальний розподіл. Одержавши вибірку по даній ознаці в кількості п одиниць, необхідно розв'язати питання: яку величину за даними вибірки необхідно прийняти як найбільш близьку до середньої в генеральній сукупності? Таких величин, математичне очікування яких дорівнює шуканому параметру (або близьке до нього), можна навести кілька: а) середня арифметична; б) мода; в) медіана; г) середня, обчислена за розмахом варіації, і т.д.

Із імовірнісної точки зору кожну з названих вище величин можна вважати такими, що дають найкраще наближення до шуканого параметра генеральної сукупності (х), оскільки математичне очікування кожної з цих функцій (особливо для великих вибірок) дорівнює генеральній середній. Зумовлюється таке припущення тим, що при багаторазовому повторенні вибірки із тієї самої генеральної сукупності буде одержаний "в середньому" вірний результат.

Правильність "в середньому" пояснюється рівністю повторювань додатних і від'ємних відхилень виникаючих помилок оцінки генеральної середньої, тобто середня помилка оцінки буде дорівнювати нулю.

У практичних умовах, як правило, організовують одну вибірку, тому дослідника цікавить питання про більш точну оцінку шуканого параметра за результатами конкретної вибірки. Для вирішення такого завдання, крім висновків, які випливають безпосередньо з абстрагованого обчислення ймовірностей, потрібні додаткові правила мотивування найкращого наближення оцінки до шуканого параметра генеральної сукупності.

Існує достатня кількість способів оцінки констант за вибірковими спостереженнями. Які з них найкращі у рішенні конкретних завдань дослідження - займається теорія статистичного оцінювання. Вона досліджує умови, яким повинна підпорядковуватися та чи інша оцінка, орієнтує на оцінки, більш переважаючі при даних обставинах. Теорія оцінок вказує на перевагу однієї оцінки порівняно до іншої.

Як відомо, інформація, одержана на основі вибірки, не носить категоричного характеру у висновку. Якщо, наприклад, із досліджуваних 100 голів тварин щодо їх захворювання здоровими виявилися 99, то існує ймовірність, що одна тварина, яка залишилася необстеженою саме носить у собі вірус передбачуваного захворювання. Оскільки це мало ймовірно, робиться висновок про відсутність даного захворювання. У більшості випадків такий висновок повністю виправдовується.

Керуючись подібними висновками в практичній діяльності, експериментатор (дослідник) спирається не на вірогідність інформації, а лише на її ймовірність.

Другий бік вибіркового спостереження, як уже відзначалося, вирішує завдання можливо більш об'єктивного визначення ступеня надійності одержуваних вибіркових оцінок. Розв'язуванню цього завдання намагаються надати якомога точніший імовірнісний вираз, тобто мова йде про визначення ступеня точності оцінки. Тут дослідник визначає межі можливої розбіжності між оцінкою, одержаної при вибірці, і дійсним значенням її величини в генеральній сукупності.

Точність оцінки зумовлюється способом її розрахунку за даними вибірки і способом відбору одиниць у вибіркову сукупність.

Спосіб одержання оцінок передбачає будь-яку обчислювальну процедуру (метод, правило, алгебраїчну формулу). Це пріоритет теорії статистичного оцінювання. Способи відбору ведуть до питань техніки здійснення вибіркового дослідження.

Викладене вище дозволяє дати визначення поняттю "статистична оцінка".

Статистична оцінка - це наближене значення шуканого параметра генеральної сукупності, яке одержано за результатами вибірки й забезпечує можливість прийняття обґрунтованих рішень про невідомі параметри генеральної сукупності.

Припустимо, що ^" - статистична оцінка невідомого параметра ^теоретичного розподілу. За багаторазово здійснюваними однакового

0 0 0 0

обсягу вибірками з генеральної сукупності знайдені оцінки и 2 ^"' п,

що мають різні значення. Тому оцінку^", можна розглядати як

0 0 0 0

випадкову величину, а 17 2, 3~' п - як її можливі значення. Як випадкова величина, вона характеризується певною функцією щільності ймовірностей. Оскільки ця функція зумовлена результатом вибіркового спостереження (експерименту), то її називають вибірковим розподілом. Така функція описує щільність імовірності для кожної із оцінок, використовуючи певне число вибіркових

спостережень. Якщо припустити, що, статистична оцінка ^", - це алгебраїчна функція від певного набору даних і такий набір буде одержаний при здійсненні вибіркового спостереження, то в

загальному вигляді оцінка одержить вираз: ®п = f(Xl.X2, ^3,...Хт).

По закінченні вибіркового обстеження дана функція вже не є оцінкою загального вигляду, а приймає - конкретне значення, тобто стає кількісною оцінкою (числом). Інакше кажучи, з вищенаведеного виразу функції випливає, що будь який з показників, які характеризують результати вибіркового спостереження, можна вважати оцінкою. Вибіркова середня є оцінкою генеральної середньої. Розрахована за вибіркою дисперсія або обчислене з неї значення середнього квадратичного відхилення є оцінками відповідних характеристик генеральної сукупності і т.ін

Як уже відмічалося, розрахунок статистичних оцінок не гарантує виключення помилок. Суть полягає в тому, що останні не повинні бути систематичними. Наявність їх має носити випадковий характер. Розглянемо методологічну сторону цього положення.

Припустимо, оцінка ^" дає неточне значення оцінки ^ генеральної сукупності з нестачею. У цьому випадку кожне обчислене значення = 1,2,3,...,п) буде меншим за дійсне значення величини $ .

З цієї причини математичне очікування (середнє значення) випадкової величини в буде менше, ніж в, тобто (М(^п . І, навпаки, якщо дає оцінку з надлишком, то і математичне очікування

випадкової ^" стане більшим, ніж $ .

Звідси випливає, що використання статистичної оцінки, математичне очікування якої не дорівнює оцінюваному параметру, призводить до систематичних похибок, тобто до невипадкових помилок, які викривляють результати вимірювань в один бік.

Виникає природна вимога: математичне очікування оцінки ^" повинно дорівнювати оцінюваному параметру. Дотримання цієї вимоги не усуває помилок у цілому, оскільки вибіркові значення оцінки можуть бути більші або менші дійсного значення оцінки генеральної сукупності. Але помилки в один і другий бік від значень ^ будуть зустрічатися (згідно з теорією імовірностей) з однаковою частотою. Отже, дотримання цієї вимоги, що математичне очікування вибіркової оцінки повинно дорівнювати оцінюваному параметру, виключає одержання систематичних (невипадкових) помилок, тобто

М (в) = 6.

Вибір статистичної оцінки, яка дає найкраще наближення оцінюваного параметра, являє собою важливу задачу в теорії оцінювання. Якщо відомо, що розподіл досліджуваної випадкової величини в генеральній сукупності відповідає закону нормального розподілу, то за вибірковими даними необхідно оцінити математичне очікування і середнє квадратичне відхилення. Пояснюється це тим, що названі дві характеристики повністю визначають основи, на яких побудовано нормальний розподіл. Якщо досліджувана випадкова величина розподілена за законом Пуассона, оцінюють параметр ^, оскільки він визначає цей розподіл.

Математична статистика розрізняє такі методи одержання статистичних оцінок за вибірковими даними : метод моментів, метод максимуму правдоподібності.

При одержанні оцінок методом моментів моменти генеральної сукупності замінюються моментами вибіркової сукупності (замість ймовірностей за ваги використовують частоти).

Щоб статистична оцінка давала "найкраще наближення" до генеральної характеристики, вона повинна мати ряд властивостей. Про них мова піде нижче.

Можливість вибору найкращої оцінки зумовлюється знанням їх основних властивостей і вмінням класифікувати оцінки за цими властивостями. У математичній літературі "властивості оцінок" інколи називають "вимоги до оцінок" або "критерії оцінок".До основних властивостей статистичних оцінок належать: незміщеність, ефективність, спроможність, достатність.

Якщо прийняти, що вибіркова середня (~) і вибіркова дисперсія

(Ств) є оцінками відповідних генеральних характеристик (^ ), тобто їх математичним очікуванням, враховуємо, що при великій кількості

одиниць вибірки названі характеристики (~ ) будуть наближені до їх математичних очікувань. Якщо ж число одиниць вибірки невелике, ці характеристики можуть значно відрізнятися від відповідних математичних очікувань.

Якщо середнє значення вибіркових характеристик, вибраних як оцінки, відповідає значенню генеральної характеристики, оцінка називається незміщеною. Доказом того, що математичне очікування вибіркової середньої дорівнює генеральній середній (м(х) = х), свідчить про те, що величина ~ є незміщеною генеральною

_2

середньою. Інакше виглядає справа з вибірковою дисперсією ( o). її

_ М(СТ2) = - о-2 . .

математичне очікування п , не дорівнює генеральній

22

дисперсії. Отже, ач є зміщеною оцінкою а'. Щоб усунути систематичну помилку і отримати незміщену оцінку, вибіркову

п

дисперсію множать на поправку п -1 (це випливає з утворення

ст2 _ 2 п п -1 " п -1

наведеного вище рівняння: п ).

Таким чином, при нечисленній вибірці дисперсія дорівнюватиме:

2 Цх, - ~)2 п Е(хі - ~)2

сгв =-х-=-.

п п -1 п -1

п

Дріб (п -1) називають поправкою Бессела. Математик Бессел перший встановив, що вибіркова дисперсія є зміщеною оцінкою генеральної дисперсії і застосував вказану поправку для коригування

п

оцінок. Для малих вибірок поправка ( п -1) значно відрізняється від 1. Зі збільшенням числа одиниць спостереження вона швидко наближається до 1. При п<>50 різниця між оцінками зникає, тобто

_2 _ _2

° ~ '- .Із всього сказаного вище випливають такі визначення вимог незміщеності.

Незміщеною називають статистичну оцінку, математичне очікування якої при будь-якому обсязі вибірки дорівнює значенню

параметра генеральної сукупності, тобто м(^) = 9; м(х) = х.

Категорію "математичне очікування" вивчають у курсі теорії ймовірностей. Це числова характеристика випадкової величини. Математичне очікування наближено дорівнює середньому значенню випадкової величини. Математичним очікування дискретної випадкової величини називають суму добутків усіх її можливих значень на їх імовірності. Припустимо, виконано п досліджень, в яких випадкова величина х прийняла ш1 разів значення ш2 разів значення Ші разів значення Хк . При цьому Ш1 + Ш2 + Ш3 +... + Шк = п. Тоді сума всіх значень, прийнятих х ,дорівнює

х1ш1 + х2 ш2 + х3ш3 +... + хкшк

Середня арифметична цих значень становитиме:

- х1ш1 + х2ш2 + х3ш3 +... + хкшк - ш1 ^ ш2 ^ ш3 ^ ^ шк

п або 1 п 2 п 3 п 1 п .

Оскільки п - відносна частота ^ значення х^ п - відносна частота значення х2 і т.д., наведене вище рівняння набуде вигляду:

Х = Х11 + Х22 + Х33 + ... + ХкН>к

При великій кількості вибіркових спостережень відносна частота приблизно дорівнює ймовірності появи події, тобто

и>1 = Л; ^2 = Щ = ™к = Рк або х 2 х1р1 + х2р2 + Х3р3 +... + ХкРк . тоді

х ~ м (х) імовірнісний зміст одержаного результату розрахунків полягає в тому, що математичне очікування наближено дорівнює (тим точніше, чим більша вибірка) середньому арифметичному спостережуваних значень випадкової величини [М(х-) = ~ 1.

Критерій незміщеності гарантує відсутність систематичних помилок в оцінці параметрів генеральної сукупності .

Зауважимо, що вибіркова оцінка (^) - випадкова величина, значення якої може змінюватися від однієї вибірки до іншої. Міру її варіації (розсіювання) навколо математичного очікування параметра генеральної сукупності # характеризує дисперсія ст2(^) .

Нехай в-, і О- - дві незміщені оцінки параметра ^ , тобто М(в") = 6 і М(д,) = в. Дисперсії їх о1(в-) і огф-). з двох 0цінок Варто віддати перевагу тій, яка має менше розсіювання навколо оцінюваного параметра. Якщо дисперсія оцінки ^" менша дисперсії

оцінки Вп , то за оцінку & приймається перша, тобто ^" .

Незміщена оцінка ^ , що має найменшу дисперсію серед усіх можливих незміщених оцінок параметра ^, обчислених за вибірками однакового обсягу, називається ефективною оцінкою. Це - друга властивість (вимога) статистичних оцінок параметрів генеральної сукупності. Треба, пам'ятати, що ефективна оцінка параметра генеральної сукупності, підпорядкованої певному закону розподілу, не збігається з ефективною оцінкою параметра другого розподілу.

При розгляді вибірок великого обсягу статистичні оцінки повинні мати властивість спроможності. Оцінка спроможна (застосовується також термін "придатна" чи "узгоджена") означає, що чим більше обсяг вибірки, тим більша ймовірність того, що помилка оцінки не перевищить скільки завгодно малого додатного

числа Е. Оцінка 6 параметра ^ називається спроможною, якщо вона підпорядковується закону великих чисел, тобто виконується така рівність:

/шг|р в-в <Е } = 1.

Як бачимо, спроможною називають таку статистичну оцінку, яка при п наближається за ймовірністю до оцінюваного параметра. Іншими словами, це значення показника, одержане за вибіркою і яке наближається (збігається за ймовірністю) внаслідок закону великих чисел при збільшенні обсягу вибірки до свого математичного очікування. Наприклад, якщо дисперсія незміщеної оцінки при п наближається до нуля, то така оцінка виявляється і спроможною, оскільки має найменшу можливу дисперсію (при заданому обсязі вибірки).

Спроможними оцінками є:

1) частка ознаки у вибірковій сукупності, тобто частість як оцінка частки ознаки в генеральній сукупності;

2) вибіркова середня як оцінка генеральної середньої;

3) вибіркова дисперсія як оцінка генеральної дисперсії;

4) вибіркові коефіцієнти асиметрії і ексцесу як оцінка генеральних коефіцієнтів.

У літературі з математичної статистики чомусь не завжди можна зустріти опис четвертої властивості статистичних оцінок -достатність. Оцінка достатня (або вичерпна) - це оцінка, яка зумовлює (забезпечує) повноту обхвату всієї вибіркової інформації про невідомий параметр генеральної сукупності. Таким чином, достатня оцінка включає всю інформацію, яка міститься у вибірці стосовно досліджуваної статистичної характеристики генеральної сукупності. Жодна з розглядуваних раніше трьох оцінок не може дати необхідних додаткових відомостей про досліджуваний параметр, як достатня статистична оцінка.

Отже, середня арифметична вибіркова ~ є незміщеною оцінкою середньої арифметичної генеральної х. Фактор незміщеності цієї оцінки показує: якщо із генеральної сукупності взяти велику кількість випадкових вибірок, то їх середні *< відрізнялись би від генеральної середньої у більший і менший бік однаково, тобто, властивість незміщеності хорошої оцінки також показує, що середнє значення нескінченно великого числа вибіркових середніх дорівнює значенню генеральної середньої.

У симетричних рядах розподілу медіана є незміщеною оцінкою генеральної середньої. А за умови, що чисельність вибіркової сукупності наближається до генеральної (П ~* N), медіана може бути в таких рядах і спроможною оцінкою генеральної середньої.Що ж стосується критерію ефективності відносно медіани як оцінки середньої арифметичної генеральної сукупності, можна довести, що у вибірках великого обсягу середньоквадратична помилка медіани (Стме) дорівнює 1,2533 середньоквадратичної помилки вибіркової середньої

2 ><72

). Тобто Стме *. Тому медіана не може бути ефективною оцінкою середньої арифметичної генеральної сукупності, оскільки її середня квадратична помилка більше середньої квадратичної помилки середньої арифметичної вибірки. До того ж середня арифметична задовольняє умовам незміщеності і спроможності, а, отже, є кращою оцінкою.

Можлива і така постановка. Чи може середня арифметична вибірки бути незміщеною оцінкою медіани в симетричних розподілах сукупності, для якої збігаються значення середньої і медіани? І чи буде вибіркова середня спроможною оцінкою медіани генеральної сукупності? В обох випадках відповідь буде позитивною. Для медіани генеральної сукупності (з симетричним розподілом) середня арифметична вибірки є незміщеною і узгодженою оцінкою.

Пам'ятаючи, що Стме ~ 1,2533стї , приходимо до висновку: середня арифметична вибірки, а не медіана, є більш ефективною оцінкою медіани досліджуваної генеральної сукупності.

Кожна характеристика вибірки не обов'язково є найкращою оцінкою відповідної характеристики генеральної сукупності. Знання властивостей оцінок дозволяє вирішувати питання не тільки вибору оцінок, але й їх поліпшення. Як приклад можна розглянути випадок, коли розрахунки показують, що значення середніх квадратичних відхилень декількох вибірок із однієї генеральної сукупності у всіх випадках виявляються менше середнього квадратичного відхилення генеральної сукупності, причому величина різниці зумовлена обсягом вибірки. Помноживши значення середнього квадратичного відхилення вибірки на поправочний коефіцієнт, одержимо поліпшену оцінку середнього квадратичного відхилення генеральної сукупності. За такий поправочний коефіцієнт використовують поправку Бессела

п а I п

(п -1), тобто для усунення зміщення оцінки одержують 'п -1 .Такий числовий вираз показує, що середнє квадратичне відхилення вибірки, використане як оцінка, дає занижене значення параметра генеральної сукупності.

Як відомо, статистичні характеристики вибіркової сукупності є наближеними оцінками невідомих параметрів генеральної сукупності. Сама оцінка може мати форму одного числа або якої-небудь певної точки. Оцінка, яка визначається одним числом, називається точковою. Так, вибіркова середня (~) є незміщеною і найбільш ефективною точковою оцінкою генеральної середньої (х), а вибіркова дисперсія ) - зміщеною точковою оцінкою генеральної

а2

дисперсії ( ) .Якщо позначити середню помилку вибіркової середньої т<> , то точкову оцінку генеральної середньої можна записати у вигляді х ± т° . Це означає, що ~ - оцінка генеральної середньої х з помилкою, яка дорівнює т" . Зрозуміло, що точкові статистичні оцінки х і o не повинні мати систематичної помилки в

o o o ~~ o <у2

бік завищення або заниження оцінюваних параметрів х і . Як було сказано раніше, оцінки, які задовольняють таку умову, називаються

незміщеними. Що ж являє собою помилка параметра т" ? Це середня з множини конкретних помилок:

Точкова оцінка параметра генеральної сукупності полягає у тому, що з різних можливих вибіркових оцінок спочатку обирається та, яка має оптимальні властивості, а потім обчислюється значення цієї оцінки. Отримане розрахункове значення останньої розглядається як найкраще наближення до невідомого дійсного значення параметра генеральної сукупності. Додаткові розрахунки, пов'язані з визначенням можливої помилки оцінки, не завжди обов'язкові (залежно від вирішування задач оцінки), але, як правило, здійснюються практично завжди.

Розглянемо приклади визначення точкової оцінки для середньої досліджуваних ознак і для їх частки в генеральній сукупності.

Приклад. Посіви зернових культур району складають 20 000 га. При 10 %-му вибірковому обстеженні полів одержали такі вибіркові характеристики: середня врожайність - 30 ц з I га, дисперсія врожайності - 4, площа посівів високоврожайних культур - 1200 гектарів.

Що можна знати про величину показника середньої врожайності зернових культур у районі і яке числове значення показника частки (питомої ваги) високоврожайних культур у загальній площі зернових досліджуваного

регіону? Тобто необхідно дати оцінку названим параметрам ( х ,р) у генеральній сукупності. Для розрахунку оцінок маємо:

= 1200 = 060

N = 20000 ; - = 20000х0,1 = 2000; ~ = 30 ;<т = л/4; № 2000 ,

Як відомо, вибіркова середня арифметична є ефективною оцінкою

генеральною середньої арифметичної. Таким чином, можна прийняти, що

найкраща оцінка генерального параметра (^) є 30. Щоб визначити ступінь

точності оцінки необхідно знайти середню (стандартну) її помилку:

їа. п~ І 4 2000 ч ппЛ

т = Л- (1--) = -(1--) = 0,04

v п N ї2000 2000^

Одержана величина помилки свідчить про велику точність оцінки. Значення т тут означає, що при багаторазовому повторенні таких вибірок помилка оцінки параметра становила б у середньому 0,04. Тобто за точковою

оцінкою середня врожайність у господарствах району буде х = 30 - 0,04 ц з I га.

Для одержання точкової оцінки показника частки посівів високоврожайних культур зернових у загальній площі зернових за кращу оцінку може бути прийнято показник частки у вибірці ¥=0,6. Таким чином, можна сказати, що за результатами спостережень найкращою оцінкою шуканого показника структури буде число 0,6. Уточнюючи обчислення, слід розрахувати середню помилку цієї оцінки: т і(1 _п) і0.6(1 - 0.б)(1 =0,01

v п N v 2000 2000а

Як бачимо, середня помилка оцінки генеральної характеристики дорівнюватиме 0,01.

Одержаний результат означає: якщо б багаторазово повторити вибірку з обсягом у 2000 га зернових, середня помилка прийнятої оцінки частки (питомої ваги) високоврожайних культур у площі зернових культур підприємств району була б ± 0,01. У такому разі Р = 0,6 ± 0,01. У процентному виразі частка високоврожайних культур у загальній площі зернових району складе в середньому 60 ± I.

Розрахунки показують, що для конкретного випадку найкращою оцінкою шуканого показника структури буде число 0,6, а середня помилка оцінки у той чи іншій бік буде приблизно дорівнювати 0,01. Як бачимо, оцінка досить точна.

Відомо кілька способів точкової оцінки середнього квадратичного відхилення у випадках, коли вибірка здійснена з генеральної сукупності одиниць з нормальним розподілом і параметр ст невідомий. Найпростішою (найбільш легкою в обчисленнях) оцінкою є розмах варіації (й° )вибірки, помножений на поправочний коефіцієнт, взятий за стандартними таблицями і який залежить від обсягу вибірки (для малих вибірок). Параметр середнього квадратичного відхилення в генеральній сукупності можна також оцінити за допомогою обчисленої вибіркової дисперсії з врахуванням числа ступенів вільності. Корінь квадратний із цієї дисперсії дає величину, яка буде використана як оцінка генерального середньоквадратичного відхилення ).

Використовуючи значення параметра ст" , обчислюють середню помилку оцінки генеральної середньої (х') способом, розглянутим вище.

Як вказувалося раніше, відповідно до вимоги спроможності впевненість у точності тієї чи іншої точкової оцінки підвищується при збільшені чисельності вибірки. Продемонструвати це теоретичне положення на прикладі точкової оцінки дещо утруднено. Вплив обсягу вибірки на точність оцінки очевидний при обчисленні інтервальних оцінок. Про них мова піде нижче.

У таблиці 39 наведено найбільше часто використовувані точкові оцінки параметрів генеральної сукупності.

Таблиця 39

Основні точкові оцінки_

Характеристика генеральної сукупності

Оцінка

Середня арифметична, х

Різниця середніх двох генеральних сукупностей, Х1 ~ х2

Середнє квадратичне відхилення, °'-

аа

Частка ознаки, р"

w

Різниця частот двох ознак генеральних сукупностей, ^ ~ ^2

и1 - и2

Сумарні параметри генеральної сукупності

N,

Кількість елементів у групі генеральної сукупності

Обчислені різними способами значення оцінок можуть бути неоднакові за величиною. У цьому зв'язку в практичних розрахунках слід займатися не послідовним обчисленням можливих варіантів, а, спираючись на властивості різних оцінок, обрати одну з них.

При малій кількості одиниць спостережень точкова оцінка значною мірою випадкова, отже, мало надійна. Тому в малих вибірках вона може сильно відрізнятися від оцінюваної характеристики генеральної сукупності. Таке положення призводить до грубих помилок у висновках, які поширюються на генеральну сукупність за результатами вибірки. З цієї причини при вибірках малого обсягу користуються інтервальними оцінками.

На відміну від точкової інтервальна оцінка дає діапазон точок, всередині якого повинен знаходитись параметр генеральної сукупності. Крім того, в інтервальній оцінці вказується ймовірність, а, отже, вона має важливіше значення в статистичному аналізі.

Інтервального називають оцінку, яка характеризується двома числами - границями інтервалу, який охоплює (покриває) оцінюваний параметр. Така оцінка являє собою деякий інтервал, у якому з заданою ймовірністю знаходиться шуканий параметр. За центр інтервалу приймається вибіркова точкова оцінка.

Таким чином, інтервальне оцінювання є подальшим розвитком точкового оцінювання, коли така оцінка при малому обсязі вибірки неефективна.

Задачу інтервального оцінювання в загальному вигляді можна сформулювати так: за даними вибіркового спостереження необхідно побудувати числовий інтервал, відносно якого з раніше обраним рівнем імовірності можна стверджувати, що в межах даного інтервалу знаходиться оцінюваний параметр.

Якщо взяти достатньо велику кількість одиниць вибірки, то, користуючись теоремою Ляпунова, можна довести ймовірність того, що помилка вибірки не перевищить деяку задану величину а , тобто

І~"* !"А або І"рйА.

Зокрема, ця теорема дає можливість оцінювати похибки наближених рівностей :

- " р(пі - частота); х " х. п

Якщо ^*2Xз,...,х- ~ незалежні випадкові величини і п , то ймовірність їх середньої (х) знаходиться в межах від а до 6 і може бути визначена рівняннями:

р(а(х(е) 1 е 2 сіі,

- Е( х); _ в - Е(х) ДЄ ° а

Імовірність Р при цьому називають довірчою імовірністю.

Таким чином, довірчою імовірністю (надійністю) оцінки генерального параметра по вибірковій оцінці називають імовірность, з якою здійснюються нерівності:

|~ |<а ; |и,-р|< д

де а - гранична помилка оцінки, відповідно до середньої і частки.

Границі, в яких із цією заданою ймовірністю може знаходитися генеральна характеристика, називають довірчими інтервалами (довірчими границями). А границі цього інтервалу одержали назву границь довіри.

Довірчі (або толерантні) границі - це границі, вихід за межі яких даною характеристикою внаслідок випадкових коливань має незначну ймовірність (Л ^0,5; р2 <0,01; Л <0,001). Поняття "довірчий інтервал" введене Дж.Нейманом і К.Пірсоном (1950 р.). Це встановлений за вибірковими даними інтервал, який із заданою ймовірністю (довірчою імовірністю) охоплює (покриває) справжнє, але невідоме для нас значення параметра. Якщо за рівень довірчої ймовірності прийняти значення 0,95, то ця ймовірність свідчить про те, що при частих застосуваннях даного способу (методу) обчислень довірчий інтервал приблизно в 95% випадків буде покривати параметр. Довірчий інтервал генеральної середньої і генеральної частки визначається на основі наведених вище нерівностей, з яких

випливає, що ~-х-~ + А; -р- + А.

У математичній статистиці надійність того чи іншого параметра оцінюють за значенням трьох наступних рівнів імовірності (інколи називають "пороги ймовірності"):Л = 0,95; ^2= 0,99; Р3 = 0,999. Імовірності, якими вирішено нехтувати, тобто а1= 0.05;; а2= 0.01; "3 = 0,001 називають рівнями значимості, або рівнями істотності. З наведених рівнів надійніші висновки забезпечує імовірність Р3 = 0,999. Кожному рівню довірчої ймовірності відповідає певне значення нормованого відхилення (див. табл. 27). Якщо немає в розпорядженні стандартних таблиць значень інтервалу імовірностей, то цю ймовірність можна обчислити з певним ступенем наближення за формулою:

Р(<) = -=^= 1 е" ~ йі.

На рисунку 11 заштриховані ті частини загальної площі, обмеженої нормальною кривою і віссю абсцис, які відповідають значенням <= ±1; <= ±2; < = і3 і для яких імовірності дорівнюють 0,6287, 0,9545; 0,9973. При точковому оцінюванні розраховується, як уже відомо, середня помилка вибірки, при інтервальному - гранична.

Залежно від принципів відбору одиниць (повторного чи без повторного) структурні формули розрахунку помилок вибірки

. 1 - -

різняться за величиною поправки ( N).

Рис. 11. Крива нормального розподілу ймовірностей

У таблиці 40 наведено формули розрахунків помилок оцінок генерального параметра.

Розглянемо конкретний випадок інтервальної оцінки параметрів генеральної сукупності за даними вибіркового спостереження.

Приклад. При вибірковому обстеженні господарств району встановлено, що середньодобовий надій корів (х) становить 10 кг. Частка чистопородної худоби у загальній чисельності поголів'я дорівнює 80 %. Помилка вибірки з довірчою ймовірністю Р = 0,954 виявилась рівною 0,2 кг; для частки чистопородної худоби 1 %.

Таким чином, межі, в яких може знаходитися генеральна середня

продуктивність, будуть 9,8 < х < 10,2; для генеральної частки худоби -79 < Р < 81.

Висновок: з імовірністю 0,954 можна стверджувати, що різниця між вибірковою середньою продуктивністю корів і генеральною продуктивністю становить 0,2 кг. Межа середньодобового надою - 9,8 і 10,2 кг. Частка (питома вага) чистопородної худоби в підприємствах району знаходиться в межах від 79 до 81 %, помилка оцінки не перевищує 1 %.

Таблиця 40

Розрахунок точкових і інтервальних помилок вибірки

При організації вибірки важливе значення має визначення необхідної її чисельності (п). Остання залежить від варіації одиниць обстежуваної сукупності. Чим більша коливність, тим більшою повинна бути чисельність вибірки. Зворотний зв'язок існує між чисельністю вибірки та її граничною помилкою. Прагнення отримати меншу помилку вимагає збільшення чисельності вибіркової сукупності.

Необхідна чисельність вибірки визначається на основі формул граничної помилки вибірки (д) із заданим рівнем імовірності (Р). Шляхом математичних перетворень отримують формули розрахунку чисельності вибірки (табл. 41).

Таблиця 41

Розрахунок необхідної чисельності вибірки_

Слід відмітити, що все викладене відносно статистичних оцінок ґрунтується на припущені, що вибіркова сукупність, параметри якої використовуються при оцінці, одержана з використанням методу (способу) відбору, який забезпечує одержання ймовірностей вибірки.

При цьому, обираючи довірчу ймовірність оцінки, слід керуватися тим принципом, що вибір її рівня не є математичним завданням, а визначається конкретно вирішуваною проблемою. У підтвердження сказаному розглянемо приклад.

Приклад. Припустимо, на двох підприємствах імовірність випуску готової (якісної) продукції дорівнює Р= 0,999, тобто імовірність одержання браку продукції становитиме а= 0,001. Чи можна в рамках математичних міркувань, не цікавлячись характером виробленої продукції, вирішити питання про те, мала чи велика ймовірність браку а= 0,001. Припустимо, одне підприємство випускає сівалки, а друге - літаки для обробітку посівів. Якщо на 1000 сівалок трапиться одна бракована, то з цим можна миритися, бо переплавка 0,1 % сівалок дешевше, ніж перебудова технологічного процесу. Якщо ж на 1000 літаків зустрінеться один бракований, це, безумовно, приведе до серйозних наслідків при його експлуатації. Отже, у першому випадку ймовірність одержання браку а= 0,001 може прийматись, в другому випадку - ні. За цієї причини вибір довірчої ймовірності в розрахунках взагалі і при обчислюванні оцінок, зокрема, слід здійснювати виходячи з конкретних умов задачі.

Залежно від завдань дослідження може виникнути необхідність обчислення однієї або двох довірчих границь. Якщо особливості розв'язуваної задачі вимагають встановлення тільки однієї із границь, верхньої або нижньої, можна переконатись, що ймовірність, з якою встановлюється ця границя, буде вища, ніж при зазначенні обох границь для одного і того ж значення коефіцієнта довіри 1

Нехай довірчі границі встановлені з імовірністю Р= 0,95, тобто,

в 95 %

§ 6.1. Статистична оцінка параметрів розподілу
§ 6.2. Закони розподілу вибіркових характеристик
6.2.1. Загальне поняття законів розподілу
6.2.2. Нормальний розподіл
6.2.3. Розподіл Стьюдента
6.2.4. Розподіл Хі- квадрат
6.2.5. Розподіл Фішера - Снедекора
МОДУЛЬ 3
ТЕМА 7. СТАТИСТИЧНІ МЕТОДИ ВИМІРЮВАННЯ ВЗАЄМОЗВ'ЯЗКІВ
§ 7.1. Дисперсійний аналіз
© Westudents.com.ua Всі права захищені.
Бібліотека українських підручників 2010 - 2020
Всі матеріалі представлені лише для ознайомлення і не несуть ніякої комерційної цінностію
Электронна пошта: site7smile@yandex.ru