Основні завдання та методи математичної статистики
Математична статистика - це сучасна галузь математичної науки, яка займається статистичним описом результатів експериментів і спостережень, а також побудовою математичних моделей, що містять поняття ймовірності. Теоретичною базою математичної статистики служить теорія ймовірностей.
В структурі математичної статистики традиційно виділяють два основні розділи: описова статистика і статистичні висновки (рис. 1.1).
Рис. 1.1. Основні розділи математичної статистики
Описова статистика використовується для:
o узагальнення показників однієї змінної (статистика випадкової вибірки);
o виявлення взаємозв'язків між двома і більше змінними (кореляційно-регресійний аналіз).
Описова статистика дає можливість отримати нову інформацію, швидше зрозуміти і всебічно оцінити її, тобто виконує наукову функцію опису об'єктів дослідження, чим і виправдовує свою назву. Методи описової статистики покликані перетворити сукупність окремих емпіричних даних на систему наочних для сприйняття форм і чисел: розподіли частот; показники тенденцій, варіативності, зв'язку. Цими методами розраховуються статистики випадкової вибірки, які служать підставою для здійснення статистичних висновків.
Статистичні висновки надають можливість:
o оцінити точність, надійність і ефективність вибіркових статистик, виявити похибки, які виникають у процесі статистичних досліджень (статистичне оцінювання);
o узагальнити параметри генеральної сукупності, отримані на підставі вибіркових статистик (перевірка статистичних гіпотез).
Головна мета наукових досліджень - це отримання нового знання про великі класи явищ, осіб або подій, які прийнято називати генеральною сукупністю.
Генеральна сукупність - це повна сукупність об'єктів дослідження, вибірка - її частина, яка сформована певним науково обгрунтованим способом2.
Термін "генеральна сукупність" використовується тоді, коли йдеться про велику, але кінцеву сукупність досліджуваних об'єктів. Наприклад, про сукупність абітурієнтів України у 2009 році або сукупність дітей дошкільного віку міста Рівне. Генеральні сукупності можуть сягати значних обсягів, бути скінченими і нескінченими. На практиці, як правило, мають справу зі скінченими сукупностями. І якщо відношення обсягу генеральної сукупності до обсягу вибірки складає більш, ніж 100, то, за словами Гласса і Стенлі методи оцінювання для скінчених і нескінчених сукупностей дають у сутності однакові результати [17, С. 218]. Генеральною сукупністю можна називати і повну сукупність значень якоїсь ознаки. Приналежність вибірки до генеральної сукупності є головною підставою для оцінки характеристик генеральної сукупності за характеристиками вибірки.
Основна ідея математичної статистики базується на переконанні про те, що повне вивчення всіх об'єктів генеральної сукупності в більшості наукових завдань або практично неможливе, або економічно недоцільне, оскільки вимагає багато часу і значних матеріальних витрат. Тому в математичній статистиці застосовується вибірковий підхід, принцип якого показано на схемі рис. 1.2.
Наприклад, за технологією формування розрізняють вибірки рандомізовані (прості та систематичні), стратифіковані, кластерні (див. розділ 4).
Рис. 1.2. Схема застосування методів математичної статистики Згідно з вибірковим підходом використання математико-статистичних методів може проводитися у такій послідовності (див. рис. 1.2):
o із генеральної сукупності, властивості якої підлягають дослідженню, певними методами формують вибірку - типову але обмежену кількість об'єктів, до яких застосовують дослідницькі методи;
o в результаті методів спостережень, експериментальних дій і вимірювань над об'єктами вибірки отримують емпіричні дані;
o обробка емпіричних даних за допомогою методів описової статистики дає показники вибірки, які називаються статистиками - як і назва дисципліни, до речі;
o застосовуючи методи статистичних висновків до статистик, отримують параметри, які характеризують властивості генеральної сукупності.
Приклад 1.1. З метою оцінки стабільності рівня знань (змінна X) проведено тестування рандомізованої вибірки3 студентів обсягом n. Тести містили по m завдань, кожне з яких оцінювалося за системою балів: "виконано"" - 1, "не виконано" - 0. Чи залишилися середні поточні досягнення студентів X
3 Рандомізована вибірка (від анг. random - випадковий) - це репрезентативна вибірка, яка сформована за стратегією випадкових випробувань.
на рівні минулих років /г? Послідовність рішення:
o висунути змістовну гіпотезу типу: "якщо поточні результати тестування не відрізнятимуться від минулих, то можна вважати рівень знань студентів незмінним, а навчальний процес - стабільним";
o сформулювати адекватну статистичну гіпотезу, наприклад, нуль-гіпотезу Н0 про те, що "поточний середній бал X статистично не відрізняється від середнього показника минулих років /г ", тобто Н0: X =/г, проти відповідної альтернативної гіпотези X Ф^;
o побудувати емпіричні розподіли досліджуваної змінної X;
o розрахувати вибіркові статистики, наприклад, середнє, дисперсію і т.д.;
o визначити (при необхідності) кореляційні зв'язки, наприклад, між змінною X та іншими показниками, побудувати лінії регресії;
o перевірити відповідність емпіричного розподілу нормальному законові;
o оцінити значення точкових показників та довірчий інтервал параметрів, наприклад, середнього;
o визначити критерій для перевірки статистичних гіпотез;
o виконати перевірку статистичних гіпотез на основі вибраних критеріїв;
o сформулювати рішення щодо статистичної нуль-гіпотези на певному рівні значущості;
o перейти від рішення про прийняття або відхилення статистичної нуль-гіпотези до інтерпретації висновків щодо гіпотези змістовної;
o сформулювати змістовні висновки.
Отже, якщо узагальнити перераховані вище процедури, застосування статистичних методів складається з трьох основних блоків:
- перехід від об'єкта реальності до абстрактної математико-статистичної схеми, тобто побудова імовірнісної моделі явища, процесу, властивості;
- проведення розрахункових дій власно математичними засобами в рамках імовірнісної моделі за результатами вимірювань, спостережень, експерименту і формулювання статистичних висновків;
- інтерпретація статистичних висновків щодо реальної ситуації й ухвалення відповідного рішення.
Статистичні методи обробки й інтерпретації даних спираються на теорію ймовірностей. Теорія ймовірностей є основою методів математичної статистики. Без використання фундаментальних понять і законів теорії ймовірностей неможливе узагальнення висновків математичної статистики, а значить і обгрунтованого їх використання для наукових і практичних цілей.
Так, завданням описової статистики є перетворення сукупності вибіркових даних на систему показників - статистик - розподілів частот, мір центральної тенденції і мінливості, коефіцієнтів зв'язку тощо. Проте, статистики є характеристиками, по суті, конкретної вибірки. Звичайно, можна розраховувати вибіркові розподіли, вибіркові середні, дисперсії і т. ін., але подібний "аналіз даних" має обмежену науково-пізнавальну цінність. "Механічне" перенесення будь-яких висновків, зроблених на основі таких показників, на інші сукупності не є коректним.
Для того, щоб мати можливість перенесення вибіркових показників або на інші, або на більш поширені сукупності, необхідно мати математично обгрунтовані положення щодо відповідності і спроможності вибіркових характеристик характеристиками цих поширених так званих генеральних сукупностей. Такі положення базуються на теоретичних підходах і схемах, пов'язаних з імовірнісними моделях реальності, наприклад, на аксіоматичному підході, на законі великих чисел і т.д. Тільки з їхньою допомогою можна переносити властивості, які встановлено за результатами аналізу обмеженої емпіричної інформації, або на інші, або на поширені сукупності. Отже, побудова, закони функціонування, використання імовірнісних моделей, що є предметом математичної галузі під назвою "теорія ймовірностей", стає суттю статистичних методів.
Таким чином, в математичній статистиці використовуються два паралельних рядка показників: перший рядок, що має відношення до практики (це вибіркові показники) і другий, що базується на теорії (це показники імовірнісної моделі). Наприклад, емпіричним частотам, що визначені на вибірці, відповідають поняття теоретичної ймовірності; вибірковому середньому (практика) відповідає математичне очікування (теорія) і т.д. Причому, в дослідженнях вибіркові характеристики, як правило, є первинними. Вони розраховуються на основі спостережень, вимірювань, дослідів, після чого проходять статистичне оцінювання спроможності та ефективності, перевірку статистичних гіпотез згідно з метою досліджень і врешті приймаються з певною ймовірністю як показники властивостей досліджуваних сукупностей.
Запитання. Завдання.
1. Охарактеризуйте основні розділи математичної статистики.
2. В чому полягає основна ідея математичної статистики?
3. Охарактеризуйте співвідношення генеральної і вибіркової сукупностей.
4. Поясніть схему застосування методів математичної статистики.
5. Укажіть перелік основних завдань математичної статистики.
6. З яких основних блоків складається застосування статистичних методів? Охарактеризуйте їх.
7. Розкрийте зв'язок математичної статистики з теорією ймовірностей.
2. СТАТИСТИЧНІ ПОКАЗНИКИ ВИБІРКИ
2.1. ЕМПІРИЧНІ РОЗПОДІЛИ
Варіаційні ряди та статистичні розподіли
Незгруповані розподіли
Згруповані розподіли
Атрибутивні розподіли
Ранжировані розподіли
2.2. ПОКАЗНИКИ ВИБІРКИ
Міри центральної тенденції (МЦТ)