Математична статистика - Руденко В.М. -
2.2. ПОКАЗНИКИ ВИБІРКИ

Міри центральної тенденції (МЦТ)

Мірами центральної тенденції (МЦТ) називають чисельні показники типових властивостей емпіричних даних. Ці показники дають відповіді на питання про те, наприклад, "який середній рівень інтелекту студентів педагогічного університету?", "яке типове значення показника відповідальності певної групи осіб?". Існує порівняно невелика кількість таких показників-мір і в першу чергу: мода, медіана, середнє арифметичне. Кожна конкретна МЦТ має свої особливості, що роблять її цінною для характеристики об'єкта дослідження в певних умовах.

Мода Мо - це значення, яке найчастіше трапляється серед емпіричних даних. Так, для ряду значень 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5 мода дорівнює 3 (Мо = 3). Зверніть увагу на те, що мода є значення з найбільшою частотою (у прикладі це значення дорівнює 3), а не частота цього значення (у прикладі вона дорівнює 4).

При визначенні моди необхідно дотримуватися таких угод:

o мода може бути відсутня, наприклад, для даних 2, 2, 3, 3, 4, 4, 5, 5;

o якщо варіанти суміжні і мають однакову частоту, мода визначається як середнє значення сусідніх варіант. Наприклад, для ряду 2, 2, 3, 4, 4, 4, 5, 5, 5 мода Мо = (4+5)/2=4,5;

o якщо варіанти несуміжні, може існувати декілька мод. Так, для даних 2,

2, 3, 3, 3, 4, 5, 5, 5 характерна бімодальність, тобто дві моди Мо1 = 3 і Мо2 = 5;

o емпіричні дані можуть мати великі та малі моди. Наприклад, дані 2, 2,

3, 3, 3, 4, 4, 4, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 9, 9, 9, 9 мають одну велику моду Мо1 = 6 та дві малі моди Мо2 = 3,5 і Мо3 = 9.

На графіках розподілу мода - це варіанта з максимальною частотою. На рис. 2.25 варіанта х6=5 має найбільшу частоту (0,33), тому і є модою Мо = 5. Медіана Мсі - це значення, яке приходиться на середину упорядкованої послідовності емпіричних даних. Для непарної кількості даних медіана визначається середнім елементом Мй = х(п+1)/2. Наприклад, для 11 значень 4, 4,

4, 5, 5, 5, 5, 5, 6, 6, 7 медіана дорівнює 4 (Мсі = 5), тобто:

Мй = х(п+1)/2 = х(11+1)/2 = х6 = 5

Якщо кількість значень даних є парною, то медіаною є середнє значення центральних сусідніх елементів: Мй = Х"/2 +2х"/2+1 . Наприклад, для 12 значень 3, 3, 3, 4, 4, 5, 6, 6, 6, 6, 7, 7 медіана Мй = (5+6)/2 = 5,5:

Мй _ хп/2 + хп/2+1 _ х12/2 + х12/2+1 _ х6 + х7 _ 5 + 6 _ _ 55

~ 2 2 2 2 ~ 2 _,.

Середнє арифметичне X (вибіркове середнє або середнє) сукупності п значень дорівнює:

X = х1 + х2 + - + хп . (2.1)

п

- 1 п - 1

Використовують інші формули, наприклад, X = хі скорочено X = -^ хі.

п і=1 п

Так, для вибірки (2, 2, 3, 3, 4, 5, 6, 7, 7, 8) середнє X дорівнюватиме:

X = (2 + 2 + 3 + 3 + 4 + 5 + 6 + 7 + 7 + 8)/10 = 47/10 = 4,7. Якщо дані представлено розподілами частот, середнє визначається як:

X =І£і 'хі (2.2)

І

де х,- - варіанти незгрупованих частот або центральні значення класових інтервалів у разі згрупованих частот; £ - диференціальні частоти. Особливості мір центральної тенденції:

o мода вибірки обчислюється просто, її можна визначити "на око". Для дуже великих груп даних мода є досить стабільною мірою центру розподілу;

o медіана займає проміжне положення між модою і середнім з погляду її підрахунку. Ця міра особливо легко визначається у разі ранжированих даних;

o середнє арифметичне передбачає використовування всіх значень вибірки, причому всі вони впливають на значення цієї міри.

Розглянемо, що може відбутися з модою, медіаною і середнім, коли зміниться удвічі лише одне значення, наприклад, 10-го об'єкта вибірки (рис. 2.28).

Рис. 2.28. Властивості МЦТ

Як бачимо, мода і медіана залишилися незмінними, у той час як середнє змінилося значною мірою (з 4,8 до 5,7). На величину середнього особливо суттєво впливають значення, що перебувають далеко від центру групи даних.

З точки зору помилок, що виникають через те, коли для характеристики цілої сукупності вибирається лише одна єдина статистична міра (мода, медіана чи середнє), кожна міра центральної тенденції має свою інтерпретацію

Мода є найбільш представницьким значенням або значенням, яке найкраще "замінює всі значення", якщо ми змушені вибрати одне.

Медіана - це таке значення, для якого сума абсолютних різниць усіх значень менша за суму різниць для будь-якого іншого значення. Наприклад, для сукупності {1, 3, 6, 8, 9} медіана Мсі = 6. Абсолютні різниці становлять: |1-6|=5, |3-6|=3, |6-6|=0, |8-6|=2, |9-6|=3. Сума всіх цих різниць 5+3+0+2+3=13 менша за суму різниць щодо будь-якого іншого значення. Наприклад, для 1 абсолютні різниці |1-1|=0, |3-1|=2, |6-1|=5, |8-1|=7, |9-1|=8, а їхня сума 0+2+5+7+8=22. Інші розрахунки дадуть подібні результати.

Якщо вибрати медіану, то досягається мінімальне відхилення - за умови, що "відхилення" визначається як сума абсолютної відмінності кожного значення від медіанної оцінки. Якщо ж замість кожного значення береться середнє, забезпечується мінімальне відхилення - за умови, що "відхилення" визначається як сума квадратів різниць кожного значення з середнім.

Використання мір центральної тенденції у якості характеристик випадкової вибірки є умовою необхідною, але недостатньою. Показники описової статистики, крім МЦТ, включають ще одну групу показників - міри мінливості (ММ).

Міри центральної тенденції (МЦТ)
Міри мінливості (ММ)
Розрахунки та інтерпретація МЦТ і ММ
Початкові та центральні моменти
Квантилі
Нормовані дані
2.3. КОРЕЛЯЦІЙНИЙ АНАЛІЗ
Сутність кореляції
Лінійна кореляція
Нелінійна кореляція