Статистика - Опря А.Т. -
§ 3.3. Методологія статистичних групувань

Науковому статистичному групуванню передує теоретико-економічний аналіз досліджуваного явища. і разом з тим використання сучасних статистичних методів дозволяє кількісно оцінити ступінь однорідності виділених груп, здійснити відбір істотних групувальних ознак, удосконалювати методику визначення величини інтервалів групувань.

Групування статистичної сукупності починають з вибору групувальних ознак. Але процедурі відбору ознак передує досить важливий етап дослідницької роботи, пов'язаний із з'ясуванням тенденцій розвитку явища, специфіки розвитку досліджуваних об'єктів та ін.

Від вибору групувальної ознаки залежить розв'язання питання про утворення груп. Групування за атрибутивною ознакою обмежується кількістю значень ознаки. Наприклад, поголів'я спортивних коней можна поділити лише на таку кількість груп за породним складом, скільки фактично є таких порід.

Після відбору групувальної ознаки постає питання про кількість груп, на які буде розподілена досліджувана сукупність, і про межі груп. Розв'язання даного питання залежить від конкретних умов і завдань.

На цьому етапі встановлюють величину і границі кожного інтервалу. Оскільки характер реально існуючих сукупностей та їх розподіл досить різноманітні, то існують різні методичні підходи у вирішенні питання про кількість груп. Загальним принципом, з якого треба виходити, є характер матеріалу та чисельність досліджуваної сукупності. Характерні особливості розподілу не виявляються, якщо при невеликій сукупності одиниць спостереження взяти велике або дуже мале число груп. До цього питання існують різні підходи. Розглянемо їх.

Групувальна ознака може змінюватися дискретно, тобто перервно і безперервно. Якщо мінливість ознаки має дискретний характер, число груп варіаційного ряду, як правило, визначається числом цих дискретних значень (якщо їх небагато). Наприклад, групування підприємств за наявністю виробничих бригад - 1,2,3 і т. Д.

При мінливості ознаки безперервного характеру звертають увагу на ранжирований ряд. Якщо зростання рівнів групувальної ознаки відбувається з плавними переходами, перевага віддається рівним інтервалам. У разі стрибкоподібних змін групувальної ознаки будують групи з нерівними інтервалами. Границі у таких випадках встановлюють, як правило, в точках різких переходів.

Таким чином, у процесі групування за кількісною ознакою для обмеження окремих груп утворюють рівні або нерівні інтервали.

Питання визначення кількості груп в умовах порівняно поступових змін групувальної ознаки (у ранжированому ряду) може вирішуватися з різних методичних підходів.

Орієнтовно число інтервалів (груп) можна визначити шляхом добування квадратного кореня з обсягу досліджуваної сукупності. При цьому число інтервалів не повинно бути меншим 5 і більшим 20. Так. при чисельності вибірки 50 одиниць спостереження число

інтервалів дорівнює 7 ^Л^50).

Якщо сукупність невелика за обсягом, інтервальний ряд будують таким чином, щоб у крайні групи (першу і третю) потрапило по 25 % одиниць сукупності, а в середню - 50 %. У цьому випадку групування складається з трьох нерівних інтервалів. Наприклад, сукупність з 28 підприємств матиме розподіл: І група - 7 одиниць, II - 14, III - 7 одиниць.

Визначення числа груп, запропоноване Стерджессом, полягає у розрахунку формули: ^"" = 1+3,3221§*, де - число груп (інтервалів); п - чисельність сукупності. Застосовуючи цю формулу, будемо мати сукупності розміром 10-100 одиниць 4-7 груп: 100-1000 одиниць - 710; 1000-10000 - 12-14 груп. Як бачимо, відносне зростання числа груп із - збільшенням сукупності відбувається досить інтенсивно в інтервалі 10-100 одиниць і уповільнюється в інтервалі 100-1000 одиниць. Майже зовсім відсутнє таке зростання у інтервалі 100010000 одиниць сукупності.

Потрібно відмітити, що підхід досить формальний і небезпечний, який звільнює від можливості економічного мислення. Адже підводити умовно кожний своєрідний емпіричний розподіл під єдиний тип без врахування особливостей конкретних сукупностей не можна.

Слід визнати найвдалішими рекомендації В. П. Левинського, який пропонує своєрідні нормативи числа інтервалів, зумовлені

обсягами досліджуваної сукупності (табл. 6).

Таблиця 6

_Рекомендоване число груп для різної кількості спостережень_

Кількість одиниць спостережень

Рекомендоване число інтервалів (груп)

до 40

3-5

40-60

6-8

60-100

8-10

100-200

10-12

200-500

12-17

Якщо число одиниць спостереження налічується до 40, число інтервалів становитиме 3 або 5. Розподіл сукупності на 4 групи небажаний, адже в такому випадку втрачається середня група (інтервал).

Перевага рекомендації В. П. Левинського у порівнянні з рекомендацією Стерджесса у тому, що вона не так жорстко пов'язує число груп з чисельністю одиниць спостереження. А в такому разі дослідникові надається можливість певного вибору числа груп залежно від характеру сукупності. В економічних дослідженнях найбільш поширений обсяг сукупності 100-500 одиниць. За формулою Стерджесса число груп дорівнюватиме 7-10, за рекомендацією В. П. Левинського - від 10 до 17 груп.

Слід пам'ятати, що кількість обраних інтервалів (груп) залежить від коливності групувальної ознаки: чим воно більше, тим більше треба утворювати груп. Треба також намагатися, щоб виділені групи були достатньо заповнені одиницями спостереження. Наявність незаповнених Інтервалів або потрапляння в них лише окремих одиниць сукупності - результат того, що невдало обрано інтервали, кількість їх взята, ймовірно, зайва. Наявність малонаповнених інтервалів (груп) має право на існування лише по краях групування, де концентруються характеристики як передових, так і відстаючих показників за розміром відносно середнього рівня. Особливо це стосується структурних групувань. Кількість груп тут не повинна бути досить великою чи досить малою. У першому випадку є ризик загубитися у дрібницях, у другому - не виявити досить важливі властивості досліджуваної сукупності. Оптимальна кількість інтервалів дозволяє викрити всі істотні особливості досліджуваної сукупності.

Отже, якщо вирішено питання про визначення числа груп, на яке буде поділена сукупність, вихідні варіанти розташовують у ранжирований ряд за групувальною ознакою. В умовах відсутності ускладнюючих обставин, тобто наявності порівно поступових змін факторної ознаки, найпростішим способом визначення величини інтервалу при побудові рівновеликих інтервалів буде відношення:

х - X ■ і =-,

п

де і - величина інтервалу; хтах і хтіп - відповідно максимальна і мінімальна варіанти; п - задане число груп (інтервалів).

У випадках, коли невелика частина сукупності значно віддалена за розміром групувальної ознаки від сукупності основного масиву, за хтах приймається максимальна варіанта основного масиву.

Існують рекомендації щодо встановлення величини інтервалу групувань з деякими поправками до попередньої формули. У цьому

х - X ■ + 1

і =-

випадку формула набуває вигляду: " .

У випадках, коли максимальне і мінімальне значення у ранжированому ряду групувальних ознак значно відрізняється від решти показників, за хтах приймається суміжне наступне значення ознаки хтах+1, а за хтіп суміжне попереднє її значення хтіп-1.

У ряді випадків вихідна величина інтервалу групувань задається

х - X ■

. . . -=п

дослідником, а число груп у такому разі є похідним, тобто: 1

Якщо розрахована величина рівного інтервалу становить

дробове число, його заокруглюють до цілого, цим самим

розширюючи границі, якими охоплює інтервал розмаху коливності

значень групувальної ознаки.

Маючи встановлене число інтервалів і величину інтервалу,

визначають границі інтервалів (груп). Так, нижня границя першого

інтервалу (л1) встановлюється за мінімальною варіантою (хтіп).

Верхня границя цього інтервалу (Л2) дорівнюватиме (хтіп+г). Нижня границя другого інтервалу відповідає (умовно) верхній границі першого інтервалу (а верхня границя другого інтервалу (*3) дорівнюватиме (х2+') і т. д. При встановленні границь інтервалів (груп) необхідно пам'ятати, що верхня границя завжди менша від нижньої границі наступного інтервалу на ціну поділки, тобто одиницю виміру.

Приклад. Дані про середньоденну зарплату 57 підприємств згрупувати, утворивши групи з рівними інтервалами.

На першому етапі визначають кількість інтервалів. Згідно з вищезазначеним, для сукупності одиниць спостереження 40-60 рекомендована кількість інтервалів дорівнює 6-8. Вибираємо число інтервалів 7, тобто поділимо сукупність на 7 груп за розмірами показників зарплати.

Вихідні дані: 29,3; 31,0; 21,5; 21,4; 28,3; 35,7; 37,6; 19,8; 23,8; 21,6; 32,8; 27,6; 42,7;27,2; 32,3; 30,1; 30,2; 25,8; 24,6; 25,4; 29,8; 28,4; 21,7; 27,5; 23,8;37,4; 26,7; 16,5; 29,0; 21,1; 36,2; 29,6; 21,1; 26,3; 21,5; 27,5;29.5; 24,3; 21,3; 30,4; 30,4;

39,5; 25,8; 26,6; 24,4; 32,3; 26,6;25,9; 32,8; 29,3; 32,3; 25,3; 32,6; 21,5; 23,3; 27,1; 29,6.

Розмістивши варіанти в ранжирований ряд, маємо: 16,5; 19,3; 19,8; ...

37,6; 39,5; 42,7.

Крок інтервалу дорівнюватиме:

х - х- 42,7 -16,5 "

пшрт 7

Заокругливши до цілих варіанти, розрахуємо нижні і верхні границі інтервалів: 1 - 16+4 - 20 (тобто 16-20); II - 20+4 (тобто 20-24) тощо.

Будуємо макет таблиці групованого розподілу частот результатів спостереження (табл. 7).

Таблиця 7

Групування підприємств за рівнем денної зарплати_

Групи підприємств за рівнем зарплати, грн.

Кількість підприємств

І - до 20

3

II -20-24

11

III - 24-28

17

IV -28-32

14

V -32-36

7

VI - 36-40

4

VII -понад 40

1

Всього

57

Наведений у таблиці ряд пар чисел складає емпіричний розподіл частот ",- за значеннями х,-.

Сума частот дорівнює обсягу вибіркової сукупності

(^и' " п = 57).

Як уже було зазначено раніше, застосування методу статистичних групувань у дослідженні соціально-економічних явищ (так само як і інших видів явищ) повинно ґрунтуватися на знанні теоретичних положень і їх вимог. Чисто емпіричний підхід до узагальнення матеріалів спостереження може призвести до того, що дані, зібрані за науковими принципами і ретельно перевірені, можуть виявитися непридатними для поглибленого вивчення того чи іншого явища.

Теорія групувань вимагає одержання всебічної характеристики досліджуваного явища або його типів. Виділити і охарактеризувати типи можна лише за умов попереднього теоретичного висвітлення факторів, при поєднанні статистичних методів узагальнення з теоретичними положеннями наук, що вивчають дане явище.

Одним з основних положень теорії групувань вважається виділення із всієї різноманітності зв'язків основного процесу, який визначає всі інші зміни явища і веде до якісних перетворень.

На наступному етапі теоретичного обґрунтування з'ясовують, які нові якісні зміни відбуватимуться в ході розвитку даного процесу, тобто, які нові типи даного явища знаходять свій прояв і які виявляються їх найбільш істотні риси.

Викладене вище дає підстави стверджувати, що практичному застосуванню методу статистичних групувань передує ретельний теоретичний аналіз факторів, виявлення головного напряму розвитку досліджуваного явища і виділення із складної сукупності окремих груп одиниць, які належать до різних типів.

Але тут слід відзначити, що попереднє теоретичне вивчення даних при групуваннях не є догмою і не означає, що метод групувань відіграє певну технічну, тобто пасивну, роль в аналізі. Це зовсім не так. Використання статистичних групувань дає змогу одержати кількісну характеристику стану досліджуваних явищ, виявити якісні перетворення, перевірити наукові гіпотези відносно напряму розвитку явища і цим самим збагатити теорію питання, поставленого на дослідження.

Якщо вивчено зміст основного процесу і встановлено типи явищ, приступають до з'ясування основних форм, в яких здійснюється розвиток типів явищ. Відповідно до форм розвитку явищ відбирають найбільш істотні ознаки, які дозволяють виділити групи із якісно однорідних одиниць спостереження. Врахування форм розвитку явища має велике значення при застосуванні статистичних групувань. Нехтування цим методичним положенням може призвести до суб'єктивних висновків за результатами групувань, адже в такому разі є ймовірність змішування явищ і викривлення дійсних кількісних характеристик. Наприклад, якщо згрупувати сільськогосподарські підприємства області за чисельністю поголів'я великої рогатої худоби, можна дійти висновків, що зі зменшенням поголів'я з розрахунку на одне підприємство підвищується ефективність виробництва, що слід вважати необ'єктивним. Такий суб'єктивний висновок пояснюється тим, що при групуванні не враховано форми розвитку типів підприємств, оскільки в групу нечисленних за кількістю худоби підприємств потрапили такі, що мають високорозвинений рівень виробництва взагалі або спеціалізуються на виробництві окремих видів рослинницької продукції, маючи для цього відповідні оптимальні умови виробництва. Відповідно до форм розвитку типів при такому групуванні повинні враховуватися ознаки, які характеризують безпосередньо і розмір тваринництва, і характер виробництва (його інтенсивність, концентрацію, спеціалізацію і т.ін.).

Таким чином, метод статистичних групувань дає об'єктивні результати в аналізі лише за умов, коли за виділеними групами буде розраховано комплекс найбільш істотних статистичних показників, що характеризують основні сторони і взаємозв'язки досліджуваних явищ. Відбір показників здійснюють з урахуванням теоретичних положень окремих наук, які розкривають якісні особливості суті досліджуваних процесів, а також з урахуванням вимог статистичної науки, яка вимагає наявності достатньо великої чисельності одиниць спостереження у групах і застосування найбільш істотної форми показників. Важливим моментом у практичному використанні результатів групувань слід вважати процес перевірки їх на вірогідність. Це питання потребує детального розгляду окремо.

На початковому етапі здійснення статистичних групувань перевіряють "сумнівні" варіанти на належність їх до ряду розподілу. Із цією метою використовують т -критерій. Так, перш ніж розрахувати величину рівновеликого інтервалу, попередньо оцінюються крайні варіанти ранжированого ряду розподілу на належність їх до останнього. Критерієм належності сумнівних варіант до досліджуваної сукупності виступає стандартизоване відхилення значень сумнівних варіант (це, як правило, мінімальна і максимальна й близькі до них варіанти) від середньої. Розмір стандартизованого відхилення не повинен перевищувати число 3, тобто:

х< ~ х ^ і

де т - критерій належності; Хі - максимальне і мінімальне значення групувальної ознаки; ст* - середнє квадратичне відхилення.

Розглянемо розрахунок названого критерію на прикладі вибіркової сукупності показників середньоденної зарплати, наведеної вище, 8 визначимо належність максимальної (42,7) і мінімальної (16,5) варіанти до цієї сукупності (табл. 8). За даними робочої таблиці 8, обчислюємо х іст*.

Таблиця 8

Розрахунок г - критерію по вибірковій сукупності показників денної

зарплати

Інтервал

Варіанти (центр) Х'

Частота

Розрахункові дані

хіпі

х1- X

(хі - х)1п[

До 20

18

(умовно)

3

54

-10

100

300

20-24

22

11

242

-6

36

396

24-28

26

17

442

-2

4

68

28-32

30

14

420

2

4

56

32-36

34

7

238

6

36

252

36-40

38

4

152

10

100

400

Понад 40

42

(умовно)

1

42

14

196

196

Всього

-

57

1590

-

-

1668

По одержаних результатах розрахунків г - критерію робимо висновок, що максимальна і мінімальна ознаки у досліджуваній сукупності є типовими для неї, адже їх розміри не перевищують числа 3 (-2,13, 2,73<3).

(Оскільки обчислення спеціальних параметрів х і ст* буде предметом розгляду спеціальних тем, розрахунок даних статистичних характеристик тут не коментується).

МОДУЛЬ 2
ТЕМА 4. УЗАГАЛЬНЮЮЧІ СТАТИСТИЧНІ ПОКАЗНИКИ
§ 4.1. Абсолютні показники, їх значення
§ 4.2. Відносні показники, їх види і форми
§ 4.3. Середні величини як характеристики ряду
§ 4.4. Умови наукового застосування статистичних показників
ТЕМА 5. АНАЛІЗ РЯДІВ РОЗПОДІЛУ
§ 5.1. Поняття про статистичні ряди розподілу
§ 5.2. Графічне зображення рядів розподілу. Основні форми статистичних розподілів
§ 5.3. Варіація ознак. Показники варіації