Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М. -
1.4. Життєвий цикл даних. Збір і систематизація даних

Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації. Поняття "дані" - відносно новий термін. Зазвичай дані є вхідною інформацією для інформаційного процесу.

Дані - відомості, які є необхідними для формулювання висновків і прийняття рішень

Дані, як речовину чи енергію, можна збирати, обробляти, зберігати, змінювати форму їх представлення. Вони можуть створюватись, знищуватись, багаторазово використовуватись. Головною особливістю даних сьогодні є те, що їх стає надзвичайно багато. При масовому застосуванні комп'ютерів виникла гігантська кількість джерел даних. Для прикладу можна взяти обсяг даних у всесвітній мережі Інтернет, що збільшується щохвилини.

Ключовим поняттям маніпулювання даними є структура типу "файл", що представляє собою множину однотипних елементів (записів). Також файл займає певну ділянку на носії пам'яті і характеризується ім'ям, типом та іншими атрибутами. В свою чергу запис - це структура, яка складається з полів (мінімальної структури даних).

Основними етапами життєвого циклу даних є виникнення, збереження, застосування та знищення. Знищення, з точки зору життєвого циклу даних, не представляє інтересу, оскільки причиною видалення є втрата інформативності даних. Фаза використання даних включає три етапи:

o пошук;

o обробку;

o аналіз.

Результатом використання даних є інформація.

Існує декілька методів збору, необхідних для аналізу даних:

1. Облікові системи. Як правило, в облікових системах є механізми побудови звітів і експорту даних, тому отримання потрібної інформації є відносно нескладною операцією.

2. Непрямі дані. Про чинники можна скласти оцінку і за непрямими ознаками. Наприклад, реальне фінансове положення мешканців певного регіону можна оцінити наступним чином. В більшості випадків товари з однаковим призначенням (але різною ціною) поділяються на групи: товари для покупців з низьким рівнем достатку, середнім та високим. Якщо проаналізувати звіт про продажі товару в потрібному регіоні з точки зору пропорційного розподілу суми продажів для кожної категорії достатку покупців, то можна припустити, що чим більше частка від продажу дорогих виробів з однієї товарної групи, тим більше середня платіжна спроможність мешканців даного регіону.

3. Відкриті джерела. Велика кількість даних наявна у відкритих джерелах, таких як статистичні вибірки, звіти корпорацій, опубліковані результати маркетингових досліджень тощо.

4. Проведення незалежних маркетингових досліджень і аналогічних заходів щодо збору даних. Це може бути достатньо дорогим способом, проте, такий варіант збору даних не виключений.

5. Внутрішні дані. Інформація заноситься в базу за різного роду експертними оцінками працівниками організації. Трудомісткий метод.

Зібрані дані перетворюються до єдиного формату, наприклад, таблиць Excel, текстових файлів, або компонентів довільної бази даних. Однією із важливих дій при цьому є визначення способу представлення даних. Як правило, вибирають один з наступних видів - число, рядок, дата, логічна змінна (так/ні). Визначити спосіб представлення (формалізувати) деякі дані буває легко - наприклад, об'єм продажів в гривнях - це певне число. Але, як правило, виникає ситуація, коли представлення чинника є невідомим. Найчастіше такі проблеми виникають з якісними характеристиками. Наприклад, відомо, що на обсяги продажів впливає якість товару (як для продажу побутової техніки чи одягу).

Якість - складне поняття, і якщо цей показник є важливим, то необхідно ввести спосіб його формалізації. Наприклад, визначати якість за кількістю браку на тисячу одиниць продукції, або експертно оцінювати, розбивши на декілька категорій - відмінно/ добре/ задовільно/ погано.

Також дані повинні бути уніфікованими - одні й ті ж самі дані скрізь повинні описуватись однаково. Часто при видобуванні знань основну увагу приділяють механізмам аналізу даних, не враховуючи важливість попередньої обробки та очищення даних. Очевидно, що некоректні початкові дані призводять до некоректних висновків. Зазначимо, що в більшості випадків джерелом інформації для аналітичних систем є сховище даних, в якому акумулюються відомості з різнорідних джерел, тому гострота проблеми суттєво зростає.

Для дослідження процесів різної природи дані повинні бути підготовлені спеціальним чином. Зупинимося докладніше на двох типах даних: впорядкованих і невпорядкованих. Впорядковані дані потрібні для вирішення задач прогнозування - коли визначають хід того чи іншого процесу в майбутньому на основі наявних хронологічних даних. Як правило, одним з параметрів виступає дата або час, проте можуть використовуватись довільні відліки, наприклад, покази лічильників, зняті з певною періодичністю.

Для впорядкованих даних (часові ряди), кожному стовпцю відповідає один чинник, а в кожний рядок заносяться впорядковані за часом події з єдиним інтервалом між рядками. Для спрощення сприйняття даних не допускається наявність груп, підсумків та інше:

Таблиця 1.1. Приклад формалізації впорядкованих даних

Дата

Закупівельна частота

Обсяги продажів

1

01.10.2010

256

74729,53

2

02.10.2010

278

83799,14

Якщо для процесу характерна сезонність або циклічність, необхідно отримати дані мінімально за один повний сезон/цикл з можливістю варіації інтервалів (щотижневий, щомісячний).

Оскільки циклічність може бути вкладена, наприклад, усередині річного циклу - квартальний, а усередині кварталів - тижневий, то необхідно мати повні дані як мінімум за один най триваліший цикл.

Невпорядковані дані потрібні для задач, де часовий чинник не має значення, наприклад, оцінка кредитоспроможності, діагностика, сегментація споживачів. В таких випадках ситуація вважається статичною і тому інформація про те, що одна подія відбулась раніше, буде неістотною.

Для невпорядкованих даних кожному стовпцю відповідає чинник, а в кожний рядок заноситься приклад (ситуація, прецедент). Впорядкованість рядків не є обов'язковою. Групи, підсумки - не використовуються:

Таблиця 1.2. Приклад формалізації невпорядкованих даних

Стаж роботи

Наявність власного транспортного засобу

Сума кредиту (грн-)

1

> 5 років

так

25000

2

< 5 років

ні

20000

Кількість прикладів (прецедентів) повинна бути значно більшою за кількість чинників. В загальному випадку є висока вірогідність того, що випадковий чинник зробить вирішальний вплив на результат. Якщо немає можливості збільшити кількість даних, то зменшується кількість чинників, що відбираються за ступенем впливу.

Бажано, щоб дані охоплювали якомога більшу кількість ситуацій реального процесу і пропорції різних прикладів (прецедентів) мають відповідати реальності. Зазначимо, що система не може знати про що-небудь, що знаходиться за межами зібраних для аналізу даних. Наприклад, якщо при створенні медичної системи діагностики подавати тільки відомості про хворих, то система не знатиме про існування в природі здорових людей. І відповідно, будь-яка людина за результатами роботи такої системи буде обов'язково чимось хвора.

Резюме

В основі будь-якого процесу лежить визначена технологія - набір способів, засобів вибору та здійснення керуючого процесу з множини можливих його реалізацій. Інформаційна технологія оперує такими об'єктами, як інформація (довільні відомості про подію, сутність чи процес, знання (сукупність відомостей з певної предметної області) та дані (відомості, які є необхідними для формулювання висновків і прийняття рішень).

Життєвий цикл об'єктів технології передбачає їх наступну трансформацію: інформація - дані, дані - знання та знання - знання, що складає інформаційний процес.

Інформаційні процеси поділяють на процеси циркуляції та переробки інформації, які, в свою чергу поділяються на процеси збору, передачі, обробки, збереження та спрямування до користувача.

Ключові слова

Технологія, об'єкт, технологічний процес, інформаційний процес, життєвий цикл, дані, інформація, знання.

Запитання і завдання для обговорення та самоперевірки:

► Технологія: означення, вимоги та результат.

► Які вимоги висуваються до сучасної технології?

► Взаємозв'язок та ієрархія технологій.

► Охарактеризуйте роль поняття ЖЦ в технології

► Етапи життєвих циклів.

► Опишіть життєвий цикл процесу створення товару.

► Поняття процесу і його компоненти.

► Різновиди технологічних процесів.

► Наведіть приклади хаотичного та автоматичного технологічних процесів.

► Яка специфіка вхідної інформації для програмованої технології?

► Охарактеризуйте життєвий цикл інформації.

► Опишіть методи появи нових знань.

► Назвіть фази використання даних.

► Опишіть особливості систематизації даних.

2. Економічна інформація і засоби її формалізованого опису
2.1. Види інформації. Поняття економічної інформації
2.2. Структура і властивості економічної інформації
2.3. Класифікація як засіб формалізованого опису інформації
2.4. Кодування об'єктів класифікації
2.5. Призначення і структура класифікаторів
3. Інформаційні технології: властивості, вимоги, цілі
3.1. Етапи розвитку інформаційних технологій
3.2. Властивості інформаційної технології і вимоги до неї
3.3. Декомпозиція цілей інформаційної технології