Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М.-5.3. Технологія аналізу сховищ даних (Data Mining)

Інформатика / Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М.

Data Mining (добування знань, даних) - технологія аналізу сховищ даних, що грунтується на методах штучного інтелекту та інструментах підтримки прийняття рішень. Зокрема сюди входить знаходження трендів і комерційно корисних залежностей. Деколи використовують термін "knowledge discovery"

(виявлення знань) - виявлення прихованих структур (patterns) у сховищах даних, щоб перетворити їх на знання або термін "інтелектуальний аналіз даних". Всі ці терміни є синонімами.

Класичне визначення технології "видобування даних" (Data Mining) звучить таким чином: це виявлення в початкових ("сирих") даних - раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань. Тобто інформація, знайдена в процесі застосування методів Data Mining, повинна бути нетривіальною і раніше невідомою, наприклад, отриманий показник середніх продажів не є таким. Знання повинні описувати нові зв'язки між властивостями, передбачати значення та характеристики одних параметрів на основі інших.

Основна мета Data Mining полягає у виявленні прихованих правил і закономірностей у великих масивах даних. На відміну від оперативної аналітичної обробки даних (OLAP), у Data Mining основну задачу формулювання гіпотез і виявлення незвичайних шаблонів (закономірностей) перекладено з людини на комп'ютер.

Фірми Oracle, Microsoft, IBM т. ін. випустили ряд продуктів (DarWin, Microsoft SQL Server 200, IBM Intelligent for Data, відповідно), що реалізують алгоритми Data Mining і дають змогу автоматизувати процес аналізу даних.

Методи Data Mining дозволяють виявляти стандартні закономірності:

o асоціація (кілька подій пов'язані одна з одною, наприклад при купівлі пива дуже часто купують і чіпси чи горішки);

o послідовність (ланцюжок пов'язаних у часі подій, наприклад: нова квартира - нові меблі);

o кластеризація (відрізняється від класифікації тим, що групи заздалегідь не створені. Використовується для сегментації ринку і замовників);

o прогнозування (базою служить історична інформація. Ґрунтується на побудові математичних моделей).

Існують два способи впровадження нової інформаційної технології в локальні інформаційні структури:

1. пристосування її до організаційної структури підприємства;

2. модернізування організаційної структури з метою найбільш ефективного використання нової інформаційної технології.

Перший спосіб є дешевшим і не вимагає великих змін в організації діяльності підприємства. Проте ефект від його впровадження може бути незначним. Другий спосіб вимагає більших капіталовкладень, але забезпечує якісно новий рівень діяльності підприємства чи організації.

Наведені нижче приклади з різних областей економіки демонструють основну перевагу методів Data Mining - здатність виявлення нових знань, які неможливо отримати методами статистичного, регресивного аналізу або економетрики.

1. Клієнти компанії за допомогою одного з інструментів Data Mining були об'єднані в сегменти з схожими ознаками. Це дозволило проводити різну маркетингову політику і будувати окремі моделі поведінки для кожного сегменту. Найважливішими чинниками для розподілу були: віддаленість регіону клієнта, сфера діяльності, середньорічні суми операцій, кількість операцій за тиждень.

2. Автоматичний аналіз банківської бази даних кредитних операцій фізичних осіб виявив правила, за якими позичальникам відмовляли у видачі кредиту. Вирішальними чинниками, виявились: термін кредиту, середньомісячний дохід і витрати позичальника. Надалі це враховувалося при експрес-кредитуванні.

3. При аналізі бази даних клієнтів страхової компанії був встановлений соціальний портрет людини, що страхує життя - це виявився чоловік 35-50 років, що має двох і більше дітей і середньомісячний дохід вище $2000.

Висунення гіпотез. Під гіпотезою в даному випадку будемо розуміти припущення про вплив певних чинників на досліджувану задачу. При цьому форма цієї залежності в значення не має. Тобто можна припустити, що на продаж впливає відхилення ціни на товар від середньоринкової, але при цьому не зазначати, як саме цей чинник впливає на продажі. Для вирішення цієї задачі і використовується Data Mining. Наприклад, для обробки даних про обсяги продажів певного товару висувається гіпотеза про вплив чинника його відсутності у торговій точці.

Автоматизувати процес висунення гіпотез не представляється можливим, принаймні, на сьогоднішньому рівні розвитку технологій. Цю задачу повинні вирішувати експерти - фахівці в даній області. З використанням їх знань про предмет, методом опитування накопичується максимальна кількість гіпотез/припущень.

Результатом цього кроку буде список з описом всіх чинників. Наприклад, для задачі прогнозування попиту це може бути список наступного вигляду: сезон, день тижня, обсяги продажів за попередні тижні, обсяги продажів за аналогічний період минулого року, рекламна компанія, маркетингові заходи, якість продукції, бренд, відхилення ціни від середньоринкової, наявність даного товару у конкурентів, тощо.

При розв'язку певної задачі необхідно створювати спеціалізований набір даних, причому їх велика кількість не обумовлює якість рішення.

Після підготовки таблиці з описом чинників експертно оцінюється значущість кожного з чинників. Ця оцінка не є остаточною, вона служить відправним пунктом. В процесі аналізу може виявитися, що чинник, який експерти вважали вкрай важливим, таким по суті не є і, навпаки, незначущий із їхньої точки зору чинник може мати значний вплив. У будь-якому випадку, всі варіанти проаналізувати відразу неможливо, потрібно від чогось відштовхуватися, цією крапкою і є оцінка експертів. До того ж, досить часто реальні дані підтверджують їх оцінку. Результатом цього кроку може бути таблиця наступного вигляду (табл.5.2).

Коли гіпотезу висуває один експерт, задача оцінки значущості істотно спрощується. Проте, із зростанням складності системи, зростає і складність отримання адекватної оцінки експертів.

Таблиця 5.2. Приклад експертної оцінки значущості чинників

Чинник	Оцінка значущості (< 100)
Сезон	100
День тижня	80
Обсяги продажів за попередні тижні	100
Рекламна кампанія	60
Маркетингові заходи	40
Якість продукції	50
Відхилення ціни від середньоринкової	60
Наявність даного товару у конкурентів	15

Часто думки експертів можуть розходитись - виникає питання одержання середніх показників з десятків думок. Для цього існують спеціальні математичні методи - методи проведення складних експертиз: ранжування, парне порівняння та інші.

Резюме

Інтелектуальний аналіз інформації часто розглядають як природний розвиток концепції сховищ даних, в якому накопичуються всі необхідні дані для здійснення задач стратегічного управління середньострокового та довгострокового періодів. Обслуговування інформаційних сховищ полягає в: копіюванні баз даних, налаштуванні, тиражуванні, надсиланні застарілих баз даних до архіву, управлінні правами користувачів, створенні та редагуванні графічних діаграм баз даних, тощо.

Ключовим компонентом організації сховищ даних є технологія OLAP, яка базується на побудові і візуалізації багатовимірних кубів даних з можливістю довільного оперування даними, що містяться в кубі. OLAP повинна відповідати набору правил, що були сформульовані автором реляційної моделі даних Едгаром Франком Коддом.

Data Mining (добування знань, даних) - технологія аналізу сховищ даних, що ґрунтується на методах штучного інтелекту та інструментах підтримки прийняття рішень. Функціонування Data Mining полягає у виявленні прихованих правил і закономірностей у великих масивах даних. На відміну від OLAP, у Data Mining основну задачу формулювання гіпотез і виявлення незвичних шаблонів виконує комп'ютер. Data Mining дозволяє виявити нові знання, які неможливо отримати методами статистичного, регресивного аналізу або економетрики.

Ключові слова

Сховище даних, прогнозування, оперативна база даних, аналіз даних, OLAP-технології, клієнт, сервер ресурсу, гіпотеза, чинник, експерт.

Запитання і завдання для обговорення та самоперевірки:

► Сформулюйте означення сховища даних і наведіть основні відмінності між сховищем даних та базою даних.

► Організація інформації у сховищах даних.

► Визначте, чи багатовимірне представлення даних є зручнішим за табличне. Обґрунтуйте свою відповідь.

► Що таке OLAP- технології і OLAP-системи і де вони використовуються у практичній роботі економістів?

► Наведіть правила OLAP відповідно до груп.

► Назвіть та охарактеризуйте складові OLAP-технологій.

► Які види закономірностей дозволяють виявляти методи Data Mining. Наведіть приклади.

► В чому полягають переваги технології Data Mining і в яких галузях людської життєдіяльності її доцільно застосовувати?

► Визначте та поясніть проблематику впровадження нових технологій на підприємстві. Відповідь сформулюйте у вигляді пунктів "за" та "проти" .

► Чому, на Вашу думку, процес висунення гіпотез неможливо автоматизувати (принаймні, на сьогоднішній час)?

6. Автоматизовані інформаційні системи для підприємств та організацій
6.1. Інформаційні системи і технології в сучасному суспільстві
6.2. Основні етапи розвитку інформаційних систем
6.3. Класифікація інформаційних систем
6.4. Експертні системи
6.5. Автоматизовані інформаційні системи для підприємств та організацій
6.6. Технології створення машинної та позамашинної інформаційної бази
7. Інформаційні технології в управлінні
7.1. Роль інформаційних технологій в системі організаційного управління
7.2. Електронний документообіг

Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М. - 5.3. Технологія аналізу сховищ даних (Data Mining)

Інформатика / Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М.