Мета технології Data Mining - знаходження в даних таких закономірностей, які не можуть бути знайдені традиційними методами. Є два види моделей: предик-тивні та описові.
Предиктивні моделі будуються на підставі набору даних з відомими результатами. Вони використовуються для прогнозу результатів на підставі інших наборів даних. Вимагається, щоб модель працювала максимально точно, була статистично значимою і виправданою. До них належать моделі класифікації - описують правила або набір правил, відповідно до яких можна віднести опис будь-якого нового об'єкта до одного з класів. Такі правила будуються на підставі інформації про наявні об'єкти шляхом поділу їх на класи; моделі послідовностей - описують функції, що дають змогу прогнозувати зміну параметрів. Вони будуються на підставі даних про зміну певного параметра за минулий період часу.
Описові (descriptive) моделі пов'язані із залежностями в наборі даних, взаємного впливу різних чинників, тобто на побудові емпіричних моделей різних систем. Ключовий момент у таких моделях - легкість і прозорість для сприйняття людиною. Можливо, знайдені закономірності будуть специфічною межею саме конкретних досліджуваних даних і більше ніде не зустрінуться, але це все може бути корисним. До них належать такі види моделей:
o кластеризації - описують групи (кластери), на які можна поділити об'єкти, дані про яких піддаються аналізу. Групуються об'єкти (спостереження, події) на основі даних (властивостей), що описують суть об'єктів. Об'єкти усередині кластера мають бути подібними один до одного і відрізнятися від об'єктів, що ввійшли до складу інших кластерів;
o виключень - описують виняткові ситуації в записах, які різко відрізняються від основної множини записів;
o підсумкові (результатні) - виявлення обмежень на даних масиву аналізу. Подібні обмеження важливі для розуміння даних масиву, тобто це нове знання, здобуте в результаті аналізу. Таким чином, Data Summarization - це знаходження яких-небудь фактів, які істинні для всіх або майже всіх записів у вибірці даних, що вивчається, але які досить рідко зустрічалися в усьому різноманітті записів такого самого формату;
o асоціації - виявлення закономірностей між пов'язаними подіями.
Для побудови розглянутих моделей використовуються різні методи й алгоритми Data Mining.
Більшість аналітичних методів, що використовуться у технології Data Mining - це математичні алгоритми і методи. Зокрема до методів і алгоритмів Data Mining відносять штучні нейронні мережі, дерева рішень, символьні правила, метод найближчого сусіда і к-найближчого сусіда, метод опорних векторів, байєсовські мережі, лінійну регресію, кореляційно-регре-сійний аналіз, ієрархічні методи кластерного аналізу, неієрар-хічні методи кластерного аналізу, зокрема алгоритми /с-серед-ніх і к-медіа ми, методи пошуку асоціативних правил, метод обмеженого перебору, еволюційне програмування і генетичні алгоритми, різноманітні методи візуалізації даних тощо.
До базових методів Data Mining належать також підходи, що використовують елементи теорії статистики. Основна їх ідея зводиться до кореляційного, регресійного та інших видів статистичного аналізу. Основним недоліком їх є усереднювання значень, що призводить до втрати інформативності даних. Це у свою чергу спричинює зменшення кількості знань, що здобуваються.
Основним способом дослідження задач аналізу даних є їх відображення формалізованою мовою та їх подальший аналіз за допомогою моделі.
Класифікація стадій Data Mining, Data Mining складається з кількох фаз: 1) виявлення закономірностей (вільний пошук); 2) використання виявлених закономірностей для прогнозу невідомих значень (прогностичне моделювання); 3) аналіз виключень - стадія призначена для виявлення і пояснення аномалій, знайдених у закономірностях.
Класифікація методів Data Mining. Усі методи Data Mining поділяються на дві групи за принципом роботи з початковими навчальними даними: 1) дані після Data Mining зберігаються - кластерний аналіз, метод найближчого сусіда, метод -найближчого сусіда, міркування за аналогією (традукцією);
2) дані деталізуються для подальшої обробки, тобто необхідним є виявлення і використання формалізованих закономірностей або дистиляція шаблонів.
При технології дистиляції шаблонів один зразок (шаблон) інформації витягується з початкових даних і перетворюється у певні формальні конструкції, вид яких залежить від методу Data Mining. Цей процес відбувається на стадії вільного пошуку, у першої групи методів ця стадія - відсутня. На стадіях прогностичного моделювання і аналізу виключень використовуються результати стадії вільного пошуку. Методи цієї групи: логічні методи; методи візуалізації; методи крос-табуляції; методи, засновані на рівняннях.
Логічні методи, або методи логічної індукції, включають нечіткі запити й аналізи, символьні правила, дерева рішень, генетичні алгоритми.
Методи цієї групи придатні для інтерпретації. Вони підтримують знайдені закономірності у прозорому вигляді з погляду користувача. Методи крос-табуляції забезпечують пошук шаблонів.
Методи на основі рівнянь виражають наявні закономірності у вигляді математичних виразів - рівнянь. Основні методи цієї групи: статистичні методи і нейронні мережі.
Статистичні методи найчастіше застосовуються для вирішення задач прогнозування. Є багато методів статистичного аналізу даних, наприклад, кореляційно-регресійний аналіз, кореляція рядів динаміки, виявлення тенденцій динамічних рядів, гармонійний аналіз.
Інша класифікація поділяє все різноманіття методів Data Mining на дві групи: статистичні і кібернетичні методи. Ця схема поділу заснована на різних підходах щодо навчання математичним моделям.
Кібернетичні методи Data Mining
Інтелектуальні технології Text Mining
8.5. Агентно орієнтовані системи на підприємствах
Формування динамічних бізнес-процесів у глобальній мережі Internet
8.6. Віртуальні організації
Типи віртуальних підприємств
8.7. Онтологічний підхід до використання знань на підприємствах. Організаційні онтології
Висновки
Розділ 9. Web-технології на підприємствах