Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М. -
4.1. Принципи функціонування автоматичних засобів видобування знань

4.1. Принципи функціонування автоматичних засобів видобування знань

Для аналізу і розв'язання задач різного характеру, в тому числі і економічних, сучасні інформаційні технології пропонують широкий спектр засобів прийняття рішень - людино-машинні інтерактивні системи, які дозволяють особам, що приймають рішення, використовувати дані, знання, об'єктивні чи суб'єктивні моделі. Необхідно зазначити, що вибір засобу для обробки інформації обумовлюється властивостями поставленої задачі.

Структуровані задачі містять кількісні та якісні змінні, підлягають формалізації, яка нескладно реалізується. Надалі для них можна розробити повністю структуровані процедури знаходження рішень.

Слабоструктуровані задачі містять як кількісні, так якісні змінні, для них можна частково розробити структуровані процедури знаходження рішень.

Неструктуровані задачі містять лише якісні описи, їх неможливо формалізувати, вимагають нестандартних процедур прийняття рішень, де використовуються досвід, кваліфікація та інтуїція людини.

Існує два способи отримання знань: документальний і експертний. В першому випадку відомості містяться у різноманітних інформаційних джерелах (книги, документи, бази даних, інформаційні системи і т.п.). Експертний спосіб припускає видобування і структуризацію знань з пам'яті людини - експерта, або фахівця в наочній області. Використовується для рішення неструктурованих задач.

Серед методів першої групи в економіці поширені методи математичної статистики, що вирішують спектр задач, проте не дозволяють знаходити і видобувати знання з масивів даних. Також, високі вимоги до кваліфікації кінцевих користувачів обмежують їх використання.

Серед другої групи поширені так звані експертні системи - спеціальні комп'ютерні програми, що моделюють процеси розмірковування та прийняття рішення людини. Наприклад, експертна система ухвалення рішень на ринку цінних паперів, експертна система оцінки кредитних ризиків, тощо. Висока вартість створення і впровадження експертних систем, нездатність людей знаходити складну і нетривіальну залежність, часто відсутність фахівців, здатних грамотно структурувати свої знання також ускладнюють популяризацію такого підходу.

Специфіка сучасних вимог до обробки інформації робить безсилим як статистичні, так і експертні підходи в багатьох практичних областях, у тому числі і економічних. Тому для аналізу сучасних баз даних методи повинні бути ефективними, простими у використанні, володіти значним рівнем масштабності і певною автоматизованістю.

Методи виявлення знань можна умовно розбити на п'ять груп:

o класифікація;

o кластеризація - групування об'єктів на основі даних, що описують сутність об'єкту. Об'єкти всередині кластера повинні бути "подібними" один на одного і відрізнятися від об'єктів, що увійшли до інших кластерів. Ступінь подібності об'єктів характеризує точність кластеризації. Для економічних задач використовують термін сегментація;

o регресія, у тому числі і задача прогнозування. Це встановлення залежності вихідних змінних від вхідних. До цього ж типу задач відноситься і прогнозування часового ряду на основі хронологічних даних.

o асоціація - виявлення закономірностей між пов'язаними подіями. Прикладом такої закономірності служить правило, яке вказує, що з події X випливає подія Y.

Такі правила називаються асоціативними. Вперше ця задача була розв'язана для знаходження типових шаблонів покупок в супермаркетах, тому іноді її ще називають аналізом споживчого кошика (market basket analysis).

Послідовні шаблони - встановлення закономірностей між пов'язаними у часі подіями

Розглянуті вище задачі знайшли широке застосування при видобуванні знань економічного характеру. Розглянемо декілька наступних прикладів.

Класифікація використовується у випадку, коли класи об'єктів є наперед відомими. Наприклад, віднесення нового товару певної товарної групи (продовольчі, промислові), віднесення клієнта до визначеної категорії (постійний клієнт, новачок). При кредитуванні це може бути, наприклад, віднесення клієнта за певними ознаками до однієї з груп ризику.

Кластеризація може використовуватися для сегментації і побудови профілів клієнтів (покупців). При достатньо великій кількості клієнтів неможливо розробити для кожного індивідуальний підхід. Тому клієнтів зручно об'єднати в групи - сегменти з однорідними ознаками (групами ознак). Це можуть бути сегменти по сфері діяльності, по географічному розташуванню. Після сегментації можна отримати відомості, які саме сегменти є найактивнішими, які приносять найбільший прибуток, виділити характерні для них ознаки. Ефективність роботи з клієнтами підвищується за рахунок обліку їх персональних переваг.

Регресія використовується для встановлення залежності в чинниках. Наприклад, в задачі прогнозування залежною величиною є обсяги продажів, а чинниками, що впливають на цю величину, можуть бути попередні обсяги продажів, зміна курсу валют, активність конкурентів і т.д. Або, наприклад, при кредитуванні фізичних осіб вірогідність повернення кредиту залежить від особистих характеристик людини, сфери його діяльності, наявності майна, платоспроможності, тощо.

Асоціації допомагають виявляти товари, які люди купують одночасно. Це може бути корисно для більш зручного розміщення товару на прилавках, стимулювання продажів (наприклад: розміщення гірчиці чи кетчупу біля сосисок, чаю біля печива гарантує збільшення сукупних обсягів продажу цих продуктів).

Послідовні шаблони можуть використовуватись при плануванні продажів або наданні послуг. Наприклад: якщо людина придбала фотоплівку, то через деякий час віддасть її на проявлення і замовить друк фотографій.

Застосовуючи індуктивні методи до множини вхідних даних можна виявити нелінійні закономірності та видобути певні знання. Проте, незалежно від методу, їх якість та важливість насамперед залежить від якості, змістовності та повноти даних, що будуть проаналізовані.

4.2. Нейромережеві технології штучного інтелекту
Мапи, що самоорганізуються
4.3. Технологія виявлення знань в базах даних (Knowledge Discovery in Databases)
4.4. Нові концепції у теорії штучного інтелекту
5. Створення сховищ даних. Технології OLAP та Data Mining
5.1. Структура сховища даних та оптимізація його обсягів
5.2. Технологія аналітичної обробки даних в реальному часі OLAP
5.3. Технологія аналізу сховищ даних (Data Mining)
6. Автоматизовані інформаційні системи для підприємств та організацій
6.1. Інформаційні системи і технології в сучасному суспільстві