5.1. Структура сховища даних та оптимізація його обсягів
Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції сховищ даних. Головна відмінність сховища від бази даних полягає в тому, що їх створення і експлуатація переслідують різну мету. База даних відіграє роль помічника в оперативному управлінні організацією. Це щоденні задачі отримання актуальної інформації: бухгалтерські звітності, облік договорів, тощо. Сховище даних накопичує всі необхідні дані для здійснення задач стратегічного управління в середньостроковому і довгостроковому періоді. Наприклад, продаж товару і генерація рахунку проводяться з використанням бази даних, а аналіз динаміки продажів за декілька років, що дозволяє спланувати роботу з постачальниками - за допомогою сховища даних.
Сховище даних (Data Warehouse) - це систематизована інформація з різнорідних джерел, яка є необхідною для обробки з метою ухвалення стратегічно важливих рішень
Сховище будується на основі клієнт-серверної архітектури, СУБД і утиліт підтримки прийняття рішень. Дані, що надходять у сховище, стають доступні тільки для читання.
Властивості сховища даних;
o предметна орієнтація (інформацію організовано відповідно до основних аспектів діяльності);
o інтегрованість даних (дані в сховище надходять з різних джерел і відповідно агрегуються);
o стабільність, інваріантність у часі (записи в DW ніколи не змінюються, являючи собою відбитки даних, зроблені у певний час);
o мінімізація збитковості інформації (перед завантаженням у сховища дані фільтруються, зберігаються у певній послідовності, а також формується деяка підсумкова інформація).
В сховищах даних надмірність даних є мінімальною (приблизно 1%), оскільки:
o при завантаженні у сховище дані сортуються і фільтруються;
o інформація у сховищах зберігається в хронологічному порядку, що майже повністю виключає перекриття даних;
o при завантаженні у сховище дані зводяться до єдиного формату, включаючи обчислення підсумкових (агрегованих) показників.
Сервери багатовимірних баз даних можуть зберігати дані по-різному, крім агрегованих показників формується ще й додаткова інформація: поля часу, дати; адресні посилання, таблиці метаданих тощо. Це приводить до значного збільшення інформації. Вхідний масив розміром 200 Mb може розростись до об'єму 5 Gb. Сховище даних повинне бути оптимально організованою базою даних, яка забезпечує максимально швидкий і оперативний пошук інформації.
Вітрина даних - це спрощений варіант сховища даних, що містить лише тематично орієнтовані, агреговані дані
Глобальне сховище даних складається з трьох рівнів:
1) сховище агрегованих даних;
2) вітрини даних, які базуються на інформації зі сховища даних;
3) клієнтські робочі місця, на яких встановлено засоби оперативного аналізу даних.
У розпорядженні виробників прикладних програмних засобів є три різні технології роботи з базами даних:
o DAO (Data Access Objects) - доступ до локальних баз даних;
o RDO (Remote Data Objects) - доступ до віддалених баз даних;
o ADO (ActiveX Data Objects) - доступ до Widows-додатків через Інтернет. В основному використовується з міркувань безпеки.
Одним з перспективних напрямів удосконалення доступу до даних є гнучке конфігурування системи, коли розподіл між клієнтською і серверною частинами можливий за допомогою використання механізму віддалених
процедур.
Поряд з потоками даних існують і потоки метаданих, які розміщуються в депозитарії. Він дає змогу визначити семантичну структуру додатка у вигляді опису термінів предметної галузі, їхні взаємозв' язки й атрибути.
Метадані - це дані про дані, які визначають джерело, приймач та алгоритм трансформації даних під час перенесення їх від джерела до приймача
Метадані містять:
o описи структур даних та їхніх взаємозв'язків;
o інформацію про джерела даних і про ступінь їх вірогідності;
o інформацію про власників даних, права доступу;
o схему перетворення стовпців вхідних таблиць у стовпці кінцевих таблиць;
o правила підсумовування, консолідації та агрегування даних;
o інформацію про періодичність оновлення даних;
o каталог використаних таблиць, стовпців та ключів;
o фізичні атрибути стовпців;
o кількість табличних рядків та обсяг даних;
o часові ярлики (дата та час створення/модифікації записів);
o статистичні оцінки часу виконання запитів.
Контроль модифікації (versioning) полягає у властивості метаданих відслідковувати зміни в структурі даних та їх значення в часі.
Функціональна архітектура сховища даних містить наступні компоненти:
o сховище даних;
o клієнтська частина системи (дизайнери сховища, засоби розробки додатків, засоби адміністрування, інструменти аналізу даних, завантаження словника метаданих з XML-файлу у сховище і експорт його зі сховища в XML-файл;
o сервер обміну даними (Data Exchange Server) - набір програм імпорту/експорту даних зі сховища й каталогів для організації обміну даними із зовнішніми OLTP-системами;
o бібліотеки прикладних класів: ACL (Application Class Library), VCL (Visual Component Library), Win Lite.
Наповнення інформаційних сховищ відбувається в декілька етапів:
o екстракція (витяг) - імпорт даних у сховище з інформаційних підсистем, виробничих відділів та інших джерел;
o трансформація - консолідування, агрегування даних, розбиття їх на фракції, коригування та трансформування у відповідні формати;
o завантаження - у сховище, синхронізація з датою або зовнішніми подіями.
Обслуговування інформаційних сховищ полягає в: копіюванні баз даних, налаштуванні, тиражуванні, надсиланні застарілих баз даних до архіву, управлінні правами користувачів, створенні та редагуванні графічних діаграм баз даних, тощо.
Типи архівації у сховищах поділяють на:
o звичайна;
o копіювальна;
o додаткова;
o диференціальна;
o щоденна.
Архівні магнітні носії зберігають у вогнетривких сейфах або за межами обчислювального центру. Крім того, розробляється план архівації компонентів сервера баз даних. Сучасні сервери автоматично підтримують копію свого каталогу на кожному сервері вузла. Цей процес називається реплікацією каталогів (directory replication).
Звичайна архівація каталогів на всіх серверах здійснюється раз на тиждень у вихідні дні, а диференціальна - щодня в робочі .дні. У річному архіві, як правило, зберігаються дані останнього тижня місяця. Усі зміни в каталозі сервера, а також в особистих і загальних сховищах записуються у файли, які називаються журналами трансакцій (transaction log files).
Під час виконання додаткової архівації каталогу або інформаційного сховища архівуванню підлягають лише журнали трансакцій.
Для ефективної роботи зі сховищем даних, необхідно зібрати максимум інформації про процес. Наприклад, для прогнозування обсягів продажів можуть бути використані бази даних облікових систем компанії, маркетингові дані, відгуки клієнтів, дослідження конкурентів і т.п.
Необхідною для прогнозу є наступна інформація:
o хронологія продажів;
o стан складу на кожний день - якщо спад продажів буде пов'язаний із відсутністю товару на складі, а не через відсутність попиту;
o відомості про ціни конкурентів;
o зміни у законодавстві;
o загальний стан ринку;
o курс долара, інфляція;
o відомості про рекламу;
o відомості про відношення до продукції клієнтів;
o різного роду специфічну інформацію. Наприклад, для продавців морозива - температуру, а для фармакологічних складів -санітарно-епідеміологічний стан, тощо.
Проблема полягає в тому, що зазвичай в системах оперативного обліку більша частина цієї інформації відсутня, а наявна - неповна або спотворена. Кращим варіантом в цьому випадку буде створення сховища даних, куди б з певною заданою періодичністю надходила вся необхідна інформація, заздалегідь систематизована і очищена (рис.5.1).
Рис.5.1. Приклад сховища даних
Ефективна архітектура сховища даних організовується таким чином, щоб бути складовою частиною інформаційної системи управління підприємством.
Найбільш поширений випадок, коли сховище організовано за типом "зірка", де в центрі розміщуються факти і агрегатні дані, а "проміннями" є виміри. Кожна "зірка" описує певну дію, наприклад, продаж товару, його відвантаження, надходження коштів й інше:
Рис.5.2. Схема організації сховища даних за типом "зірка"
Як правило, дані копіюються в сховище з оперативних баз даних і інших джерел відповідно до певних правил.
5.2. Технологія аналітичної обробки даних в реальному часі OLAP
5.3. Технологія аналізу сховищ даних (Data Mining)
6. Автоматизовані інформаційні системи для підприємств та організацій
6.1. Інформаційні системи і технології в сучасному суспільстві
6.2. Основні етапи розвитку інформаційних систем
6.3. Класифікація інформаційних систем
6.4. Експертні системи
6.5. Автоматизовані інформаційні системи для підприємств та організацій
6.6. Технології створення машинної та позамашинної інформаційної бази