Інформаційні системи і технології на підприємствах - Плескач В.Л.-Інтелектуальні технології Text Mining

Інформатика / Інформаційні системи і технології на підприємствах - Плескач В.Л.

Розроблені на основі статистичного і лінгвістичного аналізів, а також методів штучного інтелекту, технології Text Mining призначені для проведення аналізу, забезпечення навігації і пошуку в неструктурованих текстах. Застосовуючи системи класу Text Mining, користувачі набувають нових знань.

Технології Text Mining - набір методів, призначених для здобуття інформації з текстів на основі сучасних ІКТ, що дає змогу виявити закономірності, які можуть приводити до отримання корисної інформації і нових знань користувачами.

Це інструмент, який дає можливість аналізувати великі обсяги інформації у пошуках тенденцій, шаблонів і взаємозв'язків, здатних допомогти у прийнятті стратегічних рішень.

Слід зазначити, що технології аналізу тексту історично передувало створення технології аналізу здобуття даних, методологія і підходи якої широко використовуються також у методах Text Mining, наприклад, методи класифікації чи кластеризації. У Text Mining з'явилися нові можливості: автоматичне реферування текстів та виявлення феноменів, тобто понять і фактів. Можливості сучасних систем Text Mining можуть застосовуватися у системах управління знань для виявлення шаблонів у тексті, для розподілу інформації за профілями, створення оглядів документів. Text Mining забезпечує новий рівень семантичного пошуку документів.

Важливий компонент технології Text Mining пов'язаний з добуванням із тексту його характерних властивостей, які потім використовують як ключові слова, анотації. Інше важливе завдання полягає у віднесенні документа до певних категорій із заданої схеми систематизації. Основна мета Text Mining - на-

дати аналітику можливість працювати з великими обсягами початкових даних за рахунок автоматизації процесу здобуття потрібної інформації.

Основні елементи Text Mining:

1) здобуття феноменів - Feature (Entity) Extraction - витягання слів або груп слів, які з погляду користувача важливі для опису змісту документа. Це можуть бути відомості про персон, організації, географічні місця, терміни ПрО або інші словосполучення - Feature (Entity) Association Extraction - складніші набори слів з технологічного погляду;

2) автоматичне реферування, анотування (Summarization)

- побудова короткого змісту документа за його повним текстом;

3) класифікація (Classification), у якій використовуються статистичні кореляції для побудови правил розміщення документів у передбачені категорії;

4) кластеризація (Clustering), що ґрунтується на ознаках документів, використовує лінгвістичні і математичні методи без застосування передбачених категорій;

5) відповіді на питання (question answering);

6) тематичне індексування;

7) пошук за ключовими словами;

8) побудова семантичної.мережі або аналіз зв'язків (Relationship, Event and Fact Extraction), що визначають появу дескрипторів (ключових фраз) у документі для забезпечення пошуку і навігації. Це найскладніший варіант здобуття інформації, що включає витягання суті, розпізнавання фактів і подій, а також витягання інформації з цих фактів. Здобуття фактів

- це отримання певних фактів з тексту з метою поліпшення класифікації, пошуку і кластеризації.

Для методів класифікації нині застосовують інтелектуальні механізми оптимізації процесу класифікації. Класифікація застосовується, наприклад, для вирішення таких завдань, як групування документів у мережах підприємств, на Web-сайтах, сортування повідомлень електронної пошти.

Кластеризація широко застосовується при реферуванні великих інформаційних масивів або визначенні взаємопов'язаних груп документів, а також для спрощення процесу перегляду при пошуку необхідної інформації, для знаходження унікальних документів із колекції, для виявлення дублікатів або дуже близьких за змістом документів.

Розрізняють два основних типи кластеризації: ієрархічну і бінарну. Ієрархічна кластеризація полягає у побудові дерева кластерів, у кожному з яких розміщується невелика група документів. Бінарна кластеризація забезпечує групування й проглядання документальних кластерів за принципом схожості. В один кластер розміщаються схожі за своїми властивостями документи. У процесі кластеризації будується базис посилань від документа до документа, що ґрунтується на вагах і спільному використанні ключових слів.

Одне з важливих застосувань Text Mining дає змогу передбачати за значеннями одних ознак об'єктів значення інших. Знаходження виключень (пошук об'єктів, які своїми характеристиками вирізняються з загальної картини) - також важливий напрямок досліджень Text Mining.

Задача пошуку пов'язаних ознак (понять) окремих документів подібна до кластеризації, але виконується за певною сукупністю характерних ознак.

Сучасні системи класу Text Mining можуть здійснювати аналіз великих масивів документів і формувати предметні покажчики понять і тем, висвітлених у цих документах.

Починаючи з 60-х років, з появою засобів автоматизації і текстів в електронному вигляді, набув розвитку контент-аналіз інформації з великими обсягами. Під Data Mining, з погляду контент-аналізу, розуміють механізм виявлення в потоці даних нових знань, таких як моделі, конструкції, асоціації, зміни, аномалії і структурні новоутворення.

Контент-аналіз - це якісно-кількісна, систематична обробка, оцінка та інтерпретація форми і змісту тексту.

Нині використовується кілька підходів до представлення Інформації в базах даних для забезпечення подальшого пошуку цієї інформації. Найбільш поширені підходи - булева і векторно-просторова моделі пошуку.

Булева модель базується на теорії множин, і, отже, є моделлю інформаційного пошуку, що базується на математичній логіці. Нині популярне об'єднання булевої з векторно-просторовою моделлю алгебри представлення даних, що забезпечує, з одного боку, швидкий пошук з використанням операторів математичної логіки, а з іншого боку - ранжирування документів, що базується на вагах ключових слів.

При використанні булевої моделі база даних включає індекс, що організовується у вигляді інвертованого масиву даних, в якому для кожного терма зі словника бази даних міститься список документів, в яких цей терм зустрічається.

В індексі можуть зберігатися також значення частоти входження цього терма в кожному документі, що допомагає сортувати список за зменшенням частоти входження.

Більшість відомих інформаційно-пошукових систем і систем класифікації інформації ґрунтуються на використанні векторної моделі опису даних (Vector Space Model). Векторна модель є класичною моделлю алгебри. У межах цієї моделі документ описується вектором у евклідовому просторі, в якому у кожному документі для терму ставиться у відповідність його ваговий коефіцієнт, який визначається на основі статистичної інформації про його входження в окремому документі або в документальному масиві. Опис запиту, який відповідає заданій тематиці, також є вектором у тому самому евклідовому просторі термів. Для результату оцінювання близькості запиту і документа використовується скалярний добуток відповідних векторів опису тематики і документа.

Векторно-просторова модель представлення даних автоматично забезпечує системам такі можливості: обробка великих запитів; проста реалізація режиму пошуку документів, подібних до знайдених; збереження результатів пошуку в інформаційному масиві з подальшим уточнювальним пошуком.

На практиці, однак, найчастіше використовуються комбіновані підходи, в яких об'єднані можливості булевої і векторно-просторової моделей та додані оригінальні методи семантичної обробки інформації. Найчастіше в інформаційно-пошукових системах процедура пошуку здійснюється відповідно до булевої моделі, а результати ранжируються за вагами відповідно до моделі векторного простору.

Нині відомо чимало виробників програмного забезпечення, які пропонують свої продукти і рішення у сфері Text Mining.

Це масштабовані системи, в яких реалізовані різні математичні та лінгвістичні алгоритми аналізу текстових даних і мають дружні графічні інтерфейси, можливості візуалізації і маніпулювання даними, надають доступ до різних джерел даних і функціонують в архітектурі клієнт - сервер. Наприклад, Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream (ElVisti).

Сучасні системи пошуку інформації визначаються, виходячи з двох основних тенденцій: обробки знань та застосування відкритих систем. Саме на перетині цих напрямів виникли агентні технології. Активний розвиток методів і технологій розподіленого штучного інтелекту, досягнення у сфері апаратних і програмних засобів підтримки концепції розподіленості та відкритості спричинили розвиток мультиагентних систем, у яких програмні агенти спільно вирішують складні завдання в інформаційному просторі.

Здатність програмних агентів автономно планувати та координувати свої дії, вести переговори з іншими розподіленими застосуваннями у складному гетерогенному інформаційному середовищі, гнучко й інтелектуально приймати рішенння у динамічно змінюваних і непередбачуваних ситуаціях приводить до того, що агентно орієнтовані технології стають однією з ключових технологій обробки інформації.

8.5. Агентно орієнтовані системи на підприємствах
Формування динамічних бізнес-процесів у глобальній мережі Internet
8.6. Віртуальні організації
Типи віртуальних підприємств
8.7. Онтологічний підхід до використання знань на підприємствах. Організаційні онтології
Висновки
Розділ 9. Web-технології на підприємствах
9.1. Основи Web-технологій
Засоби створення Web-сайтів
Інші Web-технології

Інформаційні системи і технології на підприємствах - Плескач В.Л. - Інтелектуальні технології Text Mining

Інформатика / Інформаційні системи і технології на підприємствах - Плескач В.Л.