Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М. -
11.3. Призначення пошукових роботів

Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації. Почалися розробки програм (пошукових роботів), що автоматично переглядають Інтернет: сторінка за сторінкою, йдучи за посиланнями на інші сторінки.

Робот - програмна система, що отримує інформацію з Web-вузлів, використовуючи стандартні протоколи Інтернет

Найперші роботи були створені для підрахунку кількості WWW-серверів, тобто для збирання статистичної інформації. Сучасні роботи можуть також підраховувати інші параметри, наприклад, середню кількість документів на один сервер, пропорцію заданих типів файлів, середній розмір Web-сайту.

Одна з основних проблем підтримки Інтернет виникає, коли не працюють посилання на інші сторінки - у випадку неуважності розробника вузла, чи сторінку було переміщено або знищено. Зазначимо, що на сьогоднішній день не існує автоматичного механізму, який повідомляв би розробників про такі зміни. Відповідно, автори дізнаються про неправильні лінки (посилання) на своїх сторінках, якщо помітять самі, або коли користувачі повідомлять їх по електронній пошті.

Робот, що перевіряє посилання, допомагає розробнику знайти так звані "биті" адреси (посилання на неіснуючі сторінки) і підтримує сайт в робочому стані. Роботи можуть підтримувати як структуру, так і зміст, перевіряючи правильність HTML-коду та регулярність оновлення інформації. Цей вид функціональності є вбудованим у HTML редакторі, але роботи можуть повторювати ці перевірки при кожній модифікації сайту. Детальніше структуру HTML-коду буде розглянуто в третій лекції.

Роботи можуть також забезпечити дзеркальність - популярну техніку для підтримки архівів в сервісі FTP (файлообмінники). Дзеркало містить копію усього дерева каталогів FTP-сайту і регулярно оновлює ті документи, що додаються до оригінального сайту. Це дозволяє зменшити трафік до кожного з вузлів, їх завантаженість та працювати з архівом, якщо доступ до оригінального серверу відсутній.

Трафік - потік інформації в каналі зв'язку. В іншому значенні використовується для показників популярності WEB-сайту -кількість відвідувачів за певний період часу

Існують роботи, що формують дерево каталогів WEB-вузла та записують його локально, проте вони не мають можливості оновлювати ту інформацію, що змінилася - лише можуть записати всі дані з сайту. Необхідність таких засобів зменшилася з появою сучасних серверів, які можуть робити вибіркове оновлення.

Найчастіше роботів використовують для пошуку інформації та ресурсів. Там, де люди не можуть впоратись з величезною кількістю інформації, комп'ютер здійснює сортування та пошук швидко і якісно. Пошукові роботи переглядають дані на серверах і надають доступ до зібраної інформації за допомогою пошукової системи.

Користувач може одночасно використовувати перегляд та пошук для знаходження потрібної інформації. Навіть, якщо зібрана роботом база даних не містить саме ту інформацію, що потрібна, ймовірно в ній знайдуться сторінки з потрібними посиланнями.

Часто роботів використовують комбіновано - для виконання декількох задач. Наприклад, робот для web-вузла Вікіпедії - Інтернет-енциклопедії (uk.wikipedia.org ) в результаті пошуку видає перелік знайдених даних одночасно із зазначенням ступеня відповідності слову-запиту:

Ілюстрація дії пошукового робота для web-вузла Вікіпедії

Рис.11.4. Ілюстрація дії пошукового робота для web-вузла Вікіпедії

Недоліки використання пошукових роботів. Для якісного функціонування роботів потрібні канали зв'язку (телекомунікаційні канали) із високою пропускною здатністю, оскільки використовують значну частину трафіку.

Зазначимо, що перші роботи працювали протягом тривалого часу, інколи місяцями. Щоб прискорити виконання завдання, деякі роботи працюють у паралельному режимі, перевантажуючи телекомунікації. Сервери можуть уповільнити роботу, якщо робот отримає велику кількість запитів за короткий час. Це приводить до зменшення швидкості роботи інших користувачів, особливо на повільних лініях зв'язку.

Крім висування високих вимог до мережі, роботи можуть потребувати і відповідних серверів. В залежності від частоти отримування даних з сервера, одночасне завантаження багатьох документів може привести до перевантаженості. Відповідно, буде знижено рівень сервісу для інших користувачів або відмовлено їм в доступі. Як рішення цієї проблеми власники серверів ввели обмеження на частоту звернень робота до сервера.

Навантаження на мережу та сервери також може збільшуватись внаслідок неякісної реалізації роботів, наприклад, якщо робот звертається декілька разів до одного й того ж ресурсу. Повторні звертання трапляються, коли автоматично не записується історія завантажених ресурсів, або коли робот не розпізнає випадки різних індексів (DNS - Domain Name System) для однієї IP-адреси. Також надлишкове навантаження на систему відбувається у випадку, коли робота не призначено обробляти певні типи файлів (наприклад, GIF). Проте, запитується весь вміст вузла.

Використання пошукових роботів може також виявитись шляхом до здійснення несанкціонованого доступу до інформації.

Сучасні розробки в галузі Інтернет-технологій відбуваються в напрямку створення "розумного" робота, для збільшення ефективності обробки і пошуку інформації. Як і всі дослідження в області штучного інтелекту, вони знаходяться лише на початковій стадії.

Проблеми індексації ресурсів мережі Інтернет. Існує декілька проблем, що обмежують використання роботів для пошуку ресурсів: великі обсяги динамічного матеріалу, критерії індексування web-сторінок, порядок аналізу сайту, альтернативи для пошуку ресурсів.

Великі обсяги динамічного матеріалу
Критерії індексування web-сторінок
Альтернативи для пошуку ресурсів
11.4. Принципи функціонування пошукової системи Google
12. Основи електронної комерції
12.1. Розвиток електронної комерції
12.2. Електронні платіжні системи
Традиційна комерція
Електронна комерція
12.3. Технології Інтернет-банкінгу