Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і відбувається пошук. Від обсягів цієї бази і частоти її оновлення залежить факт знаходження в ній потрібної інформації - відповідно, чим більша і динамічніша база, тим більша ймовірність успішного пошуку.
Для порівняння, наведемо кількість сторінок, знайдених в результаті запиту "+а" у базах даних популярних пошукових систем, станом на 12.01.11 (табл.11.2). Запит було сформовано при дослідженнях кількості сторінок інтернет-спільнотою і відображає найбільш вживані символи (запит проводився при англійській розкладці клавіатури).
Критерії індексування web-сторінок
Робот не може автоматично визначити, чи потрібно включати до своєї бази (індексувати) певний документ з серверу чи ні. Web-сервери можуть містити документи, що використовуються локально, наприклад, список внутрішньої бібліотеки, тимчасові файли. Практично роботи зберігають майже все, що вони знаходять. Причому, навіть якщо робот визначив, що цю сторінку не потрібно включати у базу даних, він вже отримав її з Інтернет.
Компанія Robot Community спробувала змінити цю ситуацію, створивши спеціальний стандарт "A standard for robot exclusion". Він описує використання структурованого текстового файлу для визначення частин серверу, що не потрібні роботу для перегляду. Цю можливість можна також використовувати, аби повідомити робота про так звані "чорні дірки", коли заглиблюючись у систему вкладених сторінок робот не зможе з них повернутися. В такий спосіб роботам можна давати окремі інструкції, якщо кожен з них спеціалізується по окремій галузі.
Таблиця 11.2. Результат запиту до пошукових систем
■S Порядок аналізу сайту
Визначення напрямку обходу сайту для аналізу представляє собою дилему: оскільки більшість сайтів організовано ієрархічно, обхід в ширину (з вершини до заданої глибини) дає більший набір документів, ніж обхід в глибину (по вкладених посиланнях). Проте пошук в глибину швидше знайде сторінки користувачів, в яких є посилання на інші сторінки - тому швидше знайдуться нові сайти для подальшого обходу.
Проаналізований документ підлягає індексуванню. Перші роботи просто зберігали назви документів та тексти посилань, але сучасні роботи використовують більш складні механізми, і як правило індексують весь зміст документу.
Незважаючи на продуктивний пошук сучасними пошуковими системами, методи, що використовуються роботами, є менш ефективними за індексування сторінки вручну. Мова HTML дає можливість розробнику вузла додати спеціальну інформацію до документів, яка спрощує пошук. Правильно підібраною інформацією для пошукових систем можна також підвищити рейтинг (трафік) своєї сторінки - оскільки робот буде видавати її в числі перших результатів пошуку.
Альтернативи для пошуку ресурсів
Існує альтернативний підхід до пошуку локальних ресурсів, коли сумарна індексна інформація про сервер вже зібрана на ньому. Вона може бути створена вручну, а може автоматично з заголовків, або засобом мови HTML. Зібрана інформація додається до пошукової бази даних за допомогою Інтернет-протоколів.
У цього способу є свої переваги. Якість індексу, створеного людьми, поєднується з ефективністю автоматичного оновлення. Цілісність інформації у цього способу вища, ніж у звичайних індексів, оскільки підтримується виключно локальна індексна інформація. Не потребує високої пропускної здатності мережі.
До недоліків можна віднести створення додаткових проблем провайдеру, у разі зміни індексної інформації для основних документів (що відбувається не часто), коли весь індексний файл необхідно повністю переписати, навіть якщо змінився лише один запис.
Альтернативи для пошуку ресурсів
11.4. Принципи функціонування пошукової системи Google
12. Основи електронної комерції
12.1. Розвиток електронної комерції
12.2. Електронні платіжні системи
Традиційна комерція
Електронна комерція
12.3. Технології Інтернет-банкінгу
13. Гіпертекстові технології