Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М.-11.4. Принципи функціонування пошукової системи Google

Інформатика / Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М.

Google Inc. (Ґуґл), www.google.com - приватна американська відкрита акціонерна компанія, заснована 7 вересня 1998 року, що займається розробкою, розвитком і дизайном найпопулярнішого в Інтернет пошукового сервісу. В компанії, розташованій в Маунтін В'ю (Каліфорнія) працюють близько 8000 робітників. Засновники - Леррі Пейдж та Сергій Брін, в 1998 році були співробітниками Стенфордського університету і прагнули створити систему пошуку з більш гнучким механізмом, ніж існували на той час - Altavista і Inktomi (останню було поглинуто в 2002 році пошуковою системою Yahoo!).

Назва "Google" - спотворене написання слова "гугол" (англ. googol), яке придумав Мілтон Сіротта, племінник американського математика Едварда Кайзера. "Гугол" - це число 10100, десятковий запис його містить одиницю та сто нулів.

Найголовнішою задачею розробників інформаційно-пошукової системи (ІПС) Google був такий розв'язок задачі сортування результатів пошуку, щоби на перших позиціях вихідного списку знаходились потрібні користувачеві документи - з максимальним співпадінням відповіді.

Майже кожна ІПС має свою внутрішню систему оцінки "якості" документів. В Google вона називається PageRank (рис.11.5). Сутність її в тому, що на порядок формування списку результатів пошуку впливає деякий коефіцієнт, який залежить від популярності сторінки та кількості посилань на неї з інших сторінок. Ще однією важливою властивістю ІПС Google є те, що в ній зберігаються опис посилань на проіндексовані сторінки - це дозволяє більш адекватно проводити пошук по базі даних. Наприклад, якщо автор сторінки забув вказати її назву (що є важливим для ІПС), Google буде орієнтуватись по текстам посилань на цю сторінку.

Для Google має значення також, яким шрифтом написано в документі шукане слово - чим більші букви, тим більший в них коефіцієнт. Якщо в запиті міститься декілька слів, найпершими в списку результатів будуть сторінки, на яких ці слова розташовані максимально близько.

Структура інформаційної пошукової системи Google

Рис.11.5. Структура інформаційної пошукової системи Google

Всю основну роботу по "просіюванню" вмісту мережі виконують пошукові роботи. Кожний з них бере одну адресу URL з бази даних URL-сервера, скачує і передає вміст вузла на сервер збереження документів, де він залишається у заархівованому вигляді. Інша програма - індексатор - розкладає текст документу на складові слова, запам'ятовуючи його формат. Отримана інформація зберігається у наборі контейнерів (рис.11.5, прямий індекс). Для пошуку сторінок існують інші контейнери (рис.11.5, зворотний індекс).

Ідентифікатори слів беруться зі словника, що постійно поповнюється. Одночасно з цим індексатор переглядає текст посилань і перевіряє коректність самих посилань в службі DSN. Якщо знайдений URL відсутній в базі даних, індексатор поповнює базу. Пізніше ця адреса попадає на URL-сервер і система пошуку стає самодостатньою - вона поновлює сама себе. Нові сторінки, які ще ніхто не встиг відвідати, попадають до системи шляхом ручної реєстрації.

Додатково розглянемо оператори пошуку, що використовуються для підвищення ефективності роботи з ІПС Google:

Таблиця 11.3. Опції пошуку Google

Опції пошуку Google

Використання вказаних опцій при пошуку потрібної інформації може спричинити несанкціоноване отримання даних - ненавмисне чи спеціальне. Наприклад, якщо в рядок пошуку Google ввести filetype:pwd, пошуковик виведе список посилань на файли з паролями, що наявні в його реєстрі. Або відповіддю на запит site:gov буде перелік державних вузлів.

Наведемо декілька порад від професійних розробників web- сайтів для успішної популяризації сторінок:

o створювати сайти із чіткою структурою;

o називати кожну сторінку унікальним ім'ям, що буде відображати її зміст (наприклад, назва Photos.htm буде більш інформативною для пошуковика, ніжPage_07.htm);

o уникати навігації елементами, що погано індексуються (анімація);

o ключові слова розташовувати у верхній або нижній частині сторінки і виділяти їх крупнішим шрифтом.

Пошукові системи продовжують розвиватись; з'являються нові системи на основі сучасних технологій. Цікавим є науковий проект "Інтелектуальна пошукова система Nigma", розроблена в МДУ ім.М.В.Ломоносова в 2006 році. Зазначимо, що ця система окрім власних

роботів використовує також результати роботи всіх популярних пошуковиків (Google, Altavista, Yahoo!, Aport, MSN, Yandex, Rambler).

За результатом розглянутого вище запиту (див. табл. 11.2) Nigma видала 47 908 247 423 документів. Цікавою є також ідея, покладена в основу соціального пошуковика Anoox - результати автоматичного рейтингу коригуються відвідувачами шляхом голосування.

Резюме

На сьогоднішній день, приблизно 1/4 світу є користувачами глобальної мережі Інтернет. Для кожного типу ресурсу Інтернет є свій протокол доступу, наприклад: FTP - передача файлів; HTTP (Hypertext Transfer Protocol) - передача гіпертексту; SMTP (Simple Mail Transfer Protocol) - передача поштових повідомлень; SNTP (Simple Network Time Protocol) - синхронізація часу в мережі або у світовому масштабі.

Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації - почались розробки програм (пошукових роботів), що автоматично переглядають Інтернет.

Google Inc. - приватна американська відкрита акціонерна компанія, що займається розробкою, розвитком і дизайном популярного пошукового сервісу. Для підвищення релевантності результатів пошуку в запитах до Google використовують опції пошуку.

Ключові слова

Інтернет, користувачі, хост, маршрутизатор, Інтернет-провайдер, домен, пакетна передача даних, протоколи мережі Інтернет, сервіси мережі Інтернет, доступ, ресурс, електронна пошта, пошуковий робот, трафік, індексація web-сторінок, пошукова система.

Запитання і завдання для обговорення та самоперевірки:

► Назвіть етапи появи мережі Інтернет.

► Який принцип покладено в структуру глобальної мережі?

► Дайте означення хосту.

► Опишіть призначення маршрутизатора.

► Дайте визначення поняття комп'ютерного протоколу.

► На якому рівні моделі ISO OSI відбувається реальна взаємодія двох комп'ютерів?

► Яка відмінність між on-line та off-line доступом?

► Опишіть призначення сервісу електронної пошти.

► Дайте означення Інтернет-робота і поясніть його призначення.

► Які недоліки використання пошукових роботів?

► Опишіть призначення компоненти PageRank в структурі Google.

► Чи має значення для пошукової системи формат тексту в Web-документі? Обґрунтуйте відповідь.

► Який результат видасть Google, якщо в рядку пошуку ввести наступне: intitle бібліотека?

12. Основи електронної комерції
12.1. Розвиток електронної комерції
12.2. Електронні платіжні системи
Традиційна комерція
Електронна комерція
12.3. Технології Інтернет-банкінгу
13. Гіпертекстові технології
13.1. World Wide Web та Hyper Text Markup Language
13.2. Принципи побудови Web-сторінок
13.3. Основи Web-дизайну. Особливості технології

Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М. - 11.4. Принципи функціонування пошукової системи Google

Інформатика / Інформаційні технології та моделювання бізнес-процесів - Томашевський О.М.