Смекни!
smekni.com

Проблеми використання роботів /Укр./ (стр. 2 из 2)

Деякі роботи отримують файли таких типів, які вони не можуть обробити (GIF, PS), і ігнорують, хоча їх можна було б і не завантажувати.

Ведення каталогу

Бази даних ресурсів, що знайдені роботом, безумовно, популярні. Однак, є декілька проблем, що обмежують використання роботів для пошуку ресурсів.

Забагато матеріалу, що є забагато динамічним.

Виміром ефективності заданого підходу отримання інформації є відсоток релевантних документів серед усіх знайдених. Пошук інформації відбувається не у самому Інтернеті а у локальній базі даних конкретного робота, що може не містити інформації, яка насправді існує у Інтернеті, тому що розмір Інтернет велетенський і зміни дуже часті.

Визначення що індексувати, а що ні.

Робот не може автоматично визначити, чи потрібно дану веб-сторінку включати до свого списку чи ні. Веб-сервери можуть містити документи, які використовуються тільки локально, наприклад, список внутрішньої бібліотеки, або ті, які існують тимчасово. До деякої міри, рішення про те, що необхідно, а що ні, залежить від уподобань користувачів, але вони можуть бути невідомими для робота. Практично роботи зберігають майже все, що вони знаходять. Помітьте, що навіть, якщо робот зможе визначити, що дану сторінку не треба включати у базу даних, він уже отримав цей непотрібний файл з Інтернет. Навпаки, робот, що ігнорує великий відсоток документів є не дуже корисним.

Robot Community спробувало змінити цю ситуацію, створивши спеціальний стандарт "A standard for robot exclusion". Цей стандарт описує використання простого структурованого текстового файлу, щоб задати, які частини даного серверу не потрібно оглядати роботам. Цю можливість можна також використовувати, аби повідомити робота про чорні дірки, коли заглиблюючись у все глибші сторінки робот не може з них повернутися. Кожному роботу можна давати особливі інструкції, бо кожен з них спеціалізується в певній окремій галузі. Цей стандарт не загальноприйнятий, але вважається, що кожен робот повинен його дотримуватися.

Визначити порядок обходу сайтів це велика проблема. Більшість сайтів організовані ієрархічно, тому обхід в ширину, з вершини до заданої глибини, дає більший набір документів, ніж обхід в глибину. Проте обхід в глибину швидше віднайде сторінки користувачів, в яких є посилання на інші сторінки, і тому швидше знайде нові сайти для обходу.

# /robots.txt for http://www.site.com/User-agent: * # attention all robots: Disallow: /cyberworld/map # infinite URL space Disallow: /tmp/ # temporary files

Приклад файлу robots.txt

Статистичний аналіз

Дуже складно проіндексувати звичайний веб-документ. Перші роботи просто зберігали назви документів та тексти посилань, але сучасні роботи використовують більш складні механізми, і як правило аналізують весь зміст документу.

Ці методи можна автоматично застосовувати для всіх документів, але вони не можуть бути настільки ефективні, як ручне індексування автором. HTML дає можливість додати метаінформацію до документів, яка спрощує роботу пошук по документу.

Етика

Зрозуміло, що роботи дуже корисні, але вони накладають високі вимоги на трафік і спричинюють багато проблем. Тому автори роботів мусять обирати золоту середину між користю та шкодою, коли створюють та випускають робота. І тут є етична проблема: "Чи шкоду від роботів можна виправдати їх корисністю". Люди мають різні думки щодо цього.

Деякі з проблем стали очевидними лише тоді, коли роботи збільшили вдвічі завантаження серверів. Мартин Костер виробив набір правил для авторів роботів, дотримуючись яких, можна мінімізувати шкоду від роботів:

· подумайте, чи насправді вам потрібен новий робот;

· зробіть так, щоб адміністратори серверів могли легко ідентифікувати робота та при необхідності зв‘язатися з автором;

· ретельно протестуйте робота локально;

· керуйте використанням ресурсів, не допускайте кількох послідовних скачувань з одного серверу та не допускайте непотрібних скачувань;

· дотримуйтесь стандарту "for Robot Exclusion";

· регулярно переглядайте log файли робота;

· діліться результатами своєї роботи з іншими.

Девід Ейхмант розділяє роботів, які створюють загальнодоступні інформаційні бази, та роботів для користувачів, результат роботи яких, використовується лише однією людиною.

Той факт, що більшість авторів роботів використовують поради Мартина Костера показує, що вони свідомо ставляться до можливих проблем, та намагаються мінімізувати будь-який негативний вплив.

Альтернативи для пошуку ресурсів

Існує альтернативний підхід до пошуку ресурсів, коли сумарна індексна інформація про сервер вже зібрана на ньому. Це інформація лише про локальні ресурси. Вона може бути створена вручну, а може автоматично з заголовків, або тегів META. Ця інформація додається до пошукової бази даних за допомогою звичайних WWW протоколів. Це не робот, тому що він не отримує рекурсивно документи які є в цьому індексі.

У цього способу є переваги. Якість індексу, створеного людьми, поєднується з ефективністю автоматичного оновлення. Цілісність інформації у цього способу вище, ніж у звичайних індексів, тому, що підтримувати потрібно тільки локальну індексну інформацію. Дуже низькі вимоги до мережі, індексна інформація менша ніж весь сайт і отримується тільки один раз.

Є також декілька недоліків. Ручна підтримка індексної інформації може дати додаткові проблеми провайдеру інформації, але практично, індексна інформація для основних документів змінюється не часто. Іншим обмеженням є те, що інформаційні провайдери мусять записувати інформацію у заданому індексному форматі, що обмежує використання додаткових можливостей. На кінець, оновлення індексу є не дуже ефективними, бо увесь індексний файл треба прочитати заново, навіть якщо змінився лише один запис.

Така система, як описано вище, - ALIWEB вже працює з жовтня 1993 і дає не погані результати. Але подальший розвиток йде повільно, тому що це персональний проект, над яким працюють у вільний час, і який не отримує капіталовкладень.

Harvest — це інша система пошуку інформації, що була недавно випущена IRTF-RD, що пропонує програмні системи для автоматичного індексування змісту документів, ефективної реплікації та кешування такої індексної інформації на віддалених хостах, і на кінець пошук цієї інформації через інтерфейс у WWW. Реакції на цю систему були дуже позитивними.

Висновок

Роботи є дуже корисними та перспективними програмами для Інтернет, але при їх написанні потрібно враховувати, що вони можуть суттєво зменшити трафік для інших користувачів. Щоб цього не сталося, при написанні роботів потрібно користуватися методологією Мартіна Костера та підтримувати "Standard for Robot Exclusion".

Література

1. Martijn Koster, "A Standard for Robot Exclusion," Nexor Corp., http://web.nexor.co.uk/mak/doc/robots/norobots.html.

2. Martijn Koster, "Robots in the Web: threat or treat?", NEXOR

3. David Eichmann, "Ethical Web Agents"