Смекни!
smekni.com

работа на тему: «Поисковые системы» по дисциплине "организация ЭВМ " (стр. 1 из 2)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

Московский Государственный институт электроники и математики

(Технический университет)

Кафедра информационно - коммуникационных технологий

КУРСОВАЯ РАБОТА НА ТЕМУ:

«Поисковые системы»

ПО ДИСЦИПЛИНЕ "ОРГАНИЗАЦИЯ ЭВМ "

ВЫПОЛНИЛ:

СТУДЕНТ ГРУППЫ С-34

Денисов Андрей

ПРЕПОДАВАТЕЛЬ: доцент

Мартиросян Сашик Торгомович

Москва, 2009г.

Оглавление

Введение…………………………………………………………………………3

Постановка задачи………………………………………………………………3

Особенности поисковых систем………………………………………………..3

Архитектура поисковых систем………………………………………………..4

ER модель поискового механизма……………………………………………...5

Индексный механизм…………………………………………………………....6

Поисковый механизм……………………………………………………………6

Комплексное функционирование……………………………………………….6

Методы поискового запроса…………………….……………………………….7

Заключение………………………………………………………………………11

Список литературы………………………………………………………………12

Введение

В своей работе я рассмотрю основы, разновидности и классификацию поисковых систем. С появлением сети Internet стала актуальной проблема поиска. В Internet`е хранится большое количество полезной информации, но для её поиска требуется затрачивать не мало времени. Эта проблема стала поводом для создания поисковых систем.

Постановка задачи:

Целью моей исследовательской работы является анализ существующих поисковых систем (П.С), их назначение и применение.

В процессе исследования нужно решить несколько задач:

· Проанализировать особенности П.С

· Провести классификацию П.С

· Найти наиболее эффективный метод поискового запроса

Особенности поисковых систем

Поисковой процесс представляет собой четыре этапа: формулировка(до начала поиска), действие (идет поиск), обзор результатов (выводится на экран), и усовершенствование(возвращаемся к поиску с той же потребностью, но уже иной формулировкой). Более удобная схема поиска состоит из след. Этапов:

· Задание информационной потребности на естественном языке,

· Выбор поисковых сервисов и точная запись информационной потребности,

· Выполнение созданных запросов,

· Предварительная обработка полученных ссылок на документы,

· Обращение за искомыми документами,

· Предварительный просмотр найденных документов,

· Сохранение подходящих документов для изучения,

· Извлечение из подходящих документов ссылок для расширения запроса,

· Изучение всех сохраненных документов,

· Если искомая информация не найдена, то возвращаемся к первому пункту.

Архитектура поисковой системы

Рассмотрим архитектуру, которая чаще всего используется на корпоративных сайтах и информационных порталах. Эта архитектура изображена на рисунке 1

Рисунок 1 Архитектура поисковых систем

Детально разберем то, что изображено на рисунке 1. Есть клиентская машина, находящаяся под управлением Windows и Веб – сервер, находящийся под управлением UNIX. Со стороны клиента запущен обычный браузер (Netscape). Со стороны сервера запущен веб сервер, который принемает запросы от браузера, далее он передает запросы презентационному слою, понимающему CGI. Презентационный слой отправляет запросы к поисковому механизму в случае вызова услуги поиска, либо отображает наполнение сайта (content). При работе администратора презентационный слой также может отправлять запросы на инициализацию механизма индексации нового контента, который еще не индексирован. Это необходимо потому что пока текст не индексирован, поиск в нем с помощью поисковой системы невозможен.

Идея заключается в следующем. Существует много текстовой информации (мегабайты), и поиск документов, содержащие задание ключевые слова, отнимает большое количество процессорного времени. Предположим, в 5 Мб текста, ключевое слово будет находится 5 секунд. И вот заходит посетитель на сайт, задает ключевое слово, вызывает услугу поиска и ждет 5 секунд, пока сервер не выдаст результат. Но если одновременно запросило поиск 5 человек – естественно, время ответа увеличится в 5 раз. Получается, что в среднем по 25 секунд пользователь будет ждать ответа от сервера. Это не приемлимо, особенно если у вас много информации. Необходимо использовать другой метод при поиске слов в текстовой информации – время ответа нужно сократить до миллисекунд.

ER модель поискового механизма

У реляционных баз данных есть такая характеристика, как малое время выборки конкретной записи из миллиарда других. Это достигается за счет индекса к таблицы на какой – то из полей этой таблицы. Предположим, что мы имеем таблицу, в которой только один столбец и в каждой ячейки таблицы хранится фамилия человека. Предположим, что мы поместили в эту таблицу миллион фамилий. Нам необходимо найти в этой таблице фамилию ДЕНИСОВ(предположим, что она стоит в середине). Никаких индексов в таблице еще нет. Когда мы пошлем запрос с фамилией ДЕНИСОВ, то база данных переберет пол миллиона фамилий, пока не дойдет до записи «ДЕНИСОВ». Получается слишком медленно. Но стоит нам сделать индекс на поле нашей таблицы, как тут же все запросы будут обрабатываться за миллисекунды, чего собственно мы и добиваемся. Классическая структура БД, которая позволяет решить нашу проблему, изображена на рисунке 2:

Рисунок 2 Классическая структура БД

Таблица Dokument. В ней хранятся имена файлов, либо URL страниц, каждой такой записи сопоставлен уникальный id. Таблица Dictionary хранит все слова, которые встречаются в наших документах. Каждому слову соответствует уникальный id. В таблице match хранится соответствие документа и слова. Т.е какие слова есть в том или ином документе.

Индексный механизм

Чтобы документы были доступны для поиска, их необходимо проиндексировать. Индексная информация, полученная из текста, может быть в 2 раза больше чем сам текст. Алгоритм выглядит так:

  1. получаем документ для индексации
  2. записываем его в таблицу document, запоминаем его уникальный и будем называть его doc_id
  3. документ разбиваем на отдельные слова
  4. уникальные id этих слов узнаем из таблицы dictionary и будем называть их dict_id
  5. заносим записи doc_id и dict_id в таблицу match.

Поисковый механизм

Когда мы проиндексировали документы, нужно понять какие запросы нужно посылать в базу, чтобы искать документы по ключевым словам. Предположим, что есть поисковая фраза «город Москва». Пользователю нужно получить документы, которые содержат это два слова. Сначала нужно узнать уникальные id тих слов (обратиться к таблице dictionary), далее называть мы их будем $dict_id1 и $dict_id2. Далее посылаем запрос в таблицу match, который выдаст те номера документов, которые содержат эти слова.

Комплексное функционирование

На рисунке 3 изображено общее представление механизма взаимодействия с поисковой системой:

Рисунок 3 Механизм взаимодействия с поисковой системой

(см. рисунок 3) Существует 3 потока управления. 1 поток (скрипт на PHP, Perl или ASP) обслуживает запросы пользователя, 2 поток (СУ базой данных) выполняет поисковые запросы, а 3 поток (тоже скрипт) индексирует новые документы, поступающие в систему.

Методы поискового запроса

Когда говорят о поисковых запросах, то часто упоминают слово «релевантность». Слово релевантность означает степень соответствия документа запросу. Чем больше релевантность тем лучше. Релевантность определяется по следующим критериям:

· Проверяется, сколько раз заданное словосочетание (слово) встречается на отображенных страницах

· Если введена фраза, то проверяется расстояние между словами

· Индекс цитируемости (количество ссылок на данную страницу)

Чем больше на страницу ссылаются, тем больше вероятность, что именно эта страница нужна пользователю.

· Каким стилем (шрифтом) написана на странице искомая фраза

Если фраза выделена жирным или написана крупным шрифтом (заголовок), то это признак более высокой релевантности страницы.

· Возраст сайта

Чем старше сайт, тем лучше это влияет на релевантность.

Таким образом, можно отметить, что уровень релевантности – это целый комплекс параметров.

Итак, для того чтобы найти интересующую вас информацию в кротчайшие время, вам необходимо правильно составлять поисковой запрос. Наиболее эффективным является следующий метод составления поискового запроса:

1. Слова поискового запроса нужно писать грамотно. Так например запрос «пошив пальтов» нужного результата не даст.