Смекни!
smekni.com

Эффективная технология работы с растущими потоками несистематизированной текстовой информации (стр. 1 из 2)

Кто из аналитиков не сталкивался в своей работе с задачей поиска нужной информации в больших информационных массивах и, в частности, с работой поисковых систем в Интернете. Уровень сервисных услуг, предоставляемых поисковой машиной, обычно оценивается по двум критериям: это размер базы данных поисковой машины (чем больше база данных, тем большее количество сайтов известно данному поисковику, а следовательно, тем точнее поиск) и информативность выдаваемых результатов. Конечно, зарубежные поисковые машины, такие, как Alta-Vista, Lycos и HotBot, превосходят любой из существующих российских поисковых сервисов по размеру базы данных, поскольку пытаются охватить весь мировой Интернет. Как гласит опубликованное в научном журнала Nature исследование, максимальный охват адресов в Интернете - 16% - сегодня обеспечивает поисковая система Nothern Light, за ней - 15,5% - следует Alta Vista, а на третьем месте - 11,3% - Hotbot.

Поисковые системы соревнуются в увеличении размера базы даных.

Поисковая система под амбициозным названием Alltheweb (что соответствует русскому "всясеть") официально стартовала 3.08.99 в Интернете. Об этом сообщила информационная служба корпорации BBC.

Норвежская компания Fast Search and Transfer ASA - разработчик новой системы сообщила, что система скоро охватит ищущим виртуальным оком все 100% web-адресов Всемирной паутины. Пока ей удается "видеть" только четверть, что тоже очень неплохо по сравнению с достижениями существующих поисковых систем.

Охват системой Alltheweb всего пространства Всемирной паутины должен случиться к концу 2000 года - а к тому времени при нынешних темпах развития сети количество сайтов достигнет 1 миллиарда. Fast утверждает, что новая система сегодня просматривает 200 млн сайтов за 1 секунду, в то время как конкурирующие системы способны провести поиск по тому же количеству страниц за несколько часов, а то и дней. "Небольшие поисковые системы просто пропускают какое-то количество веб-сайтов, а иногда просто множество сайтов не включены в их поисковые каталоги", - говорит Эспен Бродин, президент и исполнительный директор Fast.

Решив хотя бы поверхностно поэкспериментировать с новой поисковой системой, корреспондент газеты "Время" обнаружила, что на слово gazprom система отреагировала 16651 документом, подчеркнув, что затратила на поиск 0,106 секунды. Alta Vista провела аналогичный поиск за не называемое ею время (но тоже довольно быстро) и нашла 5653 документа. А на запрос Gorbachev Alltheweb выдала 43142 документа (потратив 0,1 секунды), в то время как Alta Vista отыскала 1563 документа.

Я продолжил эксперимент с русскоязычными поисковыми машинами. На слово “газпром” Rambler нашел 30212 документов, Яndex – 133787 документов на 1813 сайтах, а Апорт обнаружил 1500 материалов на 339 сайтах. Вероятно, точное количество найденных документов Апортом не указывается, если их число перевалило за 1500. Ответ на запрос “Горбачев” был следующим: Rambler - 11079 документов, Яndex – 27762 (1035 сайтов), Апорт – опять 1500 (650 сайтов).

Российский Интернет сегодня составляет менее 1% от мирового и охватывает около 2 млн. пользователей. Но и эта немаленькая цифра неуклонно растет. Сеть увеличивается как по широте охвата, так и по объему хранящейся в ней информации, которая распределяется по миллионам компьютеров.

Интернет-пространство расширяется (по некоторым оценкам объем информационных массивов мирового Интернета увеличивается примерно на миллион страниц в день) Поисковые системы стараются адекватно реагировать, наращивая и скорость выполнения поиска, и величину охвата Интернет пространства. Логичным результатом явилось увеличение числа ссылок на Интернет ресурсы в результате поиска.

Всем понятно, что поиск может считаться хорошим, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом смысле очень важна грамотная сортировка по релевантности.

Приведем перечень основных критериев, которые учитывает, к примеру, система Апорт-2000 при сортировке документов (сайтов):

1) количество искомых слов в тексте документа (в процентах) расстояние между поисковыми словами в тексте документа

2) место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.)

3) внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)

4) количество ссылок из Интернета на данный документ

5) использование искомого слова в тексте ссылок из Интернета на данный документ

Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей. Часть из них просты и понятны (хотя учитываются далеко не всеми поисковыми машинами), часть требует пояснения, поскольку это новые, практически уникальные решения.

Не секрет, что некоторые сайты создаются именно с учётом дальнейшей эффективной индексации поисковыми машинами. Удачная индексация - это целый комплекс действий. Её нужно учитывать еще при создании сайта. Многое зависит от правильности написания кода с учётом специальных тегов. Но и это не всё. Профессионалы, например, предлагают целый комплекс мер (законных!), который позволяет оказаться в первых страницах результатов поиска (!) практически независимо от истинного информационного содержания Web-страниц. Искусственное завышение ценности информационного ресурса, несомненно, сказывается на результатах поиска, и затрудняет работу аналитика.

Исследования показали, что пользователь может просмотреть не более 40 найденных в результате поиска материалов, а поисковые машины выдают порой сотни, тысячи, десятки и сотни тысяч ссылок, просмотреть которые в разумные сроки не представляется возможным.

Серьезность проблем очевидна.

Обычно данная проблема решается ужесточением условий поиска. Распространено мнение: “Лучше потратить значительное время на формулировку запроса. Зато получить выборку нужных документов”.

Абсолютно верная позиция, если ищешь документ, в существовании которого в данном массиве полностью уверен. Если же ответ на поставленный вопрос содержится в распределенном виде во многих документах, очень четкий запрос позволит получить, скорее всего, заранее подготовленную кем-то информацию на заданную тему: аналитические статьи, обзоры. Аналитику, не имея возможности получить первичную информацию, сложно оценить достоверность сделанных выводов и неангажированность авторов материалов. Ценность полученной в результате запроса информации весьма спорна. И это при том, когда известны ключевые слова для поиска, что тоже не всегда возможно.

Кто из сотрудников аналитических служб не сталкивался с ситуацией, когда начальство не может четко сформулировать задание. Ситуация как в сказке: пойди туда не знаю куда, принеси то не знаю что. На закономерную просьбу аналитика об уточнении запроса и выделения ключевых понятий следует ответ: “Это ты мне должен сказать, какие там ключевые понятия и фигуры, а мне надо знать, что сейчас происходит в данной отрасли или регионе, предприятии и т.п.”.

Хочешь, не хочешь, приходится начинать с самых общих запросов, постепенно сужая область поиска. Подход правильный, но уж больно трудоемкий – приходится просмотреть сотни материалов, а некоторые из них внимательно прочесть. Данная работа может растянуться на дни. А вопрос порой требует оперативного ответа. Одно из двух: либо страдает оперативность, либо достоверность.

Предлагается совершенно иной метод работы с неструктурированной текстовой информацией.

Существенное отличие предлагаемой системы от обычных информационно-поисковых систем заключается в том, что для быстрого анализа содержания документа каждая ссылка на данный ресурс сопровождается т.н. электронной аннотацией (на самом деле информационный образ документа, формируемый лингвостатистическими методами). При этом электронная аннотация представляет собой самостоятельный информационный объект с новыми, уникальными свойствами, которая формируется предварительно, причем полностью автоматически без вмешательства оператора.

Назначение аннотации: с одной стороны, быстро, не читая весь текст, оценить его содержание и определить соответствие текста заданным параметрам поиска. С другой стороны, с ее помощью выделить ключевые события, факты, имена собственные, раскрыть наиболее значимые факторы и системные взаимосвязи анализируемой проблемы.

При наличии недельного опыта эксплуатации у пользователя активно включается в работу подсознание, появляются навыки интегрального, качественного восприятия информации. При этом текстовые фрагменты объемом в сотни строк анализируются в течение 2-3 секунд. Подобная скорость “сканирования информационного пространства” обуславливает появление совершенно нового взгляда на проблему информационного поиска, выборки и фильтрации текстовых сообщений.

Аналитик, специализирующийся в узкой предметной области просто обязан знать наперечет все значимые для его специализации источники информации и способен самостоятельно отслеживать все их обновления и изменения. К сожалению, существующее положение дел не позволяет ни аналитикам отделов маркетинга, ни тем более управленцам ограничиваться специализацией только в своей производственной сфере. Сегодня бизнес слишком политизирован и криминализирован. Для успешного ведения бизнеса и адекватного ответа на внешние воздействия приходится отслеживать изменения множества параметров. Особенно это касается организаций, имеющих разветвленную (холдинговую) структуру, градообразующих предприятий и предприятий федерального уровня.

На любом более - менее крупном предприятии имеется несколько структур (отделов), которые в своей работе регулярно сталкиваются с необходимостью получения оперативных ответов на вопросы из самых разных профессиональных областей (порой, совершенно не предсказуемых).

1. Для службы безопасности особенно актуальны анализ надежности новых партнеров и их окружения, мониторинг состояния постоянных партнеров и текущих проектов, оценка и прогноз рисков и т.д. Как известно, около тридцати процентов секретной и до десяти процентов совершенно секретной информации содержится в открытой информации. Возможность эффективно “просеивать” огромные массивы общедоступной информации (например, архивы материалов центральных средств массовой информации за несколько лет) позволяет оперативно получить комплексный портрет предприятия или физического лица (политика, бизнесмена) и всего его окружения, собрать воедино все фрагменты, не упуская специфических нюансов.