Смекни!
smekni.com

Добыча знаний и управление ими (стр. 2 из 3)

В качестве примеров наиболее распространенных статистических пакетов можно назвать SAS, SPSS, STATGRAPICS, STATISTICA, STADIA, цена которых составляет от $1000 до $15000.

Нейронные сети.

Это большой класс систем, архитектура которых имеет некую аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения или прогнозировать развитие ситуации. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как реакция всей сети на значения входных параметров. Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки. К нейросетевым системам относятся BrainMaker, NeuroShell, OWL, thought (Cognos) и SENNSales (SiemensNixdorf). Стоимость их довольно значительна ($1500-8000).

CBR-системы.

Для того, чтобы сделать прогноз на будущее или выбрать правильное решение, CBR-системы (casebasedreasoning) находят в прошлом близкие аналоги имеющей место ситуации и выбирают тот же ответ, который был для них правильным. Основным недостатком этих систем считается то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. Книмотносятся KATE tools (Acknosoft), Pattern Recognition Workbench (США).

Деревья решений.

Эти системы создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. Популярность подхода связана с наглядностью и понятностью, но деревья решений принципиально не способны находить оптимальные, или лучшие (наиболее полные и точные), правила в данных. Они реализуют простой принцип последовательного просмотра признаков, создавая лишь иллюзию логического вывода. Наиболее известными системами на основе дерева решений являются See5/C5.0 (RuleQuest), Clementine (IntegralSolutions), SIPINA (UniversityofLyon), IDIS (InformationDiscovery, KnowledgeSeeker (ANGOSS).

Эволюционное программирование.

Российская разработка PolyAnalyst позволяет строить гипотезы о виде зависимости целевой переменной от других переменных в виде программ на некотором внутреннем языке программирования. В системе "выращивается" несколько генетических линий программ, которые "конкурируют" между собой в точности выражения искомой зависимости. Специальный модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.). Кстати, с помощью этой системы делаются попытки управления портфелем ГКО-ОФЗ. Модель, рассчитанная системой PolyAnalyst, выполняющей периодический пересчет формул индексов привлекательности разных бумаг, импортируется в систему торгов SmartBroker.

Ограниченный перебор.

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Наиболее ярким современным представителем этого подхода является система WizWhy (WizSoff).

5. Добытчик на все руки

Система MineSet от SiliconGraphics представляет собой инструментарий для интеллектуального анализа данных на основе мощной визуальной оболочки. Ее особенностью является использование нескольких взаимодополняющих стратегий добычи, анализа и интерпретации данных. Архитектура MineSet имеет открытый характер, что позволяет работать с информационным хранилищем, построенном на основе реляционных баз данных или "плоских" ASCII-файлах. Процесс анализа начинается с выборки некоторого подмножества данных для дальнейшего исследования, которые могут преобразовываться. Тем самым создается информационная модель в виде, наиболее подходящем для последующего изучения.

Набор инструментальных средств MineSet состоит из 3 основных модулей:

- управляющего модуля. Он включает в себя графический интерфейс пользователя, который называется ToolManager, и базирующийся на сервере процесс - DataMover;

- модуля аналитического DataMining, находящегося на сервере и имеющего четыре интеллектуальных инструмента;

- модуля визуального DataMining, находящегося на клиентской машине и состоящего из пяти инструментов.

Менеджер инструментов (ToolManager) предоставляет интерактивный графический интерфейс, с помощью которого пользователь получает доступ ко всем возможностям и инструментам MineSet в единой интегрированной среде. С его помощью пользователь получает доступ к данным.

Процесс DataMover осуществляет доступ к данным, производит их выборку и преобразования, инициализирует работу запускаемых на сервере инструментов аналитического datamining и возвращает данные на клиентскую станцию для распределения их по визуальным инструментам.

К инструментам аналитического DataMining относят четыре взаимодополняющих инструмента аналитической добычи данных, основанных на методах искусственного интеллекта с использованием машинного обучения. Это Генератор ассоциативных связей (AssociationRuleGenerator), Генератор Дерева решений (DecisionTreeInducer), Генератор свидетельств (EvidenceInducer) и утилита определения Значимости признаков (ColumnImportance).

MineSet содержит пять инструментов для визуального DataMining, позволяющих выполнять интерактивное визуальное представление и исследование данных. Это Ландшафтный визуализатор (MapVisual-izer), Визуализатор дисперсии (ScatterVisualizer), Визуализатор деревьев (TreeVisualizer), Визуализатор правил (RuleVisualizer) и Визуализатор свидетельств (EvidenceVisualizer).

6. DataMining в Бизнесе

С помощью DataMining предприятия розничной торговли могут выполнять анализ покупательской корзины, знание которой необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах. Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов, а создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением.

Достижения технологии DataMining в банковском деле позволят выявлять мошенничество с кредитными карточками, сегментировать клиентов по категориям, а также прогнозировать изменения клиентуры.

В области телекоммуникаций методы DataMining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования (анализ записей о подробных характеристиках вызовов и выявление лояльности клиентов).

DataMining может применяться во множестве других областей. Например, в автомобильной промышленности при сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому нужна возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе. Авиакомпании могут выявлять клиентов, которых поощрительными мерами можно побудить летать больше.

7. Крупнейшая онлайновая сеть научной и технической информации

Общепризнанным источником научной и технической информации является международная сеть научной и технической информации STNInternational (Scientific & TechnicalInformationNetwork). Она находится в совместном управлении германского Специализированного информационного центра ФИЦ Карлсруэ (Fachinformationszentrum (FIZ) Karlsruhe), Реферативной службы по химии Американского химического общества (ChemicalAbstractsService (CAS), AmericanChemicalSociety) и Информационного центра по науке и технике Японской научно-технической корпорации (InformationCenterforScienceandTechnology (JICST), JapanScienceandTechnologyCorporation). В настоящее время сеть STNInternational обеспечивает онлайновый доступ к более чем 200 базам данных во всех областях науки и техники (см. табл. 1).

После нахождения нужных публикаций или документов можно заказать их полные тексты, используя систему автоматизированной доставки через Интернет - FIZAutoDoc/ChemPort. Многие известные международные библиотеки и издательства уже сегодня связаны с системой FIZAutoDoc/ChemPort, и их численность постоянно увеличивается.

Чтобы иметь доступ к FIZAutoDoc, необходимо зарегистрироваться, получить идентификатор для подключения и пароль (www.fiz-karlsruhe.de/autodoc).

Таблица 1.Наиболее крупные базы данных STN

Базы данных Количество документов, млн.
BEILSTEIN 7,7
BIOSIS 12,0
CA/CAPLUS 16,1
COMPENDEX 4,4
EMBASE 8,0
INPADOC 30,0
INSPEC 6,5
INVESTEXT 9,4
JAPIO 6,3
MEDLINE 11,0
PROMT 7,9
REGISTRY 23,3
SCISEARCH 17,7
WORLDCAT 41,0
WPINDEX 9,5

8. Управление знаниями

8.1 Технологические основы

Современные сферы применения компьютеров и информационных технологий можно разделить на три уровня:

- Computation - выполнение вычислений;

- Communication - это, прежде всего, Интернет и все, что с ней связано;

- Cognition - еще только зарождающийся уровень, ориентированный на поддержку интеллектуальной деятельности и знаний.

Сегодня достаточно хорошо освоены и проработаны два первых уровня. Именно для них разработаны основные технологии, поддерживающие управление знаниями:

- добыча данных и текстов (Datamining, TextMining) - распознавание образов, выделение значимых закономерностей из данных, находящихся в хранилищах или входных или выходных потоках;

- системы управления документооборотом (Documentmanagement) - хранение, архивирование, индексирование, разметка и публикация документов;

- средства для организации совместной работы (Collaboration) - сети intranet, технологии групповой работы, синхронные и асинхронные конференции;

- корпоративные порталы знаний и обучения;