Продолжается подписка на наши издания! Вы не забыли подписаться?

Курс по интеллектуальному анализу данных (Data Mining) с использованием платформы MS SQL 2005

Авторы: Seth Paul
Microsoft Corporation
Jamie MacLennan
Microsoft Corporation
Zhaohui Tang
Microsoft Corporation
Scott Oveson
Microsoft Corporation

Перевод: Пер. с англ.
дополнение: spellabs it.company
2007
Опубликовано: 19.04.2007

Data Mining — современная технология анализа информации с целью нахождения в накопленных данных ранее неизвестных, нетривиальных и практически полезных знаний, необходимых для принятия оптимальных решений в различных областях человеческой деятельности.

Microsoft SQL Server 2005 предоставляет интегрированную среду для создания моделей Data Mining и работы с ними. В курсе описаны четыре сценария (адресная рассылка, прогнозирование, анализ покупательской корзины и анализ последовательности покупок) для демонстрации методов использования алгоритмов Data Mining, а также сопутствующего инструментария, входящего в состав SQL Server Analysis Services 2005.

Средства анализа данных OLAP и Data Mining объединены в две среды разработки: Business Intelligence Development Studio и SQL Server Management Studio. В Business Intelligence Development Studio можно создавать отсоединенные от сервера проекты. В этом случае готовый проект можно загрузить на сервер, но ничто не мешает работать с проектом, работающим с сервером напрямую.

Все средства для управления моделями Data Mining доступны в редакторе моделей. С его помощью можно создавать, просматривать, сравнивать разные модели, а также создавать на их базе прогнозы.

После создания модели можно провести ее анализ на предмет выявления интересных для нас шаблонов (паттернов) и правил. В зависимости от применяемого алгоритма в среде разработки используется различные представления просматриваемой модели.

Поскольку зачастую проект содержит несколько моделей Data Mining, предварительно созданных на основе наших предположений, то возникает задача определения наиболее адекватной из них. Для решения этой задачи в редакторе присутствует средство сравнения моделей Mining Accuracy Chart. С использованием этого инструмента можно предсказать точность модели и выбрать лучшую их них.

Для создания прогнозов используется язык Data Mining Extensions (DMX), который является расширением SQL и содержит команды для создания, изменения и осуществления предсказаний на основании различных моделей. Создание таких прогнозов может быть сложной задачей, поэтому в редакторе присутствует инструмент под названием Prediction Query Builder, которых представляет собой визуальное средство создания DMX-запросов.

Кроме инструментария для работы с моделями, не менее значимыми являются и способы создания моделей. Ключевым моментом создания модели является выбор алгоритма обнаружения данных. SQL Server 2005 Analysis Services включает в себя следующие девять алгоритмов:

Используя комбинацию этих алгоритмов можно создавать решения для большей части встречающихся задач по обнаружению скрытых закономерностей в больших объемах данных.

Наиболее важные шаги создания модели Data Mining состоят в получении, объединении, очистке и предобработке данных для дальнейшего использования алгоритмом. В состав SQL Server 2005 входят средства преобразования данных – SQL Server Integration Services (SSIS), которые позволяют объединять, очищать, проверять и проводить предварительную обработку данных.

Для демонстрации возможностей SQL Server мы будем использовать демо-проект AdventureWorksDW. Эта база включена в поставку SQL Server 2005 и спроектирована должным образом для работы с OLAP и моделями Data Mining. Чтобы эта база была доступна следует выбрать опцию установки этого проекта во время инсталляции SQL Server.

Проект Adventure Works

Проект AdventureWorksDW описывает работу производителя велосипедов – компании «Adventure Works Cycles». Компания занимается производством и реализацией велосипедов из металлических и композиционных материалов на территории Северной Америки, Европы и Азии. Головное производство, которое располагает 500 сотрудниками, находится в городе Bothell, штат Вашингтон. Несколько региональных офисов находятся непосредственно на территории рынков сбыта.

Компания реализует продукцию оптом для специализированных магазинов и в розницу через интернет. Для решения демонстрационных задач мы будем использовать в базе AdventureWorksDW данные об интернет продажах, поскольку они содержат данные, хорошо подходящие для анализа.

База данных

В базе интернет продаж содержатся сведения о 9 242 клиентах, которые живут в 6 странах, относящихся к трем регионам:

Данные относятся к периоду с 2002 по 2004 годы. Вся продукция классифицирована по категориям, моделям и товарам.

Среда разработки – Business Intelligence Development Studio

Среда разработки «Business Intelligence Development Studio» представляет собой интегрированную среду разработки для создания проектов анализа данных (business intelligence) и включает в себя множество инструментов. Она позволяет работать с моделями в отсоединенном от сервера режиме, а затем развертывать обновленный проект на сервере.

Можно отметить следующие преимущества работы в единой среде:

Проект Analysis Services является центральным в решении business intelligence. Проект включает в себя модели Data Mining и кубы OLAP, а также вспомогательные объекты наполнения аналитической базы данных. Из студии можно создавать проекты анализа данных и развертывать их на множестве серверов.

При работе с ранее созданным проектом, который уже находится на сервере, можно работать с ним напрямую.

Среда управления – SQL Server Management Studio

Среда SQL Server Management Studio является оболочкой для множества административных функций для управления компонентами SQL Server. Эта среда отличается от Business Intelligence Development Studio в первую очередь тем, что изменения сохраняются на сервер в реальном времени.

После предварительной очистки и предобработки данных большая часть всех дальнейших действий по созданию модели выполняется в среде Business Intelligence Development Studio. В ней выполняются действия по созданию и проверке моделей, а также итеративное тестирование для выявления наиболее адекватной модели. После получения нужной модели ее можно развернуть на сервере. После этого фокус смещается с разработки на поддержку и использование модели для чего подходит SQL Server Management Studio. С ее помощью можно администрировать базу данных и выполнять просмотр и создание предсказаний аналогично тому, как это выполняется в среде Business Intelligence Development Studio

Сервисы интеграции - Integration Services

Integration Services (сервисы интеграции, SSIS) включают в себя средства получения (Extract), преобразования (Transform) и загрузки (Load) (ETL) данных из различных источников. Они используются для некоторых очень важных задач в проектах извлечения данных, таких как извлечение, объединение, очистка и предобработка данных, предшествующие созданию модели. В проектах извлечения данных и в процессе настройки моделей обычно необходимо проводить неоднократную предобработку и очистку данных. С помощью SSIS можно объединить задачи предобработки данных в единый пакет.

Среда SSIS содержит визуальный редактор, с помощью которого удобно создавать и отлаживать пакеты преобразования данных. Из него можно загрузить пакеты на сервер и настроить планировщик для их выполнения. Это удобно использовать, к примеру, для автоматической предобработки новых поступающих данных.

Алгоритмы Data Mining

Алгоритмы Data Mining являются основой для создания моделей. Набор алгоритмов Data Mining, входящих в SQL Server 2005, позволяют производить различные виды анализа данных.

Дерево решений – Microsoft Decision Trees

Кластеризация – Microsoft Clustering

Наивный алгоритм Байеса – Microsoft Naive Bayes

Временные ряды – Microsoft Time Series

Ассоциативные правила - Microsoft Association

Кластеризация последовательностей действий – Microsoft Sequence Clustering

Нейронные сети - Microsoft Neural Network

Линейная регрессия – Microsoft Linear Regression

Логистическая регрессия – Microsoft Logistic Regression

Описание работы с курсом

Подготовка базы данных SQL Server

Импорт таблицы Prospective Customers

Подготовка базы данных Analysis Services

Создание проекта Analysis Services

Создание источника данных

Создание представления данных

Редактирование представления источника данных

Построение и работа с моделями Data Mining

Адресная рассылка

Создание структуры модели Targeted Mailing с использованием Mining Model Wizard

Редактирование Data Mining-моделей

Исследование моделей

Тестирование точности Data Mining-моделей

Создание прогнозов

Прогнозирование

Создание структуры модели Data Mining для прогнозирования при помощи мастера.

Исследование модели

Покупательская корзина

Создание структуры модели Market Basket при помощи мастера

Редактирование Data Mining модели

Исследование модели

Кластеризация последовательностей

Создание структуры модели кластеризации последовательностей при помощи мастера

Исследование модели

........................
"С полным содержанием данной статьи можно ознакомиться в печатной версии журнала"

Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав.

Copyright © 1994-2016 ООО "К-Пресс"