Направление — 230700.68, Прикладная информатика
г. Владивосток
2012
Раздел 1. Технологии обеспечения качественного анализа данных (4 час.)
Тема 1. Технологии анализа данных, с использованием методов интерактивного/активного обучения - дискуссия (1 час.)
Вопросы для дискуссии
1.1. Аналитический и информационный походы к моделированию
1.2. Формы представления, типы и виды анализируемых данных
1.3. Источники данных для анализа
1.4. Технология KDD (Knowledge Discovery in Databases)
1.5. Введение в технологию Data Mining
1.6. Программный инструментарий анализа данных
Изучив данную тему, студент должен:
знать:
особенности аналитического и информационного походов к моделированию;
содержание технологии Knowledge Discovery in Databases;
формы представления, типы и виды анализируемых данных;
программный инструментарий анализа данных;
уметь:
применять информационный походы к моделированию;
определять типы и виды анализируемых данных;
приобрести навыки:
применения информационного похода к моделированию.
Литература: [1, 2, 3, 13, 14]
Тема 2. Консолидация данных, с использованием методов интерактивного/активного обучения - дискуссия (1 час.)
Вопросы для дискуссии
2.1. Введение в консолидацию данных
2.2. Общая характеристика OLTP-систем
2.3. Предпосылки появления систем поддержки принятия решений (DSS – Decision Support System)
2.4. Введение в хранилища данных (DW – Data Warehouse)
2.5. Реляционные хранилища данных (ROLAP – Relational OLAP)
2.6. Многомерные хранилища данных (MOLAP – Multidimensional OLAP)
2.7. Гибридные хранилища данных (HOLAP – Hybrid OLAP)
2.8. Виртуальные хранилища данных
2.9. Введение в процесс ETL (Extraction, Transformation, Loading)
2.10. Извлечение данных в ETL
2.11. Преобразование данных в ETL
2.12. Загрузка данных в хранилище
2.13. Особенности загрузки данных из локальных источников
2.14. Обогащение данных
Изучив данную тему, студент должен:
знать:
общую характеристику OLTP-систем;
предпосылки появления систем поддержки принятия решений;
модели хранилищ данных;
уметь:
выполнять преобразование данных;
приобрести навыки:
Литература: [1, 2, 4, 7, 8, 13]
Тема 3. Трансформация данных. Визуализация данных (1 час.)
3.1. Введение в трансформацию данных
3.2. Особенности трансформации временных рядов
3.3. Группировка и разгруппировка данных
3.4. Слияние данных
3.5. Квантование
3.6. Нормализация и кодирование данных
3.7. Введение в визуализацию данных
3.8. Визуализаторы общего назначения
3.9. OLAP-анализ
3.10. Визуализаторы, применяемые для оценки качества моделей
3.11. Визуализаторы, применяемые для интерпретации результатов анализа
Изучив данную тему, студент должен:
знать:
методики трансформации данных;
методики визуализации данных;
уметь:
выполнять группировку, разгруппировку, квантование и кодирование данных;
применять визуализаторы различного назначения;
приобрести навыки:
трансформации данных.
интерпретации результатов анализа данных.
Литература: [1, 2, 4, 8, 9, 11, 13, 16, 17]
Тема 4. Оценка качества, очистка и предобработка данных (1 час.)
4.1. Введение в оценку качества данных (ADQ – Assessment Data Quality)
4.2. Технологии и методы оценки качества данных
4.3. Очистка и предобработка данных
4.4. Фильтрация данных
4.5. Обработка дубликатов и противоречий
4.6. Выявление аномальных значений
4.7. Восстановление пропущенных значений
4.8. Введение в сокращение размерности
4.9. Сокращение числа признаков
4.10. Сокращение числа значений признаков и записей
5.11. Сэмплинг
Изучив данную тему, студент должен:
знать:
методики оценки качества, очистки и предобработки данных;
уметь:
применять методы оценки качества, очистки и предобработки данных;
приобрести навыки:
фильтрации данных, обработки дубликатов и противоречий, выявления аномальных значений, восстановление пропущенных значений
Литература: [1, 2, 3, 4, 6, 14]
Раздел 2. Инструменты Data mining данных (4 час.)
Тема 5. Поиск ассоциативных правил. Кластеризация (1 час.)
5.1. Введение в аффинитивный анализ (affinity analysis)
5.2. Алгоритм a priori
5.3. Иерархические ассоциативные правила
5.4. Введение в кластеризацию
5.5. Классификация методов кластеризации
5.6. Алгоритм кластеризации k-means
5.7. Сети Кохонена (KCN – Kohonen network)
5.8. Карты Кохонена (SOM – self organizing map)
5.9. Проблемы алгоритмов кластеризации
Изучив данную тему, студент должен:
знать:
методики поиска ассоциативных правил;
методики кластеризации данных;
уметь:
применять методы поиска ассоциативных правил;
применять методы поиска ассоциативных правил;
приобрести навыки:
использования алгоритм a priori.
использования алгоритма кластеризации k-means.
Литература: [1, 2, 3, 4, 5, 11, 12, 13]
Тема 6. Классификация и регрессия. Статистические методы (1 час.)
6.1. Введение в классификацию и регрессию
6.2. Простая линейная регрессия
6.3. Оценка соответствия простой линейной регрессии реальным данным
6.4. Простая регрессионная модель
6.5. Множественная линейная регрессия
6.6. Модель множественной линейной регрессии
6.7. Регрессия с категориальными входными переменными
6.8. Методы отбора переменных в регрессионные модели
6.9. Ограничения применимости регрессионных моделей
6.10. Основы логистической регрессии
6.11. Интерпретация модели логистической регрессии
6.12. Множественная логистическая регрессия
Изучив данную тему, студент должен:
знать:
методики регрессионного анализа данных;
уметь:
применять и оценивать регрессионные модели;
приобрести навыки:
использования регрессионные модели в целях анализа данных.
Литература: [1, 2, 3, 6, 10, 12, 13]
Тема 7. Классификация и регрессия. Машинное обучение (1 час.)
7.1. Введение в деревья решений
7.2. Алгоритмы построения деревьев решений
9.3. Алгоритмы IDЗ и С4.5
7.4. Алгоритм CART
7.5. Упрощение деревьев решений
7.6. Введение в нейронные сети
7.7. Искусственный нейрон
7.8. Принципы построения нейронных сетей
7.9. Алгоритмы обучения нейронных сетей
7.10. Алгоритм обратного распространения ошибки
Изучив данную тему, студент должен:
знать:
методики применения деревьев решений;
уметь:
применять деревья решений и нейронных сетей в целях анализа данных;
приобрести навыки:
использования алгоритмов IDЗ, С4.5, CART и нейросетевых технологий для анализа массивов данных.
Литература: [1, 2, 3, 7]
Тема 8. Анализ и прогнозирование временных рядов. Ансамбли моделей. Сравнение моделей (1 час.)
8.1. Временной ряд и его компоненты
8.2. Модели прогнозирования
8.3. Прогнозирование в торговле и логистике
8.3. Введение в ансамбли моделей
8.4. Бэггинг
8.5. Бустинг
8.6. Альтернативные методы построения ансамблей
8.7. Оценка эффективности и сравнение моделей
8.8. Оценка ошибки модели
8.9. Издержки ошибочной классификации
8.10. Lift- и Profit-кривые
8.11. ROC-анализ
Изучив данную тему, студент должен:
знать:
методики анализа и прогнозирования временных рядов;
технологии построения и использования ансамблей моделей;
методики оценки эффективности и сравнения моделей;
уметь:
строить и применять модели прогнозирования;
применять бэггинг и бустинг.
применять методики построения Lift- и Profit-кривых;
приобрести навыки:
прогнозирования в торговле и логистике.
ROC-анализа.
Литература: [1, 2, 5, 11, 12, 14, 15]
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Дальневосточный федеральный университет»
(ДВФУ)
ШКОЛА ЕСТЕСТВЕННЫХ НАУК
Материалы практических занятий
по дисциплине
«Интеллектуальный анализ на основе хранилищ данных»
|