Формат обучения: Онлайн-асинхронный
Начало обучения: 14.04.2025
О курсе: Курс посвящен изучению основ интеллектуального анализа данных (data mining) и машинного обучения. Слушатели смогут получить представление об организации процесса анализа данных, узнать основное содержание этапов предобработки и постобработки данных, сопутствующие стандарты. Курс позволяет познакомиться с современными технологиями интеллектуального анализа данных и примерами их применения для решения бизнес-задач, а также с основами машинного обучения как одной из главных современных концепций извлечения новых знаний и закономерностей из больших массивов данных и последующего их применения в системах искусственного интеллекта.
В результате обучения на программе слушатель будет:
Знать:
- основные методов интеллектуального анализа данных, основные методов решения задач машинного обучения.
Уметь:
- применять при решении прикладных задач методы и алгоритмы поиска часто встречающихся шаблонов, классификации, кластеризации, восстановления регрессии.
Владеть:
- навыками самостоятельной постановки конкретных задач научных исследований в области ИБ или информационно-аналитических систем безопасности и решения их с использованием новейшего отечественного и зарубежного опыта;
- навыками планирования и организации предпроектных исследований объектов обеспечения ИБ или объектов информационно-аналитических систем безопасности.
Программа курса
Модуль 1. Введение в анализ данных.
- Урок 1. Предмет интеллектуального анализа данных и процессов. История вопроса. Основные подходы к анализу данных. Основная терминология: объект анализа, признаки объекта, модель, типы данных, типы признаков.
- Урок 2. Приложения анализа данных (примеры). Жизненный цикл анализа данных. Стандарт CRISP-DM. Инструментарий анализа данных.
Модуль 2. Предобработка и постобработка данных.
- Урок 1. Предварительная обработка данных. Основные задачи предобработки данных. Очистка данных. Интеграция данных.
- Урок 2. Редукция (понижение размерности) и сокращение объёма данных. Преобразование данных.
- Урок 3. Визуализация данных (обзор методов).
Модуль 3. Поиск шаблонов и ассоциативных правил.
- Урок 1. Основные задачи поиска ассоциативных правил: поиск всех часто встречающихся подмножеств, генерация строгих ассоциативных правил из часто встречающихся подмножеств. Основные понятия: уровень поддержки (support level), уровень уверенности (confidence level).
- Урок 2. Классическая «задача о супермаркете». Алгоритм Apriori.
- Урок 3. Алгоритм FP-Growth.
Модуль 4. Кластеризация.
- Урок 1. «Обучение без учителя». Постановка задачи кластеризации. Методы разбиения: метод k средних, графовый метод.
- Урок 2. Агломеративная иерархическая кластеризация. Формула Ланса – Уильямса. Дендрограммы. Выбор оптимального числа кластеров.
- Урок 3. Плотностные методы кластеризации: алгоритм DBSCAN, алгоритм OPTICS.
- Урок 4. Сравнительная оценка качества работы алгоритмов кластеризации. Оценка качества кластеризации по размеченной и неразмеченной выборкам.
Модуль 5. Поиск аномалий.
- Урок 1. Поиск и обнаружение аномалий. Критерии аномальности объектов анализа. Статистические методы. Методы, основанные на измерении близости объектов.
- Урок 2. Метод вложенных циклов. Сеточный метод.
Модуль 6. «Обучение с учителем»: теоретические основы.
- Урок 1. «Обучение с учителем». Задание объектов данных. Задание признаков. Понятие модели.
- Урок 2. Настройка параметров модели. Оценка качества модели. Понятие переобучения. Примеры переобученных моделей.
Модуль 7. Элементарные методы классификации.
- Урок 1. Постановка задачи классификации. Бинарная и многоклассовая классификация.
- Урок 2. Логические методы классификации. Деревья принятия решений. Алгоритм ID3. Критерии ветвления.
- Урок 3. Вероятностные методы классификации. Теорема Байеса. Наивный байесовский метод.
- Урок 4. Метрические методы классификации. Обобщенный метрический классификатор. Метод k ближайших соседей, метод парзеновского окна. Метрики для оценки качества классификаторов.
Модуль 8. Элементарные методы восстановления регрессии.
- Урок 1. Постановка задачи восстановления регрессии. Аналитическое решение задачи линейной парной регрессии.
- Урок 2. Градиентный метод численной минимизации. Метод стохастического градиента.
- Урок 3. Регуляризация.
Модуль 9. Линейные методы классификации и восстановления регрессии.
- Урок 1. Обобщенная модель линейного классификатора.
- Урок 2. Метод опорных векторов.
- Урок 3. Логистическая регрессия. Мягкая многоклассовая классификация (softmax).
Модуль 10. Композиции алгоритмов классификации и регрессии.
- Урок 1. Простое голосование классификаторов.
- Урок 2. Бэггинг и метод случайных подпространств. Метод случайного леса.
- Урок 3. Градиентный бустинг.
Преподаватели курса