(обновление 12 сентября 2024)
10 сентября 2024. 17:00 Вводное занятие (отмена)
12-13 сентября 2024. 17:00 Стандартный процесс анализа данных - теория. http://www.machinelearning.ru/wiki/index.php?title=Crisp-dm
- Mathematical Python - https://patrickwalls.github.io/mathematicalpython/ (дополнительный материал)
Math Reminder и Задание А1. https://drive.google.com/drive/folders/1b5YO3zD-yhBnsEEXAj1gpaRna1_NbX-I?usp=drive_link
17 сентября 2024. 17:00 Python для анализа данных. Библиотека pandas.
- Материалы по Pandas https://drive.google.com/drive/folders/1xP5H0bEgEXfZq6vLpKmE5xn14Dhjdmju?usp=share_link
Курсы для самостоятельного изучения:
Начальный уровень:
- https://www.kaggle.com/code/hamelg/python-for-data-analysis-index#Section-4:-Data-Exploration-and-Cleaning
- Python Data Science Handbook - https://jakevdp.github.io/PythonDataScienceHandbook/
Задание А2. Инструменты для анализа и предобработки данных: https://colab.research.google.com/drive/1l-xjySGj_-LHhoZ1UopNxTv63Aj69-Lh?usp=sharing
19-20 сентября 2024. 17:00 Консультация по заданиям А (подключаться не обязатеьно)
24 сентября 2024. 17:00 Классические алгоритмы машинного обучения. Примеры задач на анализ данных. Ссылка на colab: https://colab.research.google.com/drive/1sMZx6Pv7hSWY6L2xPPpmRGNCsqKEVa4f?usp=sharing
26-27 сентября 2024. 17:00 Консультация по заданию 1. (подключаться не обязательно)
- Сбор данных
- Визуализация
- Отбор признаков
- Предобработка табличных данных
- Предобработка текстовых данных
- Предобработка мультимедийных данных (графика, звук, видео)
- Классические модели машинного обучения
- Нейросетевые модели: полносвязная сеть, CNN, RNN
- Обучение с подкреплением
- Генеративные модели (кроме LLM)
- LLM
- Оценка качества моделей
- AutoML
- Инфраструктура для анализа данных (docker, airflow, hadoop, облачные сервисы)
- Специализированные задачи. Например, рекомендательные системы, работа с большими данными, анализ социальных сетей и т.п.
- Если есть публикация по темам, перечисленным выше, то нужно показать процесс анализа данных и применение прикладных пакетов в нём (не обязательно Python)
- Если нет публикаций, то нужно сделать разбор чужой публикации. Для разбора можно брать только статьи, опубликованные в изданиях индексируемых международными наукометрическими базами
1 октября 2024. 17:00 Нейросетевые алгоритмы для анализа данных. https://colab.research.google.com/drive/1nQ8bjQxiRIjhOecfcDE_q97HdIRLcf7t?usp=sharing#scrollTo=-vk8hn75sHWT
Transfer Learning - https://colab.research.google.com/drive/1k_qEB5eeljG1mL8JVNRHqNXTBXJqI1pT?usp=sharing
RNN - https://colab.research.google.com/drive/13nWY7BB3jWISRKfwvQmLVACg64ujZPpK?usp=sharing
LLM - https://colab.research.google.com/drive/1RDgCD41oAG2mh53Y0gJxwoXujZTP3Dhe?usp=sharing
3-4 октября 2024. 17:00. Защита работ A и 1.
Конвейер обработки данных 8 и 10 октября 2024. 17:00 - постановка задачи, описание эндпойнтов для сбора данных, проектирование хранилища и дэшборда
15 и 17 октября 2024. 17:00 - учтонение задачи 2, требования к дэшборду https://github.com/kinomant/ppa-for-da/blob/master/airflow_workshop/README.md
22 октября 2024. 17:00 Консультация по заданию 2. Самостоятельная работа студентов. Подключение не обязательно.
24 октября 2024 - занаятие под вопросом, скорее всего не получится подключиться. Можем другой день, или асинхронно.
29 и 31 октября 2024. 17:00 Защита выполненных работ. Консультация. Экзамен