Skip to content

kinomant/ppa-for-da

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

139 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Репозиторий по дисциплине "Программные пакеты для анализа данных" (2024 год)

(обновление 12 сентября 2024)

Темы и расписание

10 сентября 2024. 17:00 Вводное занятие (отмена)

12-13 сентября 2024. 17:00 Стандартный процесс анализа данных - теория. http://www.machinelearning.ru/wiki/index.php?title=Crisp-dm

Math Reminder и Задание А1. https://drive.google.com/drive/folders/1b5YO3zD-yhBnsEEXAj1gpaRna1_NbX-I?usp=drive_link

17 сентября 2024. 17:00 Python для анализа данных. Библиотека pandas.

Курсы для самостоятельного изучения:

Начальный уровень:

Задание А2. Инструменты для анализа и предобработки данных: https://colab.research.google.com/drive/1l-xjySGj_-LHhoZ1UopNxTv63Aj69-Lh?usp=sharing

19-20 сентября 2024. 17:00 Консультация по заданиям А (подключаться не обязатеьно)


24 сентября 2024. 17:00 Классические алгоритмы машинного обучения. Примеры задач на анализ данных. Ссылка на colab: https://colab.research.google.com/drive/1sMZx6Pv7hSWY6L2xPPpmRGNCsqKEVa4f?usp=sharing

26-27 сентября 2024. 17:00 Консультация по заданию 1. (подключаться не обязательно)

Темы для задания

  1. Сбор данных
  2. Визуализация
  3. Отбор признаков
  4. Предобработка табличных данных
  5. Предобработка текстовых данных
  6. Предобработка мультимедийных данных (графика, звук, видео)
  7. Классические модели машинного обучения
  8. Нейросетевые модели: полносвязная сеть, CNN, RNN
  9. Обучение с подкреплением
  10. Генеративные модели (кроме LLM)
  11. LLM
  12. Оценка качества моделей
  13. AutoML
  14. Инфраструктура для анализа данных (docker, airflow, hadoop, облачные сервисы)
  15. Специализированные задачи. Например, рекомендательные системы, работа с большими данными, анализ социальных сетей и т.п.
  • Если есть публикация по темам, перечисленным выше, то нужно показать процесс анализа данных и применение прикладных пакетов в нём (не обязательно Python)
  • Если нет публикаций, то нужно сделать разбор чужой публикации. Для разбора можно брать только статьи, опубликованные в изданиях индексируемых международными наукометрическими базами

1 октября 2024. 17:00 Нейросетевые алгоритмы для анализа данных. https://colab.research.google.com/drive/1nQ8bjQxiRIjhOecfcDE_q97HdIRLcf7t?usp=sharing#scrollTo=-vk8hn75sHWT

Transfer Learning - https://colab.research.google.com/drive/1k_qEB5eeljG1mL8JVNRHqNXTBXJqI1pT?usp=sharing

RNN - https://colab.research.google.com/drive/13nWY7BB3jWISRKfwvQmLVACg64ujZPpK?usp=sharing

LLM - https://colab.research.google.com/drive/1RDgCD41oAG2mh53Y0gJxwoXujZTP3Dhe?usp=sharing

3-4 октября 2024. 17:00. Защита работ A и 1.


Конвейер обработки данных 8 и 10 октября 2024. 17:00 - постановка задачи, описание эндпойнтов для сбора данных, проектирование хранилища и дэшборда

15 и 17 октября 2024. 17:00 - учтонение задачи 2, требования к дэшборду https://github.com/kinomant/ppa-for-da/blob/master/airflow_workshop/README.md

22 октября 2024. 17:00 Консультация по заданию 2. Самостоятельная работа студентов. Подключение не обязательно.

24 октября 2024 - занаятие под вопросом, скорее всего не получится подключиться. Можем другой день, или асинхронно.


29 и 31 октября 2024. 17:00 Защита выполненных работ. Консультация. Экзамен

About

Репозиторий по дисциплине "Программные пакеты для анализа данных"

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors