SR-SAC

Проект реализует continuous-control часть статьи Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier. Основная идея, которую здесь реализуем: SR-SAC, то есть SAC с высоким replay ratio и периодическими полными hard reset-ами параметров агента.

Запуски

Один запуск:

python main.py --config configs/pendulum_rr32_srsac.json

Все выбранные эксперименты:

python run_selected_experiments.py

Быстрая локальная проверка:

python tools/smoke_test.py

Так же некоторые эксперименты есть в ipynb ноутбуках.

Почему выбраны именно эти эксперименты

Replay Ratio Scaling Это главный тезис статьи: при наличии reset-ов можно поднимать replay ratio заметно выше обычного SAC. Что проверяем: Монотонный рост производительности с увеличением RR при наличии resets.
Online vs Offline RL Что проверяем: Online RL (SAC) с resets превосходит offline RL (IQL) даже при одинаковых данных.

Среды

DMC Pendulum Benchmark Это одна из самых дешёвых сред из статьи, на ней уже на маленьком бюджете шагов видно, что high replay ratio начинает работать.
LunarLanderContinuous-v3

Что сохраняется

Для каждого прогона в runs/<run_name>_seed<seed>/ сохраняются:

evaluations.csv
training_episodes.csv
summary.json
checkpoint.pt
learning_curve.png
final_episode.mp4

После python run_selected_experiments.py дополнительно создаются:

runs/selected_runs_summary.csv
runs/selected_experiment_table.csv
markdown-версии этих таблиц

Сравнение со статьёй

В article_refs.json лежат reference-значения, заранее собранные из официального репозитория авторов:

Это не полная реплика всех таблиц статьи, а компактный набор reference-метрик на том же бюджете шагов, который используется в этом проекте для дешёвого воспроизведения.

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
configs		configs
notebooks		notebooks
paper_nina_arina		paper_nina_arina
runs		runs
tools		tools
FULL_REPORT.md		FULL_REPORT.md
README.md		README.md
article_refs.json		article_refs.json
main.py		main.py
requirements.txt		requirements.txt
run_selected_experiments.py		run_selected_experiments.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SR-SAC

Запуски

Почему выбраны именно эти эксперименты

Среды

Что сохраняется

Сравнение со статьёй

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

SR-SAC

Запуски

Почему выбраны именно эти эксперименты

Среды

Что сохраняется

Сравнение со статьёй

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages