Repositório para a disciplina de Reinforcement Learning ministrada pelo professor Flávio Coelho
Aprendizado por reforço para limpeza de dados com dois agentes (Codificador e Revisor), integrando um modelo de linguagem para gerar e avaliar código de limpeza conforme solicitado na disciplina.
Aprendizado por reforço mais tradicional, sem LLM, para imputação de dados faltantes em um DataFrame, usando agentes simples (Random, Q-Learning, SARSA) e avaliando o desempenho quantitativamente. Nesse Notebook utilizamos um modelo BaseLine a fim de explorar problemas com o RL utilizando LLM.