A instituição responsável pela preservação da produção audiovisual do Brasil é a Cinemateca Brasileira. Entre outros catálogos, seu website hospeda dados sobre filmografia brasileira. Infelizmente, não há, de maneira direta, como baixar este dados integralmente, sendo necessário recorrer à raspagem de dados.
Este projeto tem como objetivo gerar dados estruturados e em formato aberto a partir do site da cinemateca.
Pré-requisitos:
- Node.js
- Yarn
Instale as depedência com o comando yarn
.
Baixe o espelho das páginas da cinemateca e descompacte no diretório ./html
.:
Rode o script com yarn start
, que irá interpretar os arquivos html e salvar o resultado em formato yaml no diretório ./obras
.
MIT