Projeto Câmara dos Deputados

Projedo de construção de um DW para posterior análise dos dados retirados diretamente do site da camara dos deputados.

📋 Pré-requisitos

De que coisas você precisa para instalar o software e como instalá-lo? Basicamente não, estou utilizando o Google Colaboratory, sendo necessário apenas instalar a biblioteca pyspark

!pip install pyspark

Para obter os dados acesse: https://dadosabertos.camara.leg.br/swagger/api.html#staticfile Neste projetos os dados foram retirados na data 20/10/2023

Ações realizadas

Identificação e Mapeamento dos Dados
Avaliação de dados
Modelagem Dimensional (Divisão de dados em Fato - Dimensões)
PySpark para Tratamento de Dados
Criação de DW com SQL
Inserção de Dados

Projeto Construído com

Python
Google Colaboratory
PySpark
Pandas
Modelagem Dimensional
SGBD PostgreSQL
Power BI
Render

Explicação

Comecei o projeto utilizando o pandas para tratar dados de deputados, que foram extraidos diretamente do câmara dos deputados. Porém após uma outra análise dos dados decidi utilizar todo o processo no arquivo 'Ano-2023.csv', utilizei o pyspark no ambiente do Google Colaboratory, anter de iniciar o uso do pyspark realizei uma análise rápida através do próprio csv, entendendo os dados presentes e construindo uma modelagem dimensional para melhor analisar dos dados, buscando melhor performace nas análises.

Nesta primeira etapa foi criado os DataFrames de Deputados, Categorias e Empresas que seram as dimensões, para posterior criação do dataframe fato_gastos. Todo esse passo a passo está documentando no meu linkedin:

Depois realizei a modificação dos tipos de dados no DataFrame, pois todos estavam como long e/ou string em todos os DataFrames criados. Segue postagem:

Após a limpeza e modelagem dos dados, a proxima etapa foi a criação do Data Warehouse para este projeto, utilizei o SGBD do PostgreSQL, comecei inicialmente com um Banco Local, no decorrer do processo de construção do projeto migrei para o Render, utilizando uma instância gratuita na cloud de PostgreSQL. Utilizei comandos SQL para criação do banco, você pode chegar na minha postagem do Linkedin:

Depois fiz a inserção dos dados de forma manual utilizando o pgAdmin 4:

Agora foi o momento de especificar quais perguntas eu quero responder, como também foram realizados alguns ajustes: Segue postagem:

Por fim, vem a construção do DataViz utilizando o PowerBI: Segue postagem:

Segue dashboard: https://app.powerbi.com/view?r=eyJrIjoiZGJjZDYyYzEtOWQ4Yy00MzIwLWI2MTUtM2FmYTY2NTUyZGI5IiwidCI6IjM2ZjUxZmFhLThiYTItNDcxNy1iMmFlLTEwNTIxNzFjNjM0YiJ9

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
dados		dados
README.md		README.md
part1_trabalhando_arquivo_deputados.ipynb		part1_trabalhando_arquivo_deputados.ipynb
part2-6_preparando_dados_arquivo_gastos.ipynb		part2-6_preparando_dados_arquivo_gastos.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto Câmara dos Deputados

📋 Pré-requisitos

Ações realizadas

Projeto Construído com

Explicação

About

Releases

Packages

Languages

luhborba/projeto_camara_deputados

Folders and files

Latest commit

History

Repository files navigation

Projeto Câmara dos Deputados

📋 Pré-requisitos

Ações realizadas

Projeto Construído com

Explicação

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages