Skip to content

fberanizo/pra-todos-verem

Folders and files

NameName
Last commit message
Last commit date
Oct 12, 2022
Oct 12, 2022
Oct 15, 2022
Oct 15, 2022
Oct 15, 2022
Oct 12, 2022
Oct 12, 2022
Oct 14, 2022
Oct 12, 2022
Oct 15, 2022
Oct 14, 2022
Oct 14, 2022
Oct 12, 2022

Repository files navigation

#PraTodosVerem (🚧In Progress🚧)

#PraTodosVerem é um projeto para geração automatizada de legendas para imagens de redes sociais.

⚠️ Ferramentas de automação (como esta) não resolvem o problema da acessibilidade! Antes de tudo, procure a orientação de um especialista em acessibilidade.

Exemplo

#PraCegoVer #PraTodosVerem: Plano de fundo azul claro com branco. No topo da imagem, lado esquerdo, o logotipo com o brasão Cidade de São Paulo Pessoa com Deficiência. Centralizado, a frase: Você conhece? Abaixo, a ilustração de um mapa, com vários ícones de localização, que sinalizam: assistência social, esporte, saúde, educação e cultura. Mais texto, abaixo, em azul: Mapa da Rede serviços acessíveis para pessoas com deficiência.

Download dos Dados (com o DVC)

Os dados foram versionados com o DVC e utilizam o Google Drive como remote.
Solicite permissão de acesso ao administrador do projeto ([email protected]).
A partir do diretório raiz rode o seguinte comando:

dvc pull

A pasta data/raw/ possui os dados brutos, adquiridos com a ferramenta de coleta.
O nome de cada pasta indica a data/hora que o post foi publicado (ex: 202210092332). Dentro da pasta estão as imagens, autor e descrição da publicação (sem formatação).

Data Collection

O Selenium WebDriver automatiza a coleta de dados de publicações em redes sociais (no momento, LinkedIn e Instagram). A imagem docker docker.io/fberanizo/pra-todos-verem-data-collection:1.0.0 já possui todas as dependências instaladas e é a forma mais fácil de rodar este passo.

A implementação faz uso do Geckodriver e requer a instalação do Mozilla Firefox.

export LINKEDIN_USERNAME="<seu-nome-de-usuario>"
export LINKEDIN_PASSWORD="<sua-senha-nao-faca-commit-dela>"
python -m pra_todos_verem.data_collection.collect \
    --website linkedin \
    --query PraTodosVerem \
    --output_path data/raw/ \
    --max_downloads 100

Parâmetros:

usage: collect.py [-h] [--website WEBSITE] [--query QUERY] [--output_path OUTPUT_PATH] [--headless]
                  [--max_downloads MAX_DOWNLOADS]

Ferramenta de coleta de imagens em publicações #PraTodosVerem

optional arguments:
  -h, --help            show this help message and exit
  --website WEBSITE     Website. Default: linkedin
  --query QUERY         Query de busca. Default: PraTodosVerem
  --output_path OUTPUT_PATH
                        Diretório onde salvar os dados 'raw' (imagens e textos). Default: data/raw/
  --headless            Habilita headless browsing.
  --max_downloads MAX_DOWNLOADS
                        Total de publicações visitadas. Default: 5.

Notebooks

Materiais Úteis

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages