Skip to content

Este projeto se destina a ter um glossário das principais palavras para auxiliar profissionais de dados e gestores para entender termos técnicos.

Notifications You must be signed in to change notification settings

lfhillesheim/data_glossary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

Repository files navigation

Glossário de Dados e Bussiness Inteligence de A a Z

Este projeto se destina a ter um glossário das principais palavras para auxiliar profissionais de dados e gestores para entender termos técnicos.

  • O termos estão em ordem alfabética sendo eles em Português, Inglês ou Aportuguesados
  • O significado do termo está em Português
  • Cada termo terá um link de referencia e se for contundente terá um artigo sobre no blog da Mentoria IaC que será linkado também no verbete

Escolha a letra do Alfabeto

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |

A

A/B testing (Teste A/B):

é uma técnica de análise de dados utilizada para comparar o desempenho de duas ou mais versões de um mesmo elemento, como um website ou um e-mail marketing, com o objetivo de determinar qual delas apresenta melhores resultados.

Alerta:

Um recurso que notifica os usuários sobre alterações nos dados com base em limites definidos por eles. Alertas podem ser definidos em blocos fixados nos visuais de relatórios. Os usuários recebem alertas no serviço e em seus aplicativos móveis.

Análise exploratória de dados:

é uma abordagem de análise de dados que visa descobrir padrões, tendências e insights em um conjunto de dados, por meio de técnicas de visualização, estatística descritiva e outras técnicas.

Análise preditiva:

usar dados passados para prever resultados futuros com precisão, usando estatísticas e técnicas de mineração de dado

Análise de lacunas:

Método para examinar e avaliar o estado atual de um processo, a fim de identificar oportunidades para melhoria no futuro.

API:

API é um conjunto de ferramentas que permitem que diferentes programas se comuniquem e troquem informações entre si de forma eficiente.

Aplicativo:

Um pacote de dashboards, relatórios e conjuntos de dados. Também se refere aos aplicativos móveis para consumo de conteúdo

Aprendizado de máquina (Machine Learning):

é um subconjunto da IA que utiliza algoritmos e modelos matemáticos para permitir que um sistema computacional melhore seu desempenho em uma determinada tarefa ao longo do tempo, a partir da análise de dados.

Aprendizado não supervisionado:

é um tipo de aprendizado de máquina em que o modelo é treinado com dados não rotulados, ou seja, sem a intervenção de um ser humano.

Aprendizado supervisionado:

é um tipo de aprendizado de máquina em que o modelo é treinado com dados rotulados e supervisionados por um ser humano.

Árvore de decisão:

é um algoritmo de aprendizado de máquina que utiliza uma estrutura em forma de árvore para representar um conjunto de decisões e suas possíveis consequências, com base em um conjunto de dados de treinamento.

Azure:

Azure é a plataforma em nuvem da Microsoft que oferece diversos serviços de computação, armazenamento e análise de dados escaláveis e seguros.

AWS é o acrônimo para Amazon Web Services, é o provedor de serviços na nuvem da Amazon

B

Banco de dados (Data Base):

é uma coleção organizada de informações ou dados, que podem ser acessados, gerenciados e atualizados por meio de um software de gerenciamento de banco de dados (DBMS).

BI - business intelligence:

sigla em inglês para Business Intelligence, que se refere ao conjunto de tecnologias e metodologias usadas para coletar, integrar, analisar e apresentar informações de negócio com o objetivo de auxiliar a tomada de decisão.

Big Data:

é um conjunto de dados extremamente grande, complexo e variado que não pode ser tratado com ferramentas de processamento de dados convencionais.

Bookmark (Marcador ou Indicador Pessoal):

Uma exibição dos dados capturados no painel Indicadores de um relatório no serviço do Power BI ou no Power BI Desktop. No Desktop, os indicadores são salvos no arquivo de relatório pbix para compartilhamento no serviço do Power BI.

C

Capacidade[Power BI Premium]:

Modelos de dados em execução em hardware totalmente gerenciado pela Microsoft em data centers na nuvem da Microsoft para ajudar a garantir um desempenho consistente em escala. As soluções de BI são entregues para toda a organização, independentemente da licença do Power BI.

Ciência de dados (data science):

é um campo interdisciplinar que envolve o uso de técnicas estatísticas, matemáticas e de programação para extrair insights e conhecimento a partir de dados.

Classificação:

é um método de aprendizado de máquina que consiste em atribuir uma classe ou categoria a um conjunto de dados com base em suas características.

Cloud computing:

é a tecnologia que permite o acesso e uso de recursos computacionais, como armazenamento, processamento e software, por meio da internet.

Código de inserção:

Um padrão comum na Internet. No Power BI, o cliente pode gerar um código de inserção e copiá-lo para colocar conteúdo como um relatório visual em um site ou blog.

Contexto:

Condição em que algo existe ou acontece.

Conjunto de dados:

uma coleção de dados que pode ser manipulada ou analisada como uma única unidade.

Cultura data driven (Orientada a dados):

é uma abordagem de negócios que se baseia na utilização de dados e informações para a tomada de decisão, incentivando a coleta, análise e interpretação de dados para melhorar o desempenho do negócio.

Conta Gratuita PowerBI:

Formato de acessar os dashboard sem precisar de licença, através do código de inserção público.

Metodologia utilizada para empacotar aplicações para que possam ser executadas/disponibilizadas com o seu subconjunto de dependências de maneira isolada e eficiente no intuito de segregar e facilitar a portabilidade dessas aplicações.

Código Aberto é um termo que se refere a um software cujo código está disponível para download por qualquer pessoa e a uma filosofia de criação de aplicativos voltada para a colaboração entre desenvolvedores.

D

Dados (Data):

uma coleção de fatos

Dashboard:

é uma interface gráfica que permite a visualização e análise de dados em tempo real, por meio de gráficos, tabelas e outros elementos visuais

Data lake:

é um repositório de dados que armazena dados brutos e não estruturados, de várias fontes, para análise posterior

Data mining:

é um processo de análise de dados que utiliza técnicas de estatística, aprendizado de máquina e visualização de dados para descobrir padrões e relações em um conjunto de dados

Data warehouse:

é um repositório de dados que armazena informações de diferentes fontes, em um formato estruturado, para facilitar a análise de dados e a tomada de decisões de negóco

Datamart:

um subconjunto de um data warehouse que contém dados específicos de uma área de negócio, projetado para permitir análises detalhadas e mais ágeis

DAX:

uma linguagem de fórmulas utilizada no Power BI, Excel e outras ferramentas da Microsoft para cálculos avançados e análise de dados

Design de dados:

O modo como a informação é organizada.

Dimensão:

Dimensões são dados categóricos (texto). Uma dimensão descreve uma pessoa, um objeto, um item, produto, um lugar e um período. Em um conjunto de dados, as dimensões são uma maneira de agrupar medidas em categorias úteis. Para nossa empresa de skates, algumas dimensões podem incluir a análise de vendas (uma medida) por modelo, cor, país/região ou campanha de marketing

Drill down e drill up:

são técnicas de análise de dados que permitem navegar em diferentes níveis de detalhe de um conjunto de dados, seja aprofundando ou voltando a uma visão mais ampla dos dados

No contexto de desenvolvimento de software, significa implantar, colocar em posição ou disponibilizar para uso. O deploy pode ser manual, parcialmente automatizado ou completamente automatizado, sendo este diretamente relacionado ao conceito de Integração Contínua (CI).

E

Ecossistema de dados:

Os vários elementos que interagem entre si para produzir, gerenciar, armazenar, organizar, analisar e compartilhar dados.

Elastic Search:

Sistema de busca e análise de dados em tempo real, utilizado para indexar, pesquisar e analisar grandes volumes de dados.

Embedded (Embedado):

Um produto usado por desenvolvedores para inserir outros conteúdo como dashboards e relatórios em outra aplicações web, ferramentas e sites próprios.

Esquema estrela (star schema):

é um modelo de relacionamento de dados, composto por uma tabela de fatos central, conectada a tabelas de dimensão, formando uma estrutura em forma de estrela, que facilita a análise de grandes quantidades de dados.

Esquema snowflake (Floco de neve):

um modelo de relacionamento de dados utilizado, similar ao esquema estrela, mas com tabelas de dimensão normalizadas, resultando em uma estrutura em forma de floco de neve. Ele permite economizar espaço de armazenamento, mas pode ser mais complexo de ser consultado.

Estratégia de dados:

Gestão de pessoas, processos e ferramentas usadas na análise de dados.

ETL:

sigla em inglês para Extract, Transform and Load, que é o processo de extrair, transformar e carregar dados de diversas fontes em um data local centralizado para facilitar a análise.

F

G

Git é um sistema de controle de versão distribuído de código aberto e gratuito, projetado para lidar com tudo, de projetos pequenos a grandes. O que isso significa? Significa que com o Git é possível manter um histórico das alterações dos seus arquivos, sabendo quem, por que e quando um arquivo foi editado.

GitHub é uma plataforma de hospedagem de código-fonte que utiliza o Git como sistema de controle de versão distribuído. Ela permite que os desenvolvedores contribuam em projetos privados ou abertos.

Similarmente ao GitHub, o GitLab é uma plataforma de hospedagem de código-fonte que utiliza o Git como sistema de controle de versão distribuído. Ela permite que os desenvolvedores contribuam em projetos privados ou abertos.

H

I

Infraestrutura como serviço é uma categoria de computação em nuvem na qual a infraestrutura é fornecida como um produto pela Internet. Os usuários provisionam processamento, armazenamento, rede e outras ferramentas de computação, que podem incluir sistemas operacionais e aplicativos. Embora um usuário IaaS não gerencie a infraestrutura subjacente, ele tem controle sobre os sistemas operacionais, armazenamento, aplicativos implantados e certos componentes de rede (como firewalls).

IaC, Infraestrutura como Código ou em inglês Infrastructure as Code, é o gerenciamento do provisionamento de Infraestrutura utilizando arquivos versionáveis e auditáveis.

Issue é o termo usado pelo github para documentar um problema no repositório em questão. Ao abrir uma issue você está detalhando um problema ou melhoria desejada para aquele repositório de código.

J

K

Kanban é um método enxuto para gerenciar e melhorar o trabalho em sistemas humanos. Essa abordagem visa gerenciar o trabalho equilibrando as demandas com a capacidade disponível e melhorando o tratamento de gargalos no nível do sistema.

Os itens de trabalho são visualizados para dar aos participantes uma visão do progresso e do processo, do início ao fim - geralmente por meio de um quadro Kanban. O trabalho é executado conforme a capacidade permite, ao invés de ser imposto para o processo quando solicitado.

No trabalho com conhecimento e no desenvolvimento de software, o objetivo é fornecer um sistema de gestão visual de processos que auxilie na tomada de decisões sobre o que, quando e quanto produzir.

Kubernetes é uma ferramenta open source de orquestração de containers mantido pela Cloud Native Computing Foundation ou CNCF, com a finalidade de automatizar a entrega, escalonamento e manutenção de aplicações conteinerizadas.

L

Loki é um sistema de agregação de logs multi-tenant, horizontalmente escalável, altamente disponível e inspirado no Prometheus. Ele é projetado para ser muito econômico e fácil de operar. Ele não indexa o conteúdo dos logs, mas sim um conjunto de rótulos para cada fluxo de log.

M

N

O

P

Um pipeline de CI/CD consiste em uma série de etapas a serem realizadas para a disponibilização de uma nova versão de um software. Os pipelines de integração e entrega contínuas (CI/CD) são uma prática que tem como objetivo acelerar a disponibilização de softwares, adotando a abordagem de DevOps ou de engenharia de confiabilidade de sites (SRE).

O pipeline de CI/CD inclui monitoramento e automação para melhorar o processo de desenvolvimento de aplicações principalmente nos estágios de integração e teste, mas também na entrega e na implantação. É possível executar manualmente cada etapa do pipeline de CI/CD, mas o real valor dele está na automação.

Pull requests são alterações propostas em um repositório enviadas por um usuário e que são aceitas ou rejeitadas pelos colaboradores do repositório. Assim como os problemas, as pull requests têm um fórum próprio de discussão.

Q

R

REFACTORING é o processo de modificar um sistema de software para melhorar a estrutura interna do código sem alterar seu comportamento externo. O uso desta técnica aprimora a concepção de um software e evita a deterioração tão comum durante o ciclo de vida de um código.

S

T

U

V

W

X

Y

Z

Como contribuir

  • Fork o projeto
  • Clone o fork projeto no seu usuário
  • Crie uma branch para realizar a modificação
  • Adicione o termo sugerido em ordem alfabética
  • Suba as modificações com git push
  • E crie um PR para o repositório github.com/lfhillesheim/data_glossary.git

About

Este projeto se destina a ter um glossário das principais palavras para auxiliar profissionais de dados e gestores para entender termos técnicos.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published