Este projeto se destina a ter um glossário das principais palavras para auxiliar profissionais de dados e gestores para entender termos técnicos.
- O termos estão em ordem alfabética sendo eles em Português, Inglês ou Aportuguesados
- O significado do termo está em Português
- Cada termo terá um link de referencia e se for contundente terá um artigo sobre no blog da Mentoria IaC que será linkado também no verbete
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |
é uma técnica de análise de dados utilizada para comparar o desempenho de duas ou mais versões de um mesmo elemento, como um website ou um e-mail marketing, com o objetivo de determinar qual delas apresenta melhores resultados.
Um recurso que notifica os usuários sobre alterações nos dados com base em limites definidos por eles. Alertas podem ser definidos em blocos fixados nos visuais de relatórios. Os usuários recebem alertas no serviço e em seus aplicativos móveis.
é uma abordagem de análise de dados que visa descobrir padrões, tendências e insights em um conjunto de dados, por meio de técnicas de visualização, estatística descritiva e outras técnicas.
usar dados passados para prever resultados futuros com precisão, usando estatísticas e técnicas de mineração de dado
Método para examinar e avaliar o estado atual de um processo, a fim de identificar oportunidades para melhoria no futuro.
API é um conjunto de ferramentas que permitem que diferentes programas se comuniquem e troquem informações entre si de forma eficiente.
Um pacote de dashboards, relatórios e conjuntos de dados. Também se refere aos aplicativos móveis para consumo de conteúdo
é um subconjunto da IA que utiliza algoritmos e modelos matemáticos para permitir que um sistema computacional melhore seu desempenho em uma determinada tarefa ao longo do tempo, a partir da análise de dados.
é um tipo de aprendizado de máquina em que o modelo é treinado com dados não rotulados, ou seja, sem a intervenção de um ser humano.
é um tipo de aprendizado de máquina em que o modelo é treinado com dados rotulados e supervisionados por um ser humano.
é um algoritmo de aprendizado de máquina que utiliza uma estrutura em forma de árvore para representar um conjunto de decisões e suas possíveis consequências, com base em um conjunto de dados de treinamento.
Azure é a plataforma em nuvem da Microsoft que oferece diversos serviços de computação, armazenamento e análise de dados escaláveis e seguros.
AWS é o acrônimo para Amazon Web Services, é o provedor de serviços na nuvem da Amazon
é uma coleção organizada de informações ou dados, que podem ser acessados, gerenciados e atualizados por meio de um software de gerenciamento de banco de dados (DBMS).
sigla em inglês para Business Intelligence, que se refere ao conjunto de tecnologias e metodologias usadas para coletar, integrar, analisar e apresentar informações de negócio com o objetivo de auxiliar a tomada de decisão.
é um conjunto de dados extremamente grande, complexo e variado que não pode ser tratado com ferramentas de processamento de dados convencionais.
Uma exibição dos dados capturados no painel Indicadores de um relatório no serviço do Power BI ou no Power BI Desktop. No Desktop, os indicadores são salvos no arquivo de relatório pbix para compartilhamento no serviço do Power BI.
Modelos de dados em execução em hardware totalmente gerenciado pela Microsoft em data centers na nuvem da Microsoft para ajudar a garantir um desempenho consistente em escala. As soluções de BI são entregues para toda a organização, independentemente da licença do Power BI.
é um campo interdisciplinar que envolve o uso de técnicas estatísticas, matemáticas e de programação para extrair insights e conhecimento a partir de dados.
é um método de aprendizado de máquina que consiste em atribuir uma classe ou categoria a um conjunto de dados com base em suas características.
é a tecnologia que permite o acesso e uso de recursos computacionais, como armazenamento, processamento e software, por meio da internet.
Um padrão comum na Internet. No Power BI, o cliente pode gerar um código de inserção e copiá-lo para colocar conteúdo como um relatório visual em um site ou blog.
Condição em que algo existe ou acontece.
uma coleção de dados que pode ser manipulada ou analisada como uma única unidade.
é uma abordagem de negócios que se baseia na utilização de dados e informações para a tomada de decisão, incentivando a coleta, análise e interpretação de dados para melhorar o desempenho do negócio.
Formato de acessar os dashboard sem precisar de licença, através do código de inserção público.
Metodologia utilizada para empacotar aplicações para que possam ser executadas/disponibilizadas com o seu subconjunto de dependências de maneira isolada e eficiente no intuito de segregar e facilitar a portabilidade dessas aplicações.
Código Aberto é um termo que se refere a um software cujo código está disponível para download por qualquer pessoa e a uma filosofia de criação de aplicativos voltada para a colaboração entre desenvolvedores.
uma coleção de fatos
é uma interface gráfica que permite a visualização e análise de dados em tempo real, por meio de gráficos, tabelas e outros elementos visuais
é um repositório de dados que armazena dados brutos e não estruturados, de várias fontes, para análise posterior
é um processo de análise de dados que utiliza técnicas de estatística, aprendizado de máquina e visualização de dados para descobrir padrões e relações em um conjunto de dados
é um repositório de dados que armazena informações de diferentes fontes, em um formato estruturado, para facilitar a análise de dados e a tomada de decisões de negóco
um subconjunto de um data warehouse que contém dados específicos de uma área de negócio, projetado para permitir análises detalhadas e mais ágeis
uma linguagem de fórmulas utilizada no Power BI, Excel e outras ferramentas da Microsoft para cálculos avançados e análise de dados
O modo como a informação é organizada.
Dimensões são dados categóricos (texto). Uma dimensão descreve uma pessoa, um objeto, um item, produto, um lugar e um período. Em um conjunto de dados, as dimensões são uma maneira de agrupar medidas em categorias úteis. Para nossa empresa de skates, algumas dimensões podem incluir a análise de vendas (uma medida) por modelo, cor, país/região ou campanha de marketing
são técnicas de análise de dados que permitem navegar em diferentes níveis de detalhe de um conjunto de dados, seja aprofundando ou voltando a uma visão mais ampla dos dados
No contexto de desenvolvimento de software, significa implantar, colocar em posição ou disponibilizar para uso. O deploy pode ser manual, parcialmente automatizado ou completamente automatizado, sendo este diretamente relacionado ao conceito de Integração Contínua (CI).
Os vários elementos que interagem entre si para produzir, gerenciar, armazenar, organizar, analisar e compartilhar dados.
Sistema de busca e análise de dados em tempo real, utilizado para indexar, pesquisar e analisar grandes volumes de dados.
Um produto usado por desenvolvedores para inserir outros conteúdo como dashboards e relatórios em outra aplicações web, ferramentas e sites próprios.
é um modelo de relacionamento de dados, composto por uma tabela de fatos central, conectada a tabelas de dimensão, formando uma estrutura em forma de estrela, que facilita a análise de grandes quantidades de dados.
um modelo de relacionamento de dados utilizado, similar ao esquema estrela, mas com tabelas de dimensão normalizadas, resultando em uma estrutura em forma de floco de neve. Ele permite economizar espaço de armazenamento, mas pode ser mais complexo de ser consultado.
Gestão de pessoas, processos e ferramentas usadas na análise de dados.
sigla em inglês para Extract, Transform and Load, que é o processo de extrair, transformar e carregar dados de diversas fontes em um data local centralizado para facilitar a análise.
Git é um sistema de controle de versão distribuído de código aberto e gratuito, projetado para lidar com tudo, de projetos pequenos a grandes. O que isso significa? Significa que com o Git é possível manter um histórico das alterações dos seus arquivos, sabendo quem, por que e quando um arquivo foi editado.
GitHub é uma plataforma de hospedagem de código-fonte que utiliza o Git como sistema de controle de versão distribuído. Ela permite que os desenvolvedores contribuam em projetos privados ou abertos.
Similarmente ao GitHub, o GitLab é uma plataforma de hospedagem de código-fonte que utiliza o Git como sistema de controle de versão distribuído. Ela permite que os desenvolvedores contribuam em projetos privados ou abertos.
Infraestrutura como serviço é uma categoria de computação em nuvem na qual a infraestrutura é fornecida como um produto pela Internet. Os usuários provisionam processamento, armazenamento, rede e outras ferramentas de computação, que podem incluir sistemas operacionais e aplicativos. Embora um usuário IaaS não gerencie a infraestrutura subjacente, ele tem controle sobre os sistemas operacionais, armazenamento, aplicativos implantados e certos componentes de rede (como firewalls).
IaC, Infraestrutura como Código ou em inglês Infrastructure as Code, é o gerenciamento do provisionamento de Infraestrutura utilizando arquivos versionáveis e auditáveis.
Issue é o termo usado pelo github para documentar um problema no repositório em questão. Ao abrir uma issue você está detalhando um problema ou melhoria desejada para aquele repositório de código.
Kanban é um método enxuto para gerenciar e melhorar o trabalho em sistemas humanos. Essa abordagem visa gerenciar o trabalho equilibrando as demandas com a capacidade disponível e melhorando o tratamento de gargalos no nível do sistema.
Os itens de trabalho são visualizados para dar aos participantes uma visão do progresso e do processo, do início ao fim - geralmente por meio de um quadro Kanban. O trabalho é executado conforme a capacidade permite, ao invés de ser imposto para o processo quando solicitado.
No trabalho com conhecimento e no desenvolvimento de software, o objetivo é fornecer um sistema de gestão visual de processos que auxilie na tomada de decisões sobre o que, quando e quanto produzir.
Kubernetes é uma ferramenta open source de orquestração de containers mantido pela Cloud Native Computing Foundation ou CNCF, com a finalidade de automatizar a entrega, escalonamento e manutenção de aplicações conteinerizadas.
Loki é um sistema de agregação de logs multi-tenant, horizontalmente escalável, altamente disponível e inspirado no Prometheus. Ele é projetado para ser muito econômico e fácil de operar. Ele não indexa o conteúdo dos logs, mas sim um conjunto de rótulos para cada fluxo de log.
Um pipeline de CI/CD consiste em uma série de etapas a serem realizadas para a disponibilização de uma nova versão de um software. Os pipelines de integração e entrega contínuas (CI/CD) são uma prática que tem como objetivo acelerar a disponibilização de softwares, adotando a abordagem de DevOps ou de engenharia de confiabilidade de sites (SRE).
O pipeline de CI/CD inclui monitoramento e automação para melhorar o processo de desenvolvimento de aplicações principalmente nos estágios de integração e teste, mas também na entrega e na implantação. É possível executar manualmente cada etapa do pipeline de CI/CD, mas o real valor dele está na automação.
Pull requests são alterações propostas em um repositório enviadas por um usuário e que são aceitas ou rejeitadas pelos colaboradores do repositório. Assim como os problemas, as pull requests têm um fórum próprio de discussão.
REFACTORING é o processo de modificar um sistema de software para melhorar a estrutura interna do código sem alterar seu comportamento externo. O uso desta técnica aprimora a concepção de um software e evita a deterioração tão comum durante o ciclo de vida de um código.
- Fork o projeto
- Clone o fork projeto no seu usuário
- Crie uma branch para realizar a modificação
- Adicione o termo sugerido em ordem alfabética
- Suba as modificações com
git push - E crie um PR para o repositório github.com/lfhillesheim/data_glossary.git