Skip to content

Dataplattform: Filstruktur

HeleneSemmerud edited this page Feb 25, 2022 · 3 revisions

Filstruktur på S3

Generellt følger alle filstier dette mønsteret

  • s3://<>/<level-x>/<datakilde>/raw - json fil med rådata
  • s3//<>/level-x/<datakilde>/structured - en eller flere parquet filer.

Under kommer en oversikt over filstrukturen på S3 og hvilke datakilder som hører under hvilken sti. Det finnes også noe informasjon i denne filen, men den er ment som supplement da en del av informasjonen der er udatert.

level-1/*

Åpne data, som enten er avpersonifisert eller generelle. De implementerte datakildene for dette nivået er er yr, knowit labs og twitter.

level-2/*

Omfatter flere kategorier. Data som kan inneholde informasjon om personer, men da er det er persondata som er offentlig tilgjengelig. Videre er det data som krever tilgangsskontroll i form av API-nøkler eller lign. Kildene under dette tilgangsnivået er

github/*

Informasjon om repoer i Knowits offentlige github-prosjekter lagres. Brukernavn på github vil være med i data som henter her

googleEvents/*

Events fra Knowit Fagkalender og Eventkalender.

slack/*

Slack-reactions/emojies for public kanaler blir lagret.

jira/*

Informasjon fra Salgs teamets Jira board.

ubw/*

Samlet rapport om antall fagtimer brukt av Objectnet per uke.

level-3/*

Informasjon som inneholder persondata. I de fleste tilfeller er dette data fra Knowit Objectnets interne fagsystemer. I nåværende versjon av dataplattform er flertallet av disse dataene ikke lagret over lang tid for å sikre retten til å bli glemt.

activeDirectory/*

Basisinformasjon om ansatte i Knowit Objectnet fra Azure Active Directory. Navn, epost, nærmeste leder etc.

cvpartner/*

Inforasjonen de ansatte selv legger inn i sin CVPartner profil

googleForms/*, googleSheets/*

En egenutviklet add-on sørge for at vi kan få importert informasjon fra google sheets og forms. I level-3 fordi det er fritekstinput som potensielt kan inneholde persondata.

kompetansekartlegging/*

Data fra kompetansekartleggingsverktøyet til Knowit Objectnet.

ubw/*

Informasjon om hvilken prosjekt en ansatt har før timer på forrige uke. Aggregat av antall timer per kunde over tid.

Clone this wiki locally