Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

Open
alfredronning opened this issue Feb 25, 2021 · 0 comments
Open

Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

alfredronning opened this issue Feb 25, 2021 · 0 comments

Comments

@alfredronning
Copy link
Contributor

Dette var en issue jeg jobbet med tidligere, som burde blitt gjort annerledes.

Det som nå skjer, er at glue crawleren kun legger til nye tabeller til crawler targets, uten å kjøre den. Den kjøres automatisk 1 gang pr. dag, og vil da oppdatere metadataene. Hvis man gjør en ny poll eller legger til en ny s3-tabell, vil ikke denne dataen være oppdatert/tilgjenelig med athena spørringer før kl. 24.00 når den automatisk crawler, eller etter man selv manuelt har crawlet den.

Utfordringen er at crawleren ikke kan oppdateres eller kjøres hvis den allerede kjører, så man møter på potensielle concurrency problemer der.

Kanskje en sqs retry queue hadde vært en bra løsning:
https://aws.amazon.com/blogs/big-data/build-and-automate-a-serverless-data-lake-using-an-aws-glue-trigger-for-the-data-catalog-and-etl-jobs/

@henrikav henrikav transferred this issue from knowit/Dataplattform-issues Jan 6, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant