Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

alfredronning · 2021-02-25T15:41:45Z

Dette var en issue jeg jobbet med tidligere, som burde blitt gjort annerledes.

Det som nå skjer, er at glue crawleren kun legger til nye tabeller til crawler targets, uten å kjøre den. Den kjøres automatisk 1 gang pr. dag, og vil da oppdatere metadataene. Hvis man gjør en ny poll eller legger til en ny s3-tabell, vil ikke denne dataen være oppdatert/tilgjenelig med athena spørringer før kl. 24.00 når den automatisk crawler, eller etter man selv manuelt har crawlet den.

Utfordringen er at crawleren ikke kan oppdateres eller kjøres hvis den allerede kjører, så man møter på potensielle concurrency problemer der.

Kanskje en sqs retry queue hadde vært en bra løsning:
https://aws.amazon.com/blogs/big-data/build-and-automate-a-serverless-data-lake-using-an-aws-glue-trigger-for-the-data-catalog-and-etl-jobs/

henrikav transferred this issue from knowit/Dataplattform-issues Jan 6, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

alfredronning commented Feb 25, 2021

Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

Kjøre glue crawler mellom hver oppdatering av s3-tabeller. #477

Comments

alfredronning commented Feb 25, 2021