You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Dette var en issue jeg jobbet med tidligere, som burde blitt gjort annerledes.
Det som nå skjer, er at glue crawleren kun legger til nye tabeller til crawler targets, uten å kjøre den. Den kjøres automatisk 1 gang pr. dag, og vil da oppdatere metadataene. Hvis man gjør en ny poll eller legger til en ny s3-tabell, vil ikke denne dataen være oppdatert/tilgjenelig med athena spørringer før kl. 24.00 når den automatisk crawler, eller etter man selv manuelt har crawlet den.
Utfordringen er at crawleren ikke kan oppdateres eller kjøres hvis den allerede kjører, så man møter på potensielle concurrency problemer der.
Dette var en issue jeg jobbet med tidligere, som burde blitt gjort annerledes.
Det som nå skjer, er at glue crawleren kun legger til nye tabeller til crawler targets, uten å kjøre den. Den kjøres automatisk 1 gang pr. dag, og vil da oppdatere metadataene. Hvis man gjør en ny poll eller legger til en ny s3-tabell, vil ikke denne dataen være oppdatert/tilgjenelig med athena spørringer før kl. 24.00 når den automatisk crawler, eller etter man selv manuelt har crawlet den.
Utfordringen er at crawleren ikke kan oppdateres eller kjøres hvis den allerede kjører, så man møter på potensielle concurrency problemer der.
Kanskje en sqs retry queue hadde vært en bra løsning:
https://aws.amazon.com/blogs/big-data/build-and-automate-a-serverless-data-lake-using-an-aws-glue-trigger-for-the-data-catalog-and-etl-jobs/
The text was updated successfully, but these errors were encountered: