Skip hidden .parquet files when loading dataset to avoid PyArrow errors #2568

ahadjawaid · 2025-12-02T16:42:28Z

What this does

Fixes handling of hidden .parquet files during dataset loading (Bug).
Some environments generate hidden files like ._file-000.parquet, which cause Dataset.from_parquet to error when memory-mapped loading is used.
This PR filters out such hidden .parquet files before loading.

How it was tested

Reproduced the issue with paths containing both hidden and regular .parquet files.
Verified that dataset loading succeeds after filtering out hidden files.
Confirmed that normal dataset loading remains unchanged when no hidden files are present.

How to checkout & try? (for the reviewer)

python -c "from lerobot.datasets.utils import load_dataset; load_dataset('/path/to/episodes')"

or run any pipeline relying on Dataset.from_parquet to confirm it loads without errors when hidden files exist.

Signed-off-by: ahadjawaid <[email protected]>

ahadjawaid added 2 commits December 2, 2025 08:40

Skip hidden .parquet files when loading dataset to avoid PyArrow errors

e039116

Signed-off-by: ahadjawaid <[email protected]>

Merge branch 'main' into patch-1

49a12e1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Skip hidden .parquet files when loading dataset to avoid PyArrow errors #2568

Skip hidden .parquet files when loading dataset to avoid PyArrow errors #2568

Uh oh!

ahadjawaid commented Dec 2, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Skip hidden .parquet files when loading dataset to avoid PyArrow errors #2568

Are you sure you want to change the base?

Skip hidden .parquet files when loading dataset to avoid PyArrow errors #2568

Uh oh!

Conversation

ahadjawaid commented Dec 2, 2025

What this does

How it was tested

How to checkout & try? (for the reviewer)

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant