CommonCrawlのPDFデータ(日本語)をダウンロードするScript

使い方

以下のコマンドを実行すると､dataフォルダ内に､日本ドメインのpdfファイルがダウンロードされていきます｡
- 1. 日本語pdfの多そうなzipファイルをダウンロード
- 1. zipを展開し､.jpドメイン以外のpdfを削除
- 1. i.に戻る

mkdir data
python download.py

#ファイルリストのダウンロード (日本語ドメイン以外も使う場合のみ､実行)

日本語のファイルリストはこちら

mkdir data
cd data

#download file list
wget https://digitalcorpora.s3.amazonaws.com/corpora/files/CC-MAIN-2021-31-PDF-UNTRUNCATED/metadata/cc-hosts-20230303.csv.gz

gzip -d cc-hosts-20230303.csv.gz

#その後､適当にドメインを抽出する処理を加える

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
extract_text		extract_text
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
dev.ipynb		dev.ipynb
download.py		download.py
ja_df.csv		ja_df.csv
to_parquet.ipynb		to_parquet.ipynb
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CommonCrawlのPDFデータ(日本語)をダウンロードするScript

使い方

About

Releases

Packages

Languages

License

hatakeyama-llm-team/CommonCrawlPDF

Folders and files

Latest commit

History

Repository files navigation

CommonCrawlのPDFデータ(日本語)をダウンロードするScript

使い方

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages