-
Datasetはあらかじめクリーニングされたものを用います。
- クリーニングについては、こちらの記事などを参照
- 独自構築したコーパスのdatasets ライブラリへのラッピング法はこちら by yamada
-
用いるDatasetは、dataset_dictに記入していきます。
python integrate_dataset.py
-
実行すると、dataフォルダに、全てのテキストを集約した超巨大なjsonlファイル(integrated_text.jsonl)が生成されます
-
終わったら、2_pretrainに移動します
cd ../2_pretrain