Skip to content

Latest commit

 

History

History
executable file
·
22 lines (18 loc) · 1.12 KB

README.md

File metadata and controls

executable file
·
22 lines (18 loc) · 1.12 KB

データセットのロード

ここでは、HuggingFaceのDatasetsライブラリを諸々loadして、一つのjsonlを書き出します

  • Datasetはあらかじめクリーニングされたものを用います。

  • 用いるDatasetは、dataset_dictに記入していきます。

以下のコマンドを実行します

  • 設定はこちら
    • データの出力先
  • どのデータを用いるかについては、実行コードを直接いじって作業します。
python integrate_dataset.py
  • 実行すると、dataフォルダに、全てのテキストを集約した超巨大なjsonlファイル(integrated_text.jsonl)が生成されます

  • 終わったら、2_pretrainに移動します

cd ../2_pretrain