Skip to content

Latest commit

 

History

History

1_load_dataset

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

データセットのロード

ここでは、HuggingFaceのDatasetsライブラリを諸々loadして、一つのjsonlを書き出します

  • Datasetはあらかじめクリーニングされたものを用います。

  • 用いるDatasetは、dataset_dictに記入していきます。

以下のコマンドを実行します

  • 設定はこちら
    • データの出力先
  • どのデータを用いるかについては、実行コードを直接いじって作業します。
python integrate_dataset.py
  • 実行すると、dataフォルダに、全てのテキストを集約した超巨大なjsonlファイル(integrated_text.jsonl)が生成されます

  • 終わったら、2_pretrainに移動します

cd ../2_pretrain