C4-zh

随着预训练模型发展，中文预训练模型对于学术界和工业界更加重要，我们从C4 以及其他公开的数据集中中文自然语言数据集，从而构建大规模高质量的中文预训练语料

构建100G的高质量中文无监督语料，来源新闻，百科，评论等

数据来源	数据规模	大小	数据来源链接	下载链接（自行构建或清洗）
搜狐新闻	2008~2019 共计600w条，未出重	21G	2012 2014-2016 2009-2016
百度知道	60万条	3G
百度搜索	60万条	3G
新浪新闻	2008~2019滚动新闻共计 10w条	2G
百度百科	2012年百度百科 ,400w词条	22G
百度百科	2019年百度百科，500w词条	50G	baike.baidu.com	不提供下载，下载教程
清华新闻	86万条	4G
维基中文	50万条	2G
微信公众号文章	未知	3G	来源

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP https://github.com/brightmart/nlp_chinese_corpus

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
README.md		README.md

Provide feedback