NLP 项目仓库

这个仓库包含了一个基于自然语言处理（NLP）的项目，主要探索了如何对关于新闻素材的问题(较为复杂语义二值判断（yes/no）问题)能够进行正确判断。项目的初始想法是通过句子嵌入实现语义相似度计算，但最后演变成训练和评估多个BERT模型以比较它们的性能。

项目简介

本项目包含两个主要部分：

句子嵌入与相似度计算：使用整句编码技术，将文本句子转化为向量表示，并通过向量相似度对比实现语义相似性分析。
BERT模型训练与评估：训练和测试四种不同的BERT模型（BERT、MiniLM、mpnet、Roberta），并比较它们在特定任务上的性能。

核心功能

1. 句子嵌入与相似度计算

文件: corpus_embedding.py
功能:
- 使用整句编码技术将文本句子转化为固定长度的向量表示。
- 通过计算向量之间的相似度，评估句子之间的语义相似性。
- 支持多种预训练模型作为嵌入生成器。

2. BERT模型训练与评估

文件: train_and_eval.py
功能:
- 支持四种BERT模型：BERT、MiniLM、mpnet、Roberta。
- 提供训练和测试的完整流程，包括数据加载、模型初始化、训练循环和评估指标计算。
- 输出模型性能指标。

环境配置

依赖库

Python 3.7+
PyTorch 1.7+
Transformers 4.0+
NumPy
Pandas
Scikit-learn

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
Datas		Datas
utils		utils
README.md		README.md
corpus_embedding.py		corpus_embedding.py
main.py		main.py
only_embedding.py		only_embedding.py
test_enviorment.py		test_enviorment.py
train_and_eval.py		train_and_eval.py
version1.py		version1.py
wikipedia_search_example.py		wikipedia_search_example.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

NLP 项目仓库

项目简介

核心功能

1. 句子嵌入与相似度计算

2. BERT模型训练与评估

环境配置

依赖库

About

Uh oh!

Releases

Packages

Uh oh!

Languages

raidenMEI10/NLP_program

Folders and files

Latest commit

History

Repository files navigation

NLP 项目仓库

项目简介

核心功能

1. 句子嵌入与相似度计算

2. BERT模型训练与评估

环境配置

依赖库

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages