智能客服政策问答项目

1. 项目介绍

使用标准langchain流程：将数据通过bge向量模型导入faiss库中，使用服务时向量化query，然后在库中进行匹配，返回相似的文本片段，拼接到prompt中使用大模型chatglm3返回答案
原始数据为html格式，且为政策数据，最终选择使用树结构进行处理：将所有文本及表格提取出来，按照换行符及句号隔开。使用正则判断是否为标题，将每一句话/每一节点使用算法进行拼接，判断之间的关系。最终得到每一个节点的父节点和子节点。将父节点和当前节点进行拼接后再向量化导入库中，其他相关数据：content，parents，children作为每一条元数据。当在库中进行搜索时，返回所有信息，且对所有结果进行去重（如相同的父节点进行拼接），然后也将子节点进行适当拼接，最后使用大模型返回答案
mix_search_wenda_dev.tar.gz 中还包含混合检索流程：对query提取关键词，对所有节点提取关键词，通过匹配的关键词数量决定相似度大小。实现方式是通过维护两个映射：kw_content_hash_map和content_hash_metadata_map。其中content_hash是将每个节点进行哈希过的唯一标识值，作为中间变量连接关键词和节点。最后将关键词相似度和向量相似度的范围缩到0-1区间，使用权重融合得到最终相似度。选择top_k个最高相似度的节点进行去重，拼接。
项目在XXX.XXX.XXX.XXX服务器上

![截屏2023-12-07 16.35.09](./images/截屏2023-12-07 16.35.09.png)

![截屏2023-12-07 16.34.28](./images/截屏2023-12-07 16.34.28.png)

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
images		images
mix_search_qa		mix_search_qa
.gitattributes		.gitattributes
README.md		README.md