markdown_optimize_by_llm

文档分块 语义分块：将文档分为三种类型：
- 标题：heading
- 段落（正文）：paragraph
- 表格：list token分割：对语义分割后的块列表通过embedding模型计算token，若小于max_token则将合并一起
逐块优化将以上分割后的块列表，根据其所属类型对每块文档进行优化

默认选择本地 embedding 模型 ./Qwen2.5-7B

代码中默认通过Ollama的api访问使用 qwen2.5:14b

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
__init__.py		__init__.py
main.py		main.py
main_test.py		main_test.py
optimize_chunk_with_context.py		optimize_chunk_with_context.py
preprocess_md.py		preprocess_md.py
requirement.py		requirement.py
split_document.py		split_document.py
split_into_semantic_blocks.py		split_into_semantic_blocks.py
split_long_sentence.py		split_long_sentence.py

Provide feedback