python如何对长篇文章进行语义分块?
比如一篇小说上万字,对其进行分段分块,方便rag搜索
网友回复
在Python中对长篇文章进行语义分块是一个涉及自然语言处理(NLP)技术的任务,以下是分步实现的详细方法和代码示例:
一、核心思路语义分块的目标是将文本划分为 语义连贯的段落,而非简单的固定长度切割。主要方法分为两类:
基于规则的方法(快速但需领域适配)基于深度学习的方法(准确但计算成本较高)二、基于规则的分块方法1. 句子分割+上下文合并import spacy
def semantic_chunking_rule(text, max_chunk_size=500):
nlp = spacy.load("zh_core_web_sm") # 中文模型
doc = nlp(text)
chunks = []
current_chunk = []
current_length = 0
for sent in doc.sents:
sent_length = len(sent.text)
if current_length + sent_length <= max_chunk_size:
current_chunk.append(sent.text)
current_length += sent_length
else:
chunks.append(" ".join(current_chunk))
current_chunk = [sent.text]
current_length = sent_length
if current_chunk:
chunks.append(" ".join(current_chunk))
return chunks
# 使用示例
text = "长篇文章内容..."
chunks = semantic_chunking_rule(text) 2. 主题关键词分块 from collections import defaultdict
def keyword_based_chunking(text, keywords=["然而", "总之", "综上所述"]):
chunks = []
buffer = []
for paragraph in text.split("\n"):
buffer.append(paragraph)
if any(keyword in paragraph for keyword in keywords):
chunks.append("\n".join(buffer))
buffer = []
if buffer:
chunks.append("\n".join(buffer))
return chunks 三、基于深度学习的分块方法1. 使用Sentence Transformers计算相似度 from sentence_transformers import SentenceTransformer
import numpy as np
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
def semantic_split(te...点击查看剩余70%
如何写ai提示词让大模型根据主题生成视频脚本json,然后让Hyperframe渲染出mp4视频?
有哪些字体使用等宽编程代码展示?
如果让演唱会歌迷的上万手机屏幕和闪光灯一起被现场中控控制闪烁?
Midjourney为啥进军医疗领域了?
python如何跟踪足球比赛指定球员全场运动标注打聚光灯合成
如何将linux服务器的文件目录映射到windows电脑磁盘?
Docling 与 MarkItDown 两个库有啥不同?
豆包收费后国产其他ai软件也会跟进收费吗?
JPEG 与 HEIF图片格式区别?
centos7版本太旧无法安装python3.11,如何在docker中运行python3.11?


