python如何对长篇文章进行语义分块?
比如一篇小说上万字,对其进行分段分块,方便rag搜索
网友回复
在Python中对长篇文章进行语义分块是一个涉及自然语言处理(NLP)技术的任务,以下是分步实现的详细方法和代码示例:
一、核心思路语义分块的目标是将文本划分为 语义连贯的段落,而非简单的固定长度切割。主要方法分为两类:
基于规则的方法(快速但需领域适配)基于深度学习的方法(准确但计算成本较高)二、基于规则的分块方法1. 句子分割+上下文合并import spacy def semantic_chunking_rule(text, max_chunk_size=500): nlp = spacy.load("zh_core_web_sm") # 中文模型 doc = nlp(text) chunks = [] current_chunk = [] current_length = 0 for sent in doc.sents: sent_length = len(sent.text) if current_length + sent_length <= max_chunk_size: current_chunk.append(sent.text) current_length += sent_length else: chunks.append(" ".join(current_chunk)) current_chunk = [sent.text] current_length = sent_length if current_chunk: chunks.append(" ".join(current_chunk)) return chunks # 使用示例 text = "长篇文章内容..." chunks = semantic_chunking_rule(text)2. 主题关键词分块
from collections import defaultdict def keyword_based_chunking(text, keywords=["然而", "总之", "综上所述"]): chunks = [] buffer = [] for paragraph in text.split("\n"): buffer.append(paragraph) if any(keyword in paragraph for keyword in keywords): chunks.append("\n".join(buffer)) buffer = [] if buffer: chunks.append("\n".join(buffer)) return chunks三、基于深度学习的分块方法1. 使用Sentence Transformers计算相似度
from sentence_transformers import SentenceTransformer import numpy as np model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2') def semantic_split(te...
点击查看剩余70%
DLNA与UPnP的区别和不同?
苏超自建抢票app,通过先预约再抽签化解高并发抢票?
python如何让给电脑在局域网中伪装成电视接收手机的投屏图片视频播放?
如何结合python+js如何自己的视频编码与加密播放直播?
python如何在电脑上通过局域网将本地视频或m3u8视频投屏电视播放?
腾讯视频爱奇艺优酷vip电影电视剧视频如何通过python绕过vip收费直接观看?
有没有可免费观看全球电视台直播m3u8地址url的合集?
有没有实现观影自由的免vip影视苹果 CMS V10 API的可用url?
python如何实时检测电脑usb插入检测报警?
如何判断真人操作的鼠标移动直线轨迹与机器操作的轨迹?