搜索

python如何对长篇文章进行语义分块？

python

比如一篇小说上万字，对其进行分段分块，方便rag搜索

网友回复

在Python中对长篇文章进行语义分块是一个涉及自然语言处理（NLP）技术的任务，以下是分步实现的详细方法和代码示例：

一、核心思路

语义分块的目标是将文本划分为 语义连贯的段落，而非简单的固定长度切割。主要方法分为两类：

基于规则的方法（快速但需领域适配）基于深度学习的方法（准确但计算成本较高）二、基于规则的分块方法1. 句子分割+上下文合并

import spacy

def semantic_chunking_rule(text, max_chunk_size=500):
    nlp = spacy.load("zh_core_web_sm")  # 中文模型
    doc = nlp(text)

    chunks = []
    current_chunk = []
    current_length = 0

    for sent in doc.sents:
        sent_length = len(sent.text)
        if current_length + sent_length <= max_chunk_size:
            current_chunk.append(sent.text)
            current_length += sent_length
        else:
            chunks.append(" ".join(current_chunk))
            current_chunk = [sent.text]
            current_length = sent_length

    if current_chunk:
        chunks.append(" ".join(current_chunk))

    return chunks

# 使用示例
text = "长篇文章内容..."
chunks = semantic_chunking_rule(text)

2. 主题关键词分块

from collections import defaultdict

def keyword_based_chunking(text, keywords=["然而", "总之", "综上所述"]):
    chunks = []
    buffer = []

    for paragraph in text.split("\n"):
        buffer.append(paragraph)
        if any(keyword in paragraph for keyword in keywords):
            chunks.append("\n".join(buffer))
            buffer = []

    if buffer:
        chunks.append("\n".join(buffer))

    return chunks

三、基于深度学习的分块方法1. 使用Sentence Transformers计算相似度

from sentence_transformers import SentenceTransformer
import numpy as np

model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

def semantic_split(te...

点击查看剩余70%

by python

我知道答案，我要回答

我有问题

私活外包

python如何对长篇文章进行语义分块？

开发了一个网站ai聊天助手

一个月开发一套类似coze的智能体平台

部署一套内网离线ai助理

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

DLNA与UPnP的区别和不同？

苏超自建抢票app，通过先预约再抽签化解高并发抢票？

python如何让给电脑在局域网中伪装成电视接收手机的投屏图片视频播放？

如何结合python+js如何自己的视频编码与加密播放直播？

python如何在电脑上通过局域网将本地视频或m3u8视频投屏电视播放？

腾讯视频爱奇艺优酷vip电影电视剧视频如何通过python绕过vip收费直接观看？

有没有可免费观看全球电视台直播m3u8地址url的合集？

有没有实现观影自由的免vip影视苹果 CMS V10 API的可用url？

python如何实时检测电脑usb插入检测报警？

如何判断真人操作的鼠标移动直线轨迹与机器操作的轨迹？