搜索

回答

句子相似度计算一共归类了以下几种方法：

编辑距离计算、杰卡德系数计算、TF 计算、TF-IDF 计算、Word2Vec 计算，首先我们说说编辑距离计算法。

编辑距离，英文叫做 Edit Distance，又称 Levenshtein 距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如我们有两个字符串：string 和 setting，如果我们想要把 string 转化为 setting，需要这么两步：

第一步，在 s 和 t 之间加入字符 e。

第二步，把 r 替换成 t。

所以它们的编辑距离差就是 2，这就对应着二者要进行转化所要改变(添加、替换、删除)的最小步数。

那么用 Python 怎样来实现呢，我们可以直接使用 distance 库：

可以使用

import distance

def edit_distance(s1, s2):
    return distance.levenshtein(s1, s2)

strings = [
'你在干什么',
'你在干啥子',
'你在做什么',
'你好啊',
'我喜欢吃香蕉'
]

target = '你在干啥'

results = list(filter(lambda x: edit_distance(x, target) <= 2, strings))

print(results)

网友回复

我知道答案，我要回答

我有问题

回答

veo与哦Omni免费体验网站哪有？

gemini免费api可以使用哪些模型和限制？

抖音版权中心提交的短剧被人搬运到其他平台如何维权？

大模型越来越像loop agent了，越来越耗时了

win10上powershell运行wsl报错Wsl/0x80072f7d如何解决？

人工智能技术属于科学范畴吗？

pi与claw及codex有啥不同？

有没有在电脑上运行iphone虚拟机的软件？

如何将电脑扬声器声音同步输出到另外一台手机或电脑上/

为啥图片和视频大模型的提示词支持json和python代码？