+
95
-

回答

句子相似度计算一共归类了以下几种方法:

编辑距离计算、杰卡德系数计算、TF 计算、TF-IDF 计算、Word2Vec 计算,首先我们说说编辑距离计算法。

编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如我们有两个字符串:string 和 setting,如果我们想要把 string 转化为 setting,需要这么两步:

第一步,在 s 和 t 之间加入字符 e。

第二步,把 r 替换成 t。

所以它们的编辑距离差就是 2,这就对应着二者要进行转化所要改变(添加、替换、删除)的最小步数。

那么用 Python 怎样来实现呢,我们可以直接使用 distance 库:

可以使用

import distance

def edit_distance(s1, s2):
return distance.levenshtein(s1, s2)

strings = [
'你在干什么',
'你在干啥子',
'你在做什么',
'你好啊',
'我喜欢吃香蕉'
]

target = '你在干啥'

results = list(filter(lambda x: edit_distance(x, target) <= 2, strings))

print(results)


网友回复

我知道答案,我要回答