搜索

回答

以下是使用FAISS结合OpenAI进行嵌入向量相似性查询的详细步骤和代码示例：

1. 环境准备

安装所需库：

pip install openai faiss-cpu numpy

2. 核心代码实现步骤1：获取OpenAI嵌入向量

import openai
import numpy as np

# 设置OpenAI API密钥
openai.api_key = "your-api-key"

def get_embeddings(texts, model="text-embedding-3-small"):
    """批量获取文本的嵌入向量"""
    response = openai.Embedding.create(
        input=texts,
        model=model
    )
    return [item['embedding'] for item in response['data']]

# 示例文本数据
texts = [
    "机器学习是人工智能的核心领域",
    "深度学习基于神经网络",
    "FAISS是高效的相似性搜索库",
    "OpenAI提供强大的文本嵌入模型"
]

# 获取嵌入向量（批量处理）
embeddings = get_embeddings(texts)
embeddings = np.array(embeddings).astype('float32')  # 转换为numpy数组

步骤2：构建FAISS索引

import faiss

# 初始化索引（使用内积度量，因OpenAI向量已归一化）
dimension = embeddings.shape[1]
index = faiss.IndexFlatIP(dimension)  # METRIC_INNER_PRODUCT
index.add(embeddings)

# 可选：高效索引（适合大数据集）
nlist = 50  # 聚类中心数
quantizer = faiss.IndexFlatIP(dimension)
index_ivf = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_INNER_PRODUCT)
index_ivf.train(embeddings)  # 训练索引
index_ivf.add(embeddings)

步骤3：执行相似性查询

def search_similar(query_text, k=3):
    """查询最相似的k个结果"""
    # 获取查询文本的嵌入向量
    query_embedding = get_embeddings([query_text])
    query_embedding = np.array(query_embedding).astype('float32')

    # 搜索索引
    distances, indices = index.search(query_embedding, k)
    return distances[0], indices[0]

# 示例查询
query = "人工智能技术"
distances, indices = search_similar(query)

# 输出结果
print("查询文本:", query)
for idx, distance in zip(indices, distances):
    print(f"相似度 {distance:.4f}: {texts[idx]}")

3. 输出示例

查询文本: 人工智能技术
相似度 0.8743: 机器学习是人工智能的核心领域
相似度 0.7652: OpenAI提供强大的文本嵌入模型
相似度 0.6211: 深度学习基于神经网络

4. 关键优化技巧批量处理嵌入生成

减少API调用次数，提升效率：

# 一次性处理所有文本（API支持批量输入）
embeddings = get_embeddings(texts)

索引持久化

保存和加载索引文件，避免重复计算：

# 保存索引
faiss.write_index(index, "faiss_index.index")

# 加载索引
index = faiss.read_index("faiss_index.index")

归一化处理

确保向量已归一化（OpenAI默认已处理）：

# 手动归一化（可选）
faiss.normalize_L2(embeddings)

参数调优

针对大数据集使用高效索引：

nlist = 100  # 聚类中心数（根据数据量调整）
index = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_INNER_PRODUCT)
index.train(embeddings)
index.add(embeddings)

5. 常见问题解答Q1: 如何处理大规模数据？使用IndexIVFFlat或IndexIVFPQ减少内存占用。分批次添加数据：

batch_size = 1000
for i in range(0, len(embeddings), batch_size):
    index.add(embeddings[i:i+batch_size])

Q2: 为什么相似度得分超过1？OpenAI的嵌入向量已归一化，理论上内积范围为[-1, 1]。若出现异常值，检查向量归一化逻辑。Q3: 如何提升搜索速度？调整nprobe参数（搜索的聚类中心数）：

index_ivf.nprobe = 10  # 默认1，增大可提升精度但降低速度

6. 完整代码示例

import openai
import numpy as np
import faiss

# 初始化OpenAI
openai.api_key = "your-api-key"

# 1. 获取嵌入向量
texts = [
    "机器学习是人工智能的核心领域",
    "深度学习基于神经网络",
    "FAISS是高效的相似性搜索库",
    "OpenAI提供强大的文本嵌入模型"
]
embeddings = np.array(get_embeddings(texts)).astype('float32')

# 2. 构建索引
dimension = embeddings.shape[1]
index = faiss.IndexFlatIP(dimension)
index.add(embeddings)

# 3. 查询函数
def semantic_search(query, k=3):
    query_embedding = np.array(get_embeddings([query])).astype('float32')
    distances, indices = index.search(query_embedding, k)
    return [(texts[idx], distances[0][i]) for i, idx in enumerate(indices[0])]

# 4. 执行查询
results = semantic_search("自然语言处理技术")
for text, score in results:
    print(f"相似度 {score:.4f}: {text}")

通过上述步骤，你可以高效地结合FAISS和OpenAI实现语义相似性搜索，适用于问答系统、推荐引擎等场景。

网友回复

我知道答案，我要回答

我有问题

私活外包

回答

开发了一个网站ai聊天助手

一个月开发一套类似coze的智能体平台

部署一套内网离线ai助理

私有ai助理开发

类似如家的租房app开发

h5手机端考试网站开发

开发一个短剧解锁剧集的小程序

我要开发一个酒类拍卖交易平台

开发艺术品拍卖收藏买画卖画h5网站

帮我做个数字货币交易所网站

列式json与传统json有啥不同，如何相互转换？

在哪可以查看任意域名网站的每天的流量？

splats是什么格式文件？

有没有开源包含骨骼的玩具机器人来进行算法模拟驱动行走空翻？

有没有go编写的ai agent框架？

Vosk 和 Whisper 两款语音识别模型有啥不同，哪个更好用？

浏览器中如何将gif动画转成mp4视频保存本地？

three如何实现本地三维模型与贴图图标合并成三维模型导出？

jspdf.js插件如何加载自定义中文字体生成pdf文件？

有没有可导出word或pdf的在线富文本编辑器js插件？