Python AI 应用开发：Embedding 向量表征与相似度计算

Python AI 应用开发：Embedding 向量表征与相似度计算 | 极客日志

作用	说明
语义搜索	搜索'轻便的户外背包'也能匹配'登山用小容量背包'
自然语言处理	搜索引擎（理解你的查询意图）、机器翻译、智能客服、情感分析。
图像识别	将图片转换为向量，然后寻找相似的图片。
推荐系统	根据用户兴趣向量推荐相似内容
RAG 基础	检索最相关的知识片段，供大模型参考生成答案

pip install --upgrade numpy openai

因素	说明
任务性质	匹配任务需求 (问答、搜索、聚类等)
领域特性	通用 vs 专业领域 (医学、法律等)
多语言支持	需处理多语言内容时考虑
维度	权衡信息丰富度与计算成本
许可条款	开源 vs 专有服务
最大 Tokens	适合的上下文窗口大小

import os
from openai import OpenAI

def _get_client():
    api_key = os.getenv("EMBEDDING_API_KEY")
    base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
    return OpenAI(api_key=api_key, base_url=base_url)

def get_embedding(text, model="text-embedding-v4"):
    """获取 embedding 向量，默认使用 text-embedding-v4"""
    client = _get_client()
    # 判断 text 是不是一个列表
    if isinstance(text, list):
        return client.embeddings.create(input=text, model=model)
    text = text.replace("\n", " ")
    return client.embeddings.create(input=[text], model=model)

from common import model_utils

if __name__ == "__main__":
    text = "今天天气不错"
    response = model_utils.get_embedding(text)
    print(response.model_dump_json())
    # [[-0.05972001701593399, -0.039419323205947876, 0.026300963014364243]]
    result = response.data[0].embedding
    print(result[:3])  # 打印前三个
    # 默认维度为 1024
    print(len(result))

import numpy as np
from numpy import dot

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
result = dot(a, b)  # (1*4) + (2*5) + (3*6) = 4 + 10 + 18 = 32
print(result)

from numpy.linalg import norm

a = np.array([3, 4])
dist = norm(a)  # sqrt(3^2 + 4^2) = sqrt(9 + 16) = 5.0
print(dist)

import numpy as np
from numpy import dot
from numpy.linalg import norm

def cosine_similarity(v1, v2):
    return dot(v1, v2) / (norm(v1) * norm(v2))

# 示例：比较两个文档向量或嵌入向量
vec1 = np.array([1, 1, 0])
vec2 = np.array([1, 0, 1])
similarity = cosine_similarity(vec1, vec2)
print(f"相似度：{similarity:.4f}")

def l2(a, b):
    '''欧氏距离 -- 越小越相似'''
    x = np.asarray(a) - np.asarray(b)
    return norm(x)

text1 = "Spring AI 帮助开发者快速集成人工智能功能"
text2 = "Spring AI 是一个用于构建 AI 应用的框架"
text3 = "Java 是一种跨平台的编程语言"
text_list = [text1, text2, text3]

# 获取向量
response_data = model_utils.get_embedding(text_list).data
# 将 response_data 中的 embedding 提取成一个二维数组
embedding_list = [data.embedding for data in response_data]

# 余弦相似度对比
print(f"text1 与 text2 余弦距离:{model_utils.cosine_similarity(embedding_list[0], embedding_list[1])}")
print(f"text1 与 text3 余弦距离:{model_utils.cosine_similarity(embedding_list[0], embedding_list[2])}")
print(f"text2 与 text3 余弦距离:{model_utils.cosine_similarity(embedding_list[1], embedding_list[2])}")
print("=" * 50)

# 欧式距离对比
print(f"text1 与 text2 欧式距离:{model_utils.l2(embedding_list[0], embedding_list[1])}")
print(f"text1 与 text3 欧式距离:{model_utils.l2(embedding_list[0], embedding_list[2])}")
print(f"text2 与 text3 欧式距离:{model_utils.l2(embedding_list[1], embedding_list[2])}")

text1 与 text2 余弦距离:0.8747069083399994
text1 与 text3 余弦距离:0.31450617230698164
text2 与 text3 余弦距离:0.373276450524592
==========================================
text1 与 text2 欧式距离:0.5005858686858007
text1 与 text3 欧式距离:1.1708918177413983
text2 与 text3 欧式距离:1.1195745555537098

数据库	类型	核心特点
Milvus	开源 + 云	功能全面、支持多种索引和分布式部署，适合大规模生产环境。
Pinecone	商业 SaaS	全托管、API 简单易用，适合快速开发，但不开源、需联网。
Weaviate	开源 + 企业版	内置语义搜索与知识图谱能力，支持 GraphQL，上手容易。
Qdrant	开源 + 云	性能优秀、支持过滤和集群，Rust 编写，部署简单。
Chroma	开源	轻量级，专为 LLM 应用设计，与 LangChain 深度集成，适合原型或小项目。
FAISS	开源库（非数据库）	Meta 出品，高效向量检索，但无持久化或服务功能，常用于研究或嵌入其他系统。
Vespa	开源	Yahoo 出品，支持实时搜索、排序和向量混合查询，适合复杂业务逻辑。
Redis（带向量模块）	开源 + 商业	在 Redis 中添加向量搜索能力，适合已有 Redis 架构、要求低延迟的场景。

pip install chromadb

import chromadb
client = chromadb.EphemeralClient()

import chromadb
client = chromadb.PersistentClient(path="/path/to/save/to")

import chromadb
from chromadb.utils import embedding_functions

if __name__ == "__main__":
    # 数据保存至本地目录
    client = chromadb.PersistentClient(path="./chroma")
    # 默认情况下，Chroma 使用 DefaultEmbeddingFunction，它是基于 Sentence Transformers 的 MiniLM-L6-v2 模型
    default_ef = embedding_functions.DefaultEmbeddingFunction()
    collection = client.create_collection(
        name="my_collection",
        configuration={
            # HNSW 索引算法，基于图的近似最近邻搜索算法（Approximate Nearest Neighbor，ANN）
            "hnsw": {
                "space": "cosine",  # 指定余弦相似度计算
                "ef_search": 100,
                "ef_construction": 100,
                "max_neighbors": 16,
                "num_threads": 4
            },
            # 指定向量模型
            "embedding_function": default_ef
        }
    )

# 如果集合不存在，则创建
collection = client.get_collection(name="my_collection")
if collection is None:
    # 会自动下载 内置模型 all-MiniLM-L6-v2
    collection = client.create_collection(name="my_collection")

collection = client.get_collection(name="my_collection")
print(collection.peek())  # returns a list of the first 10 items in the collection.
print(collection.count())  # returns the number of items in the collection.
# modify()  # rename the collection

client.delete_collection(name="my_collection")

# 方式 1：自动生成向量（使用集合指定的嵌入模型）
collection.add(
    # 文档的集合
    documents=["RAG 是一种检索增强生成技术", "向量数据库存储文档的嵌入表示", "在机器学习领域，智能体（Agent）通常指能够感知环境、做出决策并采取行动以实现特定目标的实体"],
    # 文档元数据信息
    metadatas=[{"source": "RAG"}, {"source": "向量数据库"}, {"source": "Agent"}],
    # id
    ids=["id1", "id2", "id3"]
)

# 方式 2：手动传入预计算向量（实际开发中推荐使用）
# collection.add(
#     embeddings=get_embeddings("RAG 是什么？"),
#     documents=["文本 1", "文本 2"],
#     ids=["id3", "id4"]
# )

# 更新集合中的数据：
collection.update(ids=["id1"], documents=["RAG 是一种检索增强生成技术，在智能客服系统中大量使用"])
# 删除集合中的数据：
collection.delete(ids=["id3"])

results = collection.query(
    query_texts=["RAG 是什么？"],
    n_results=3,  # 结果指定为 3 个。
    # where={"source": "RAG"},  # 按元数据过滤
    # where_document={"$contains": "检索增强生成"}  # 按文档内容过滤
)
print(results)

Python AI 应用开发：Embedding 向量表征与相似度计算

1. 向量表征 (Vector Representation)

1.1 通俗理解：AI 的'语义坐标系'

1.2 数学/几何中的向量

1.3 计算机科学中的向量

1.4 向量 Embedding

1.5 向量嵌入是如何工作的？（以词嵌入为例）

1.6 Embedding 的核心价值

2. 向量间相似度计算

2.1 实验环境准备

2.2 Embedding Model

2.2.1 主流嵌入模型分类

2.3 通用包

2.4 文本转向量

2.5 距离计算

2.5.1 点积 (dot)

2.5.2 范数/长度 (norm)

2.5.3 余弦相似度计算

2.5.4 欧式距离

2.6 相似度对比

3. 向量数据库

3.1 向量数据库与传统数据库

3.2 Chroma 向量数据库

3.2.1 安装 Chroma

3.2.2 内存运行模式

3.2.3 持久化运行模式

3.2.4 Chroma 操作流程

更多推荐文章

相关免费在线工具

Python AI 应用开发：Embedding 向量表征与相似度计算

1. 向量表征 (Vector Representation)

1.1 通俗理解：AI 的'语义坐标系'

1.2 数学/几何中的向量

1.3 计算机科学中的向量

1.4 向量 Embedding

1.5 向量嵌入是如何工作的？（以词嵌入为例）

1.6 Embedding 的核心价值

2. 向量间相似度计算

2.1 实验环境准备

2.2 Embedding Model

2.2.1 主流嵌入模型分类

2.3 通用包

2.4 文本转向量

2.5 距离计算

2.5.1 点积 (dot)

2.5.2 范数/长度 (norm)

2.5.3 余弦相似度计算

2.5.4 欧式距离

2.6 相似度对比

3. 向量数据库

3.1 向量数据库与传统数据库

3.2 Chroma 向量数据库

3.2.1 安装 Chroma

3.2.2 内存运行模式

3.2.3 持久化运行模式

3.2.4 Chroma 操作流程

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具