本页面介绍了如何使用 AlloyDB for PostgreSQL 中的 IVFFlat
索引,通过存储的嵌入生成索引和查询嵌入。如需详细了解如何存储嵌入,请参阅存储向量嵌入。
准备工作
在开始创建索引之前,您必须完成以下前提条件。
安装了基于
pgvector
的vector
扩展程序版本0.5.0
或更高版本(由 Google 针对 AlloyDB 进行扩展)。CREATE EXTENSION IF NOT EXISTS vector;
创建 IVFFlat
索引
原生 pgvector
还提供了一个名为 IVFFlat
的 IVF
索引版本,与 hnsw
索引相比,它可以缩短构建时间并减少内存占用。
如需创建 IVFFlat
索引,请完成以下步骤:
CREATE INDEX INDEX_NAME ON TABLE
USING ivfflat (EMBEDDING_COLUMN DISTANCE_FUNCTION)
WITH (lists = LIST_COUNT);
替换以下内容:
INDEX_NAME
:要创建的索引的名称,例如my-ivf-index
。TABLE
:要向其中添加索引的表。EMBEDDING_COLUMN
:用于存储vector
数据的列。DISTANCE_FUNCTION
:要与此索引一起使用的距离函数。请按以下方式之一操作:L2 距离:
vector_l2_ops
内积:
vector_ip_ops
余弦距离:
vector_cosine_ops
LIST_COUNT
:要与此索引一起使用的列表的数量。如需详细了解如何确定此值,请参阅对 IVFFlat 索引进行调优。如需在使用
real[]
数据类型(而非vector
)的嵌入列上创建此索引,请将该列转换为vector
数据类型:
CREATE INDEX INDEX_NAME ON TABLE
USING ivfflat (CAST(EMBEDDING_COLUMN AS vector(DIMENSIONS)))'}} DISTANCE_FUNCTION)
WITH (lists = LIST_COUNT);
将 DIMENSIONS
替换为嵌入列的维度宽度。如需详细了解如何查找维度,请参阅向量函数中的 vector_dims
函数。
如需查看索引编制进度,请使用 pg_stat_progress_create_index
视图:
SELECT * FROM pg_stat_progress_create_index;
phase
列会显示索引创建的当前状态。
如需对索引进行调优以实现目标召回率和 QPS 平衡,请参阅对 IVFFlat
索引进行调优。
运行查询
在将嵌入存储到数据库中并为其编制索引后,您可以开始使用 pgvector
查询功能进行查询。
如需查找嵌入向量的语义最近邻,您可以运行以下示例查询,其中设置了在创建索引期间使用的相同距离函数。
SELECT * FROM TABLE
ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
LIMIT ROW_COUNT
替换以下内容:
TABLE
:包含要与文本进行比较的嵌入的表。INDEX_NAME
:要使用的索引的名称,例如my-scann-index
。EMBEDDING_COLUMN
:包含存储的嵌入的列。DISTANCE_FUNCTION_QUERY
:要用于此查询的距离函数。根据创建索引时使用的距离函数,选择以下各项之一:L2 距离:
<->
内积:
<#>
余弦距离:
<=>
EMBEDDING
:您要为其查找存储的语义最近邻的嵌入向量。ROW_COUNT
:要返回的行数。如果您只想获得单个最佳匹配项,请指定
1
。
如需详细了解其他查询示例,请参阅查询。
您还可以使用 embedding()
函数将文本转换为向量。您可以将向量应用于某个 pgvector
最近邻运算符(适用于 L2 距离的 <->
),以查找具有语义最相似的嵌入的数据库行。
由于 embedding()
会返回 real
数组,因此您必须明确将 embedding()
调用转换为 vector
,以便将这些值与 pgvector
运算符结合使用。