Auf dieser Seite wird beschrieben, wie Sie mit den ANN-Distanzfunktionen (Approximate Nearest Neighbor) Vektoreinbettungen finden und abfragen.
Bei kleinen Datensätzen können Sie K-Nearest Neighbors (KNN) verwenden, um die genauen k-nächsten Vektoren zu finden. Mit zunehmender Größe des Datensatzes steigen jedoch auch die Latenz und die Kosten einer KNN-Suche. Mit ANN können Sie die ungefähren k-nächsten Nachbarn mit deutlich geringerer Latenz und geringeren Kosten ermitteln.
Bei einer ANN-Suche sind die k zurückgegebenen Vektoren nicht die tatsächlichen k nächsten Nachbarn, da bei der ANN-Suche ungefähre Distanzen berechnet werden und möglicherweise nicht alle Vektoren im Datensatz berücksichtigt werden. Gelegentlich werden einige Vektoren zurückgegeben, die nicht zu den k nächsten Nachbarn gehören. Dies wird als Recall-Verlust bezeichnet. Wie viel Trefferquotenverlust für Sie akzeptabel ist, hängt vom Anwendungsfall ab. In den meisten Fällen ist es jedoch ein akzeptabler Kompromiss, etwas Trefferquote im Gegenzug für eine verbesserte Datenbankleistung zu verlieren.
Weitere Informationen zu den in Spanner unterstützten Funktionen für die ungefähre Distanz finden Sie auf den folgenden Referenzseiten für Ihren Datenbankdialekt:
- GoogleSQL
- PostgreSQL
Vektoreinbettungen abfragen
Cloud Spanner beschleunigt die Suche nach ungefähren nächsten Nachbarn (Approximate Nearest Neighbor, ANN) mithilfe eines Vektorindex. Sie können einen Vektorindex verwenden, um Vektoreinbettungen abzufragen. Wenn Sie Vektoreinbettungen abfragen möchten, müssen Sie zuerst einen Vektorindex erstellen. Anschließend können Sie eine der drei Funktionen für die ungefähre Distanz verwenden, um den ANN zu ermitteln.
Für die Verwendung der Näherungsfunktionen für die Distanz gelten die folgenden Einschränkungen:
- Die Funktion für die ungefähre Distanz muss den Abstand zwischen einer Spalte mit Einbettungen und einem konstanten Ausdruck (z. B. einem Parameter oder einem Literal) berechnen.
- Die Ausgabe der Funktion für die ungefähre Distanz muss in einer
ORDER BY-Klausel als einziger Sortierschlüssel verwendet werden und nach derORDER BYmuss eineLIMITangegeben werden. - In der Abfrage müssen Zeilen, die nicht indexiert sind, explizit herausgefiltert werden. In den meisten Fällen muss die Abfrage eine
WHERE <column_name> IS NOT NULL-Klausel enthalten, die der Vektorindexdefinition entspricht, es sei denn, die Spalte ist in der Tabellendefinition bereits alsNOT NULLgekennzeichnet.
Eine detaillierte Liste der Einschränkungen finden Sie auf der Referenzseite zur Funktion für die ungefähre Distanz.
Beispiele
Angenommen, Sie haben eine Documents-Tabelle mit einer DocEmbedding-Spalte mit vorab berechneten Texteinbettungen aus der DocContents-Spalte mit Byte-Daten und einer NullableDocEmbedding-Spalte, die aus anderen Quellen stammt und möglicherweise Nullwerte enthält.
GoogleSQL
CREATE TABLE Documents (
UserId INT64 NOT NULL,
DocId INT64 NOT NULL,
Author STRING(1024),
DocContents BYTES(MAX),
DocEmbedding ARRAY<FLOAT32> NOT NULL,
NullableDocEmbedding ARRAY<FLOAT32>,
WordCount INT64
) PRIMARY KEY (UserId, DocId);
PostgreSQL
CREATE TABLE documents (
user_id bigint not null,
doc_id bigint not null,
author varchar(1024),
doc_contents bytea,
doc_embedding float4[] not null,
nullable_doc_embedding float4[],
word_count bigint,
PRIMARY KEY (user_id, doc_id)
);
So suchen Sie nach den 100 Vektoren, die [1.0, 2.0, 3.0] am nächsten sind:
GoogleSQL
SELECT DocId
FROM Documents
WHERE WordCount > 1000
ORDER BY APPROX_EUCLIDEAN_DISTANCE(
ARRAY<FLOAT32>[1.0, 2.0, 3.0], DocEmbedding,
options => JSON '{"num_leaves_to_search": 10}')
LIMIT 100
PostgreSQL
SELECT doc_id
FROM documents
WHERE word_count > 1000
ORDER BY spanner.approx_euclidean_distance(
ARRAY[1.0, 2.0, 3.0]::float4[], doc_embedding,
options=>jsonb'{"num_leaves_to_search": 10}'
)
LIMIT 100;
Wenn die Spalte für Einbettungen Nullwerte enthalten kann:
GoogleSQL
SELECT DocId
FROM Documents
WHERE NullableDocEmbedding IS NOT NULL AND WordCount > 1000
ORDER BY APPROX_EUCLIDEAN_DISTANCE(
ARRAY<FLOAT32>[1.0, 2.0, 3.0], NullableDocEmbedding,
options => JSON '{"num_leaves_to_search": 10}')
LIMIT 100
PostgreSQL
SELECT doc_id
FROM documents
WHERE nullable_doc_embedding IS NOT NULL AND word_count > 1000
ORDER BY spanner.approx_euclidean_distance(
ARRAY[1.0, 2.0, 3.0]::float4[], nullable_doc_embedding,
options=>jsonb'{"num_leaves_to_search": 10}'
)
LIMIT 100;
Nächste Schritte
Weitere Informationen zu Indexanweisungen für GoogleSQL
VECTOR INDEXund PostgreSQLINDEXErste Schritte mit der Spanner-Vektorsuche enthält ein Schritt-für-Schritt-Beispiel für die Verwendung von ANN.