Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ungefähre nächste Nachbarn (Approximate Nearest Neighbors, ANN) und Abfragevektoreinbettungen finden

Auf dieser Seite wird beschrieben, wie Sie mit den ANN-Distanzfunktionen (Approximate Nearest Neighbor) Vektoreinbettungen finden und abfragen.

Bei kleinen Datensätzen können Sie K-Nearest Neighbors (KNN) verwenden, um die genauen k-nächsten Vektoren zu finden. Mit zunehmender Größe des Datensatzes steigen jedoch auch die Latenz und die Kosten einer KNN-Suche. Mit ANN können Sie die ungefähren k-nächsten Nachbarn mit deutlich geringerer Latenz und geringeren Kosten ermitteln.

Bei einer ANN-Suche sind die k zurückgegebenen Vektoren nicht die tatsächlichen k nächsten Nachbarn, da bei der ANN-Suche ungefähre Distanzen berechnet werden und möglicherweise nicht alle Vektoren im Datensatz berücksichtigt werden. Gelegentlich werden einige Vektoren zurückgegeben, die nicht zu den k nächsten Nachbarn gehören. Dies wird als Recall-Verlust bezeichnet. Wie viel Trefferquotenverlust für Sie akzeptabel ist, hängt vom Anwendungsfall ab. In den meisten Fällen ist es jedoch ein akzeptabler Kompromiss, etwas Trefferquote im Gegenzug für eine verbesserte Datenbankleistung zu verlieren.

Weitere Informationen zu den in Spanner unterstützten Funktionen für die ungefähre Distanz finden Sie auf den folgenden Referenzseiten für Ihren Datenbankdialekt:

GoogleSQL
PostgreSQL

Vektoreinbettungen abfragen

Cloud Spanner beschleunigt die Suche nach ungefähren nächsten Nachbarn (Approximate Nearest Neighbor, ANN) mithilfe eines Vektorindex. Sie können einen Vektorindex verwenden, um Vektoreinbettungen abzufragen. Wenn Sie Vektoreinbettungen abfragen möchten, müssen Sie zuerst einen Vektorindex erstellen. Anschließend können Sie eine der drei Funktionen für die ungefähre Distanz verwenden, um den ANN zu ermitteln.

Für die Verwendung der Näherungsfunktionen für die Distanz gelten die folgenden Einschränkungen:

Die Funktion für die ungefähre Distanz muss den Abstand zwischen einer Spalte mit Einbettungen und einem konstanten Ausdruck (z. B. einem Parameter oder einem Literal) berechnen.
Die Ausgabe der Funktion für die ungefähre Distanz muss in einer ORDER BY-Klausel als einziger Sortierschlüssel verwendet werden und nach der ORDER BY muss eine LIMIT angegeben werden.
In der Abfrage müssen Zeilen, die nicht indexiert sind, explizit herausgefiltert werden. In den meisten Fällen muss die Abfrage eine WHERE <column_name> IS NOT NULL-Klausel enthalten, die der Vektorindexdefinition entspricht, es sei denn, die Spalte ist in der Tabellendefinition bereits als NOT NULL gekennzeichnet.

Eine detaillierte Liste der Einschränkungen finden Sie auf der Referenzseite zur Funktion für die ungefähre Distanz.

Beispiele

Angenommen, Sie haben eine Documents-Tabelle mit einer DocEmbedding-Spalte mit vorab berechneten Texteinbettungen aus der DocContents-Spalte mit Byte-Daten und einer NullableDocEmbedding-Spalte, die aus anderen Quellen stammt und möglicherweise Nullwerte enthält.

GoogleSQL

CREATE TABLE Documents (
  UserId       INT64 NOT NULL,
  DocId        INT64 NOT NULL,
  Author       STRING(1024),
  DocContents  BYTES(MAX),
  DocEmbedding ARRAY<FLOAT32> NOT NULL,
  NullableDocEmbedding ARRAY<FLOAT32>,
  WordCount    INT64
) PRIMARY KEY (UserId, DocId);

PostgreSQL

CREATE TABLE documents (
  user_id      bigint not null,
  doc_id       bigint not null,
  author       varchar(1024),
  doc_contents bytea,
  doc_embedding float4[] not null,
  nullable_doc_embedding float4[],
  word_count   bigint,
  PRIMARY KEY (user_id, doc_id)
);

So suchen Sie nach den 100 Vektoren, die [1.0, 2.0, 3.0] am nächsten sind:

GoogleSQL

SELECT DocId
FROM Documents
WHERE WordCount > 1000
ORDER BY APPROX_EUCLIDEAN_DISTANCE(
  ARRAY<FLOAT32>[1.0, 2.0, 3.0], DocEmbedding,
  options => JSON '{"num_leaves_to_search": 10}')
LIMIT 100

PostgreSQL

SELECT doc_id
FROM documents
WHERE word_count > 1000
ORDER BY spanner.approx_euclidean_distance(
  ARRAY[1.0, 2.0, 3.0]::float4[], doc_embedding,
  options=>jsonb'{"num_leaves_to_search": 10}'
)
LIMIT 100;

Wenn die Spalte für Einbettungen Nullwerte enthalten kann:

GoogleSQL

SELECT DocId
FROM Documents
WHERE NullableDocEmbedding IS NOT NULL AND WordCount > 1000
ORDER BY APPROX_EUCLIDEAN_DISTANCE(
  ARRAY<FLOAT32>[1.0, 2.0, 3.0], NullableDocEmbedding,
  options => JSON '{"num_leaves_to_search": 10}')
LIMIT 100

PostgreSQL

SELECT doc_id
FROM documents
WHERE nullable_doc_embedding IS NOT NULL AND word_count > 1000
ORDER BY spanner.approx_euclidean_distance(
  ARRAY[1.0, 2.0, 3.0]::float4[], nullable_doc_embedding,
  options=>jsonb'{"num_leaves_to_search": 10}'
)
LIMIT 100;

Nächste Schritte

Weitere Informationen zu Spanner-Vektorindexen
GoogleSQL – PostgreSQL
Weitere Informationen zu Indexanweisungen für GoogleSQL VECTOR INDEX und PostgreSQL INDEX
Weitere Informationen zu Best Practices für Vektorindexe
Erste Schritte mit der Spanner-Vektorsuche enthält ein Schritt-für-Schritt-Beispiel für die Verwendung von ANN.

Ungefähre nächste Nachbarn (Approximate Nearest Neighbors, ANN) und Abfragevektoreinbettungen finden Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Vektoreinbettungen abfragen

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

GoogleSQL

PostgreSQL

Nächste Schritte

Ungefähre nächste Nachbarn (Approximate Nearest Neighbors, ANN) und Abfragevektoreinbettungen finden