Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

IVFFLAT-Index erstellen

Auf dieser Seite wird beschrieben, wie Sie gespeicherte Einbettungen verwenden, um Indexe zu generieren und Einbettungen mit einem IVFFlat-Index mit AlloyDB abzufragen. Weitere Informationen zum Speichern von Einbettungen finden Sie unter Vektoreinbettungen speichern.

Hinweis

Bevor Sie mit dem Erstellen von Indexen beginnen können, müssen Sie die folgenden Voraussetzungen erfüllen.

Einbettungsvektoren wurden einer Tabelle in Ihrer AlloyDB-Datenbank hinzugefügt.
Die vector-Erweiterungsversion 0.5.0 oder höher, die auf pgvector basiert und von Google für AlloyDB erweitert wurde, ist installiert.
```
CREATE EXTENSION IF NOT EXISTS vector;
```

`IVFFlat`-Index erstellen

Stock pgvector umfasst auch eine Version des IVF-Index mit dem Namen IVFFlat die eine kürzere Build-Zeit und einen geringeren Speicherbedarf als der hnsw-Index hat.

So erstellen Sie einen IVFFlat-Index:

CREATE INDEX INDEX_NAME ON TABLE
  USING ivfflat (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (lists = LIST_COUNT);

Ersetzen Sie Folgendes:

INDEX_NAME: Der Name des Index, den Sie erstellen möchten, z. B. my-ivf-index.
TABLE: Die Tabelle, der der Index hinzugefügt werden soll.
EMBEDDING_COLUMN: eine Spalte, in der vector-Daten gespeichert werden.
DISTANCE_FUNCTION: Die Distanzfunktion, die für diesen Index verwendet werden soll. Wählen Sie eine der folgenden Optionen aus:
- L2-Distanz: vector_l2_ops
- Inneres Produkt:vector_ip_ops
- Kosinus-Distanz: vector_cosine_ops
LIST_COUNT: Die Anzahl der Listen, die mit diesem Index verwendet werden sollen. Weitere Informationen dazu, wie Sie diesen Wert festlegen, finden Sie unter IVFFlat-Index abstimmen.

Wenn Sie diesen Index für eine Einbettungsspalte erstellen möchten, die den Datentyp real[] anstelle von vector verwendet, wandeln Sie die Spalte in den Datentyp vector um:

CREATE INDEX INDEX_NAME ON TABLE
  USING ivfflat (CAST(EMBEDDING_COLUMN AS vector(DIMENSIONS)))'}} DISTANCE_FUNCTION)
  WITH (lists = LIST_COUNT);

Ersetzen Sie DIMENSIONS durch die dimensionale Breite der Einbettungsspalte. Weitere Informationen zum Ermitteln der Dimensionen finden Sie unter der Funktion vector_dims in Vektorfunktionen.

Verwenden Sie zum Anzeigen des Indexierungsfortschritts die pg_stat_progress_create_index-Ansicht:

SELECT * FROM pg_stat_progress_create_index;

In der Spalte phase sehen Sie den aktuellen Status der Indexerstellung.

Informationen zum Abstimmen des Index für ein bestimmtes Gleichgewicht zwischen Recall und QPS finden Sie unter IVFFlat-Index abstimmen.

Abfrage ausführen

Nachdem Sie die Einbettungen in Ihrer Datenbank gespeichert und indexiert haben, können Sie mit der pgvector Abfragefunktion Abfragen starten.

Wenn Sie die semantisch nächsten Nachbarn für einen Einbettungsvektor finden möchten, können Sie die folgende Beispielabfrage ausführen. Dabei legen Sie dieselbe Distanzfunktion fest, die Sie beim Erstellen des Index verwendet haben.

  SELECT * FROM TABLE
    ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
    LIMIT ROW_COUNT

Ersetzen Sie Folgendes:

TABLE: Die Tabelle, die die Einbettung enthält, mit der der Text verglichen werden soll.
INDEX_NAME: Der Name des Index, den Sie verwenden möchten, z. B. my-scann-index.
EMBEDDING_COLUMN: die Spalte mit den gespeicherten Einbettungen.
DISTANCE_FUNCTION_QUERY: Die Distanzfunktion, die für diese Abfrage verwendet werden soll. Wählen Sie je nach der beim Erstellen des Index verwendeten Distanzfunktion eine der folgenden Optionen aus:
- L2-Distanz: <->
- Inneres Produkt:<#>
- Kosinus-Distanz: <=>
EMBEDDING: Der Einbettungsvektor, für den Sie die nächsten gespeicherten semantischen Nachbarn finden möchten.
ROW_COUNT: Die Anzahl der zurückzugebenden Zeilen.

Geben Sie 1 an, wenn Sie nur das beste Ergebnis erhalten möchten.

Weitere Beispiele hierzu finden Sie unter Abfragen.

Sie können auch die embedding() Funktion verwenden, um den Text in einen Vektor zu übersetzen. Sie wenden den Vektor auf einen der pgvector Operatoren für den nächsten Nachbarn an, <-> für die L2-Distanz, um die Datenbankzeilen mit den semantisch ähnlichsten Einbettungen zu finden.

Da embedding() ein real-Array zurückgibt, müssen Sie den embedding()-Aufruf explizit in vector umwandeln, um diese Werte mit pgvector -Operatoren zu verwenden.

IVFFLAT-Index erstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

IVFFlat-Index erstellen

Abfrage ausführen

Nächste Schritte

IVFFLAT-Index erstellen

`IVFFlat`-Index erstellen