Auf dieser Seite wird die AlloyDB Omni-Version 18.1.0 mit der Bereitstellungsoption RPM dokumentiert. Wählen Sie eine andere Bereitstellungsoption aus.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Vektorsuche mit der spaltenbasierten Engine beschleunigen

Wählen Sie eine Dokumentationsversion aus:

Mit der spaltenbasierten Engine von AlloyDB Omni können Sie Ihre Vektorsuchen beschleunigen, wenn Sie den Scalable Nearest Neighbors-Index (ScaNN) oder den Hierarchical Navigable Small World-Index (HNSW) verwenden. Die spaltenbasierte Engine fungiert als leseoptimierter In-Memory-Cache für diese Vektorindexe.

Wenn Sie Ihre Indexe in der spaltenbasierten Engine im Cache speichern, werden Abfragen direkt aus einer leseoptimierten In-Memory-Darstellung des Index ausgeführt. Außerdem erhöht sich die Anzahl der Abfragen pro Sekunde, die Ihre Datenbank für Arbeitslasten mit Vektorsuchen verarbeiten kann.

Sie können HNSW nur mit der spaltenbasierten Engine für AlloyDB Omni-Cluster verwenden, auf denen PostgreSQL 17 oder höher ausgeführt wird. Für ScaNN mit der spaltenbasierten Engine gilt diese Einschränkung nicht.

Hinweis

Legen Sie die Datenbank-Flags google_columnar_engine.enabled und google_columnar_engine.enable_index_caching auf on fest, um die spaltenbasierte Engine und die Index-Caching-Funktion zu aktivieren.

Führen Sie den ALTER SYSTEM PostgreSQL-Befehl aus, um die Datenbank-Flags festzulegen:
```
ALTER SYSTEM SET google_columnar_engine.enabled = 'on';
ALTER SYSTEM SET google_columnar_engine.enable_index_caching = 'on';
```
Laden Sie die Konfiguration des `systemd`-Managers neu und starten Sie den `alloydbomni`-Dienst neu, damit die Änderungen wirksam werden: ```posix-terminal sudo systemctl restart alloydbomni18

Weitere Informationen zum Festlegen von Flags finden Sie unter Datenbank-Flags konfigurieren.
Erstellen Sie einen ScaNN-Index oder einen HNSW-Index in Ihrer Datenbank.

Index zur spaltenbasierten Engine hinzufügen

Nachdem Sie die spaltenbasierte Engine aktiviert haben, können Sie mit der SQL-Funktion google_columnar_engine_add_index() einen vorhandenen Index zum Cache hinzufügen.

Führen Sie die folgende Abfrage aus, um einen Index zur spaltenbasierten Engine hinzuzufügen:

SELECT google_columnar_engine_add_index('INDEX_NAME');

Ersetzen Sie INDEX_NAME durch den Namen Ihres Vektorindex.

Nachdem Sie einen Index zur spaltenbasierten Engine hinzugefügt haben, werden alle Abfragen, die diesen Index verwenden, automatisch von der spaltenbasierten Engine beschleunigt. Sie können prüfen, ob Ihre Vektorabfragen von der spaltenbasierten Engine beschleunigt werden, indem Sie den Plan EXPLAIN (ANALYZE, COLUMNAR_ENGINE) für Ihre Abfrage verwenden.

Cache-Nutzung prüfen

Sie können prüfen, ob Ihre Vektorabfragen von der spaltenbasierten Engine beschleunigt werden, indem Sie den Plan EXPLAIN (ANALYZE, COLUMNAR_ENGINE) für Ihre Abfrage verwenden.

Beispiel für einen ScaNN-Ausführungsplan

Das folgende Beispiel zeigt einen Ausführungsplan für eine Abfrage, die einen ScaNN-Index verwendet, der der spaltenbasierten Engine hinzugefügt wurde:

EXPLAIN (ANALYZE TRUE, SCANN TRUE, COSTS FALSE, TIMING FALSE, SUMMARY FALSE, VERBOSE FALSE, COLUMNAR_ENGINE TRUE)
SELECT * FROM t ORDER BY val <=> '[0.5,0.5,0.5,0.5]' LIMIT 100;

--This contains details about ScaNN's usage from the columnar engine. Example:
------------------------------------------------------------------------------------------------------
 Index Scan using scann_idx on t t_1 (actual rows=100 loops=1)
      Order By: (val <=> '[0.5,0.5,0.5,0.5]'::vector)
      Limit: 100
      ScaNN Info: (... columnar engine nodes hit=6...)
      Columnar Engine ScaNN Info: (index found=true)
(5 rows)

Das Vorhandensein von columnar engine nodes hit und Columnar Engine ScaNN Info: (index found=true) in der Ausgabe bestätigt, dass die spaltenbasierte Engine für die Abfrage verwendet wird.

Beispiel für einen HNSW-Ausführungsplan

Der Ausführungsplan enthält den Abschnitt Columnar Engine HNSW Info für den jeweiligen Index mit Messwerten wie dem Verhältnis der Elemente, die aus der spaltenbasierten Engine (elements_from_ce) und von der Festplatte (elements_from_disk) abgerufen wurden.

Das folgende Beispiel zeigt einen Ausführungsplan für eine Abfrage, die einen HNSW-Index verwendet, der der spaltenbasierten Engine hinzugefügt wurde:

EXPLAIN (ANALYZE, COLUMNAR_ENGINE) SELECT * FROM documents ORDER BY embedding <=> '[0.1, 0.2, 0.3, 0.4, 0.5]'::vector LIMIT 5;

--This contains details about HNSW's usage from the columnar engine. Example:
------------------------------------------------------------------------------------------------------
 Limit (actual rows=5 loops=1)
   ->  Index Scan using hnsw_idx on documents (actual rows=5 loops=1)
         Order By: (embedding '[0.1, 0.2, 0.3, 0.4, 0.5]'::vector)
         Columnar Engine HNSW Info: (index found=true elements_from_ce=385 elements_from_disk=0)
         Columnar Check: table is not in the columnar store
(5 rows)

Die Antwort zeigt, dass der Index von der spaltenbasierten Engine beschleunigt wird, da alle Elemente aus der spaltenbasierten Engine abgerufen wurden (elements_from_ce=385) und keine von der Festplatte (elements_from_disk=0).

Wenn Datenänderungen wie INSERT-, UPDATE- oder DELETE-Anweisungen Cacheeinträge ungültig machen, verwendet die spaltenbasierte Engine einen Hybridansatz, um Genauigkeit und Leistung aufrechtzuerhalten. Gültige, im Cache gespeicherte Vektoren werden direkt aus dem Arbeitsspeicher gelesen und nur die geänderten oder neuen Vektoren werden von der Festplatte abgerufen.

Wenn Sie eine große Datenmenge ändern, kann es vorübergehend zu einer Zunahme von „elements_from_disk“ und einem Leistungsabfall kommen, bis der Cache aktualisiert wird.

Index im Cache verwalten

Führen Sie den SQL-Befehl für die ausgewählte Aufgabe aus, um den Lebenszyklus Ihrer Indexe im Cache zu verwalten:

Führen Sie den folgenden Befehl aus, um den Cache manuell zu aktualisieren:
```
SELECT google_columnar_engine_refresh_index('INDEX_NAME');
```
Führen Sie den folgenden Befehl aus, um den Indexstatus zu prüfen:
```
SELECT google_columnar_engine_verify('INDEX_NAME');
```
Führen Sie den folgenden Befehl aus, um den Index aus dem Cache zu entfernen:
```
SELECT google_columnar_engine_drop_index('INDEX_NAME');
```
Führen Sie den folgenden Befehl aus, um aktive Indexe aufzurufen:
```
SELECT * FROM g_columnar_indexes;
```
Führen Sie den folgenden Befehl aus, um partitionierte Indexe aufzurufen:
```
SELECT * FROM g_columnar_index_partitions;
```

Ersetzen Sie INDEX_NAME durch den Namen Ihres Index.

Beschränkungen

Beim Aktualisieren von HNSW-Indexen, die von der spaltenbasierten Engine beschleunigt werden, kann vorübergehend bis zu doppelt so viel Arbeitsspeicher wie die Indexgröße belegt werden.