In diesem Dokument wird beschrieben, wie Sie die RUM-Erweiterung erstellen und Indexe erstellen, um die Volltextsuche in AlloyDB for PostgreSQL zu optimieren. Es enthält Beispiele für gängige Anwendungsfälle wie Ranking, Suche nach Wortgruppen und Sortierung nach Zeitstempel.
Hinweis
Zum Erstellen der RUM-Erweiterung benötigen Sie die Rolle alloydb_superuser. Weitere Informationen zum Zuweisen von Rollen finden Sie unter IAM-Nutzer oder Dienstkonto einem Cluster hinzufügen.
RUM-Erweiterung erstellen
Sie müssen die RUM-Erweiterung einmal pro Datenbank erstellen.
- Stellen Sie über
psqloder einen anderen Client eine Verbindung zu Ihrer AlloyDB-Datenbank her. Weitere Informationen finden Sie unter Verbindung zu einer Clusterinstanz herstellen. Führen Sie den folgenden SQL-Befehl aus, um die Erweiterung zu erstellen:
CREATE EXTENSION IF NOT EXISTS rum;
RUM-Index erstellen
Um Volltextsuchanfragen zu optimieren, erstellen Sie einen RUM-Index für Ihre Daten. RUM bietet mehrere Operator-Klassen für verschiedene Anwendungsfälle.
Arten von RUM-Operator-Klassen
In der folgenden Tabelle sind die verschiedenen RUM-Operator-Klassen und ihre primären Anwendungsfälle zusammengefasst.
| Operator-Klasse | Hauptanwendungsfall | Beschränkungen |
|---|---|---|
rum_tsvector_ops |
Standardmäßige Volltextsuche mit Ranking und Suche nach Wortgruppen. | – |
rum_tsvector_hash_ops |
Kleinerer Index und schnellere Updates für die Volltextsuche. | Unterstützt keine Präfixsuche. |
rum_tsvector_addon_ops |
Volltextsuche, sortiert nach einer anderen Spalte. | – |
rum_anyarray_ops |
In Arrayspalten suchen | – |
rum_<TYPE>_ops |
Skalare Typen für distanzbasierte Anfragen indexieren. | – |
rum_tsvector_hash_addon_ops |
Hashbasierte Volltextsuche, sortiert nach einer anderen Spalte. | Präfixabgleich wird nicht unterstützt. |
rum_tsquery_ops |
tsquery-Werte für die umgekehrte Suche indexieren. |
– |
rum_anyarray_addon_ops |
Array-Suche, sortiert nach einer anderen Spalte. | – |
Index für die einfache Volltextsuche
Verwenden Sie die Operator-Klasse rum_tsvector_ops für die standardmäßige Textsuche, die schnelles Ranking und die Suche nach Begriffen erfordert. In dieser Operator-Klasse wird die Position jedes Lexems im Index gespeichert. Im folgenden Beispiel wird eine Tabelle mit dem Namen documents mit einer content-Spalte erstellt.
Erstellen Sie eine Tabelle mit dem Namen
documents:CREATE TABLE documents ( id SERIAL PRIMARY KEY, title TEXT NOT NULL, content TEXT NOT NULL, published_at TIMESTAMP WITH TIME ZONE DEFAULT NOW() );Füllen Sie die Tabelle
documentsmit Beispieldaten:INSERT INTO documents (title, content) VALUES ('Title', 'This search engine is working as intended');Fügen Sie Ihrer Tabelle eine generierte
tsvector-Spalte hinzu. In dieser Spalte wird der verarbeitete Text automatisch gespeichert, was die Abfrageleistung verbessert:ALTER TABLE documents ADD COLUMN search_vector tsvector GENERATED ALWAYS AS (to_tsvector('english', content)) STORED;Erstellen Sie den RUM-Index für die neue Spalte
search_vector:CREATE INDEX idx_docs_rum ON documents USING rum (search_vector rum_tsvector_ops);Fragen Sie die Tabelle mit dem Index ab. Der Operator
<=>berechnet den Relevanzwert oder die Distanz zwischen dem Dokument und der Anfrage direkt aus dem Index, was eine schnelle Sortierung ermöglicht:SELECT title, content FROM documents WHERE search_vector @@ to_tsquery('english', 'search <-> engine') ORDER BY search_vector <=> to_tsquery('english', 'search <-> engine');documents-Tabelle mit weiteren Daten füllen:INSERT INTO documents (title, content) VALUES ('Title1', 'English is my primary language.'); INSERT INTO documents (title, content) VALUES ('Title2', 'Google has a great engineering culture');Führen Sie eine Präfix-Suchanfrage aus. Damit werden Dokumente mit Wörtern gefunden, die mit
engbeginnen, z. B.engineeroderenglish:SELECT title, content FROM documents WHERE search_vector @@ to_tsquery('english', 'eng:*');
Index für die optimierte Hash-Suche
Verwenden Sie die Operator-Klasse rum_tsvector_hash_ops, um die Indexgröße zu reduzieren und die Aktualisierungsgeschwindigkeit zu verbessern. In dieser Klasse wird ein Hash jedes Lexems anstelle des vollständigen Lexems gespeichert. Dieser Ansatz führt zu einem kleineren Index, unterstützt aber keine Präfixsuche. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle namens documents mit einer Spalte search_vector haben.
Erstellen Sie den RUM-Index mit der Hash-Operator-Klasse:
CREATE INDEX idx_docs_rum_hash ON documents USING rum (search_vector rum_tsvector_hash_ops);documents-Tabelle mit weiteren Daten füllen:INSERT INTO documents (title, content) VALUES ('Title3', 'That person was driving incredibly fast, however the routing was not very efficient');So führen Sie eine Standardabfrage für Übereinstimmungen aus:
SELECT * FROM documents WHERE search_vector @@ to_tsquery('english', 'fast & efficient');
Nach Zeitstempel sortierter Index für die Suche
Verwenden Sie die Operatorklasse rum_tsvector_addon_ops, um Abfragen zu optimieren, die nach Text filtern und nach einem anderen Feld, z. B. einem Zeitstempel, sortieren. Bei diesem Muster wird der Wert des zusätzlichen Felds direkt im Index gespeichert. So wird ein langsamer Sortiervorgang nach der Suche vermieden. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle mit dem Namen documents mit einer search_vector-Spalte und einer published_at-Spalte haben.
Erstellen Sie einen Index, der den Zeitstempel
published_atenthält:CREATE INDEX idx_docs_rum_timestamp ON documents USING rum (search_vector rum_tsvector_addon_ops, published_at) WITH (attach = 'published_at', to = 'search_vector');Führen Sie eine Abfrage aus, mit der Dokumente gefunden werden, die das Wort
engineenthalten, und sortieren Sie sie nach dem Veröffentlichungsdatum. Der Index verarbeitet sowohl die Suche als auch die Sortierung effizient:SELECT title, published_at FROM documents WHERE search_vector @@ to_tsquery('english', 'engine') ORDER BY published_at DESC;
Index für die Arraysuche
Verwenden Sie die Operator-Klasse rum_anyarray_ops, um Array-Spalten wie eine Liste von Tags zu indexieren. So können Sie effizient nach Arrays suchen, die sich überschneiden (&&), andere Arrays enthalten (@>) oder von anderen Arrays enthalten sind (<@). Im folgenden Beispiel wird der Tabelle documents die Spalte tags hinzugefügt.
Fügen Sie eine
tags-Spalte hinzu und füllen Sie sie mit Daten:ALTER TABLE documents ADD COLUMN tags TEXT[]; INSERT INTO documents (title, content, tags) VALUES ( 'Title4', 'Sample Text', ARRAY['ai', 'ml'] );Erstellen Sie den RUM-Index für eine
TEXT[]-Spalte mit dem Namentags:CREATE INDEX idx_tags_rum ON documents USING rum (tags rum_anyarray_ops);Führen Sie eine Abfrage aus, um Dokumente zu finden, die entweder
aiodermlin ihren Tags haben:SELECT * FROM documents WHERE tags && '{"ai", "ml"}';
Index für skalare Typen
Verwenden Sie die rum_<TYPE>_ops-Operator-Klassen, um Spalten mit kontinuierlichen Werten wie Ganzzahlen, Zeitstempeln oder Gleitkommazahlen zu indexieren. Mit diesen Operator-Klassen können Sie den <=>-Operator verwenden, um die Distanz zwischen Werten effizient zu berechnen. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle mit dem Namen documents haben.
Fügen Sie der Tabelle
documentseine allgemeine Ganzzahlspalte wieratinghinzu:ALTER TABLE documents ADD COLUMN rating INT; UPDATE documents SET rating = floor(random() * 5 + 1);Erstellen Sie einen RUM-Index für die Spalte
rating:CREATE INDEX idx_rating_rum ON documents USING rum (rating rum_int4_ops);Führen Sie eine Abfrage aus, um Dokumente mit einem
rating-Wert zu finden, der dem Wert 5 am nächsten kommt:SELECT title, rating FROM documents ORDER BY rating <=> 5;
Index für die optimierte Hash-Suche, sortiert nach Zeitstempel
Verwenden Sie die Operator-Klasse rum_tsvector_hash_addon_ops, um die Vorteile eines Hash-Index mit den Sortierfunktionen eines Add-on-Index zu kombinieren. In dieser Klasse wird ein Hash jedes Lexems zusammen mit dem Wert einer zusätzlichen Spalte gespeichert. Diese Konfiguration unterstützt das effiziente Sortieren nach der zusätzlichen Spalte, aber keinen Präfixabgleich. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle namens documents mit einer search_vector-Spalte und einer published_at-Zeitstempelspalte haben.
Erstellen Sie einen RUM-Index, der die Hash-Operator-Klasse verwendet und den
published_at-Zeitstempel enthält:CREATE INDEX idx_docs_rum_hash_timestamp ON documents USING rum (search_vector rum_tsvector_hash_addon_ops, published_at) WITH (attach = 'published_at', to = 'search_vector');Führen Sie eine Abfrage aus, mit der Dokumente mit
enginegefunden und nach Veröffentlichungsdatum sortiert werden:SELECT title, published_at FROM documents WHERE search_vector @@ to_tsquery('english', 'engine') ORDER BY published_at DESC;
Index für gespeicherte Abfragen
Verwenden Sie die Operator-Klasse rum_tsquery_ops, um tsquery-Werte zu indexieren. So können Sie eine „Rückwärtssuche“ durchführen und ermitteln, welche gespeicherten Anfragen einem bestimmten Eingabedokument entsprechen. Im folgenden Beispiel wird eine Tabelle mit dem Namen queries erstellt.
Tabelle zum Speichern von Abfragen erstellen:
CREATE TABLE queries ( query_text tsquery ); INSERT INTO queries (query_text) VALUES (plainto_tsquery('AlloyDB is fast!'));Erstellen Sie einen RUM-Index für die Spalte
query_text:CREATE INDEX idx_queries_rum ON queries USING rum (query_text rum_tsquery_ops);So führen Sie eine Abfrage aus, um gespeicherte Abfragen zu finden, die mit einem Dokument übereinstimmen:
SELECT * FROM queries WHERE to_tsvector('english', 'AlloyDB is fast') @@ query_text;
Index für die Array-Suche, sortiert nach Zeitstempel
Verwenden Sie die Operator-Klasse rum_anyarray_addon_ops, um Array-Spalten zusammen mit einer zusätzlichen Spalte zum Sortieren zu indexieren. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle mit dem Namen documents mit einer tags-Spalte und einer published_at-Zeitstempelspalte haben.
Erstellen Sie einen RUM-Index für die Spalte
tags, der den Zeitstempelpublished_atenthält:CREATE INDEX idx_tags_rum_timestamp ON documents USING rum (tags rum_anyarray_addon_ops, published_at) WITH (attach = 'published_at', to = 'tags');So führen Sie eine Abfrage aus, um nach Dokumenten mit dem Tag
aizu suchen, sortiert nach Veröffentlichungsdatum:SELECT title, published_at FROM documents WHERE tags @> '{"ai"}' ORDER BY published_at DESC;