RUM-Index erstellen und verwalten

In diesem Dokument wird beschrieben, wie Sie die RUM-Erweiterung erstellen und Indexe erstellen, um die Volltextsuche in AlloyDB for PostgreSQL zu optimieren. Es enthält Beispiele für gängige Anwendungsfälle wie Ranking, Suche nach Wortgruppen und Sortierung nach Zeitstempel.

Hinweis

Zum Erstellen der RUM-Erweiterung benötigen Sie die Rolle alloydb_superuser. Weitere Informationen zum Zuweisen von Rollen finden Sie unter IAM-Nutzer oder Dienstkonto einem Cluster hinzufügen.

RUM-Erweiterung erstellen

Sie müssen die RUM-Erweiterung einmal pro Datenbank erstellen.

  1. Stellen Sie über psql oder einen anderen Client eine Verbindung zu Ihrer AlloyDB-Datenbank her. Weitere Informationen finden Sie unter Verbindung zu einer Clusterinstanz herstellen.
  2. Führen Sie den folgenden SQL-Befehl aus, um die Erweiterung zu erstellen:

    CREATE EXTENSION IF NOT EXISTS rum;
    

RUM-Index erstellen

Um Volltextsuchanfragen zu optimieren, erstellen Sie einen RUM-Index für Ihre Daten. RUM bietet mehrere Operator-Klassen für verschiedene Anwendungsfälle.

Arten von RUM-Operator-Klassen

In der folgenden Tabelle sind die verschiedenen RUM-Operator-Klassen und ihre primären Anwendungsfälle zusammengefasst.

Operator-Klasse Hauptanwendungsfall Beschränkungen
rum_tsvector_ops Standardmäßige Volltextsuche mit Ranking und Suche nach Wortgruppen.
rum_tsvector_hash_ops Kleinerer Index und schnellere Updates für die Volltextsuche. Unterstützt keine Präfixsuche.
rum_tsvector_addon_ops Volltextsuche, sortiert nach einer anderen Spalte.
rum_anyarray_ops In Arrayspalten suchen
rum_<TYPE>_ops Skalare Typen für distanzbasierte Anfragen indexieren.
rum_tsvector_hash_addon_ops Hashbasierte Volltextsuche, sortiert nach einer anderen Spalte. Präfixabgleich wird nicht unterstützt.
rum_tsquery_ops tsquery-Werte für die umgekehrte Suche indexieren.
rum_anyarray_addon_ops Array-Suche, sortiert nach einer anderen Spalte.

Verwenden Sie die Operator-Klasse rum_tsvector_ops für die standardmäßige Textsuche, die schnelles Ranking und die Suche nach Begriffen erfordert. In dieser Operator-Klasse wird die Position jedes Lexems im Index gespeichert. Im folgenden Beispiel wird eine Tabelle mit dem Namen documents mit einer content-Spalte erstellt.

  1. Erstellen Sie eine Tabelle mit dem Namen documents:

    CREATE TABLE documents (
      id SERIAL PRIMARY KEY,
      title TEXT NOT NULL,
      content TEXT NOT NULL,
      published_at TIMESTAMP WITH TIME ZONE DEFAULT NOW()
    );
    
  2. Füllen Sie die Tabelle documents mit Beispieldaten:

    INSERT INTO documents (title, content) VALUES
      ('Title', 'This search engine is working as intended');
    
  3. Fügen Sie Ihrer Tabelle eine generierte tsvector-Spalte hinzu. In dieser Spalte wird der verarbeitete Text automatisch gespeichert, was die Abfrageleistung verbessert:

    ALTER TABLE documents
    ADD COLUMN search_vector tsvector
    GENERATED ALWAYS AS (to_tsvector('english', content)) STORED;
    
  4. Erstellen Sie den RUM-Index für die neue Spalte search_vector:

    CREATE INDEX idx_docs_rum
    ON documents
    USING rum (search_vector rum_tsvector_ops);
    
  5. Fragen Sie die Tabelle mit dem Index ab. Der Operator <=> berechnet den Relevanzwert oder die Distanz zwischen dem Dokument und der Anfrage direkt aus dem Index, was eine schnelle Sortierung ermöglicht:

    SELECT title, content
    FROM documents
    WHERE search_vector @@ to_tsquery('english', 'search <-> engine')
    ORDER BY search_vector <=> to_tsquery('english', 'search <-> engine');
    
  6. documents-Tabelle mit weiteren Daten füllen:

    INSERT INTO documents (title, content) VALUES ('Title1', 'English is my primary language.');
    INSERT INTO documents (title, content) VALUES ('Title2', 'Google has a great engineering culture');
    
  7. Führen Sie eine Präfix-Suchanfrage aus. Damit werden Dokumente mit Wörtern gefunden, die mit eng beginnen, z. B. engineer oder english:

    SELECT title, content
    FROM documents
    WHERE search_vector @@ to_tsquery('english', 'eng:*');
    

Verwenden Sie die Operator-Klasse rum_tsvector_hash_ops, um die Indexgröße zu reduzieren und die Aktualisierungsgeschwindigkeit zu verbessern. In dieser Klasse wird ein Hash jedes Lexems anstelle des vollständigen Lexems gespeichert. Dieser Ansatz führt zu einem kleineren Index, unterstützt aber keine Präfixsuche. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle namens documents mit einer Spalte search_vector haben.

  1. Erstellen Sie den RUM-Index mit der Hash-Operator-Klasse:

    CREATE INDEX idx_docs_rum_hash
    ON documents
    USING rum (search_vector rum_tsvector_hash_ops);
    
  2. documents-Tabelle mit weiteren Daten füllen:

    INSERT INTO documents (title, content) VALUES ('Title3', 'That person was driving incredibly fast, however the routing was not very efficient');
    
  3. So führen Sie eine Standardabfrage für Übereinstimmungen aus:

    SELECT * FROM documents WHERE search_vector @@ to_tsquery('english', 'fast & efficient');
    
    

Nach Zeitstempel sortierter Index für die Suche

Verwenden Sie die Operatorklasse rum_tsvector_addon_ops, um Abfragen zu optimieren, die nach Text filtern und nach einem anderen Feld, z. B. einem Zeitstempel, sortieren. Bei diesem Muster wird der Wert des zusätzlichen Felds direkt im Index gespeichert. So wird ein langsamer Sortiervorgang nach der Suche vermieden. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle mit dem Namen documents mit einer search_vector-Spalte und einer published_at-Spalte haben.

  1. Erstellen Sie einen Index, der den Zeitstempel published_at enthält:

    CREATE INDEX idx_docs_rum_timestamp
    ON documents
    USING rum (search_vector rum_tsvector_addon_ops, published_at)
    WITH (attach = 'published_at', to = 'search_vector');
    
  2. Führen Sie eine Abfrage aus, mit der Dokumente gefunden werden, die das Wort engine enthalten, und sortieren Sie sie nach dem Veröffentlichungsdatum. Der Index verarbeitet sowohl die Suche als auch die Sortierung effizient:

    SELECT title, published_at
    FROM documents
    WHERE search_vector @@ to_tsquery('english', 'engine')
    ORDER BY published_at DESC;
    

Verwenden Sie die Operator-Klasse rum_anyarray_ops, um Array-Spalten wie eine Liste von Tags zu indexieren. So können Sie effizient nach Arrays suchen, die sich überschneiden (&&), andere Arrays enthalten (@>) oder von anderen Arrays enthalten sind (<@). Im folgenden Beispiel wird der Tabelle documents die Spalte tags hinzugefügt.

  1. Fügen Sie eine tags-Spalte hinzu und füllen Sie sie mit Daten:

    ALTER TABLE documents 
    ADD COLUMN tags TEXT[];
    
    INSERT INTO documents (title, content, tags) VALUES ( 'Title4', 'Sample Text', ARRAY['ai', 'ml'] );
    
  2. Erstellen Sie den RUM-Index für eine TEXT[]-Spalte mit dem Namen tags:

    CREATE INDEX idx_tags_rum
    ON documents
    USING rum (tags rum_anyarray_ops);
    
  3. Führen Sie eine Abfrage aus, um Dokumente zu finden, die entweder ai oder ml in ihren Tags haben:

    SELECT * FROM documents WHERE tags && '{"ai", "ml"}';
    

Index für skalare Typen

Verwenden Sie die rum_<TYPE>_ops-Operator-Klassen, um Spalten mit kontinuierlichen Werten wie Ganzzahlen, Zeitstempeln oder Gleitkommazahlen zu indexieren. Mit diesen Operator-Klassen können Sie den <=>-Operator verwenden, um die Distanz zwischen Werten effizient zu berechnen. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle mit dem Namen documents haben.

  1. Fügen Sie der Tabelle documents eine allgemeine Ganzzahlspalte wie rating hinzu:

    ALTER TABLE documents
    ADD COLUMN rating INT;
    
    UPDATE documents 
    SET rating = floor(random() * 5 + 1);
    
  2. Erstellen Sie einen RUM-Index für die Spalte rating:

    CREATE INDEX idx_rating_rum
    ON documents
    USING rum (rating rum_int4_ops);
    
  3. Führen Sie eine Abfrage aus, um Dokumente mit einem rating-Wert zu finden, der dem Wert 5 am nächsten kommt:

    SELECT title, rating
    FROM documents
    ORDER BY rating <=> 5;
    

Index für die optimierte Hash-Suche, sortiert nach Zeitstempel

Verwenden Sie die Operator-Klasse rum_tsvector_hash_addon_ops, um die Vorteile eines Hash-Index mit den Sortierfunktionen eines Add-on-Index zu kombinieren. In dieser Klasse wird ein Hash jedes Lexems zusammen mit dem Wert einer zusätzlichen Spalte gespeichert. Diese Konfiguration unterstützt das effiziente Sortieren nach der zusätzlichen Spalte, aber keinen Präfixabgleich. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle namens documents mit einer search_vector-Spalte und einer published_at-Zeitstempelspalte haben.

  1. Erstellen Sie einen RUM-Index, der die Hash-Operator-Klasse verwendet und den published_at-Zeitstempel enthält:

    CREATE INDEX idx_docs_rum_hash_timestamp
    ON documents
    USING rum (search_vector rum_tsvector_hash_addon_ops, published_at)
    WITH (attach = 'published_at', to = 'search_vector');
    
  2. Führen Sie eine Abfrage aus, mit der Dokumente mit engine gefunden und nach Veröffentlichungsdatum sortiert werden:

    SELECT title, published_at
    FROM documents
    WHERE search_vector @@ to_tsquery('english', 'engine')
    ORDER BY published_at DESC;
    

Index für gespeicherte Abfragen

Verwenden Sie die Operator-Klasse rum_tsquery_ops, um tsquery-Werte zu indexieren. So können Sie eine „Rückwärtssuche“ durchführen und ermitteln, welche gespeicherten Anfragen einem bestimmten Eingabedokument entsprechen. Im folgenden Beispiel wird eine Tabelle mit dem Namen queries erstellt.

  1. Tabelle zum Speichern von Abfragen erstellen:

    CREATE TABLE queries (
    query_text tsquery
    );
    INSERT INTO queries (query_text) VALUES (plainto_tsquery('AlloyDB is fast!'));
    
  2. Erstellen Sie einen RUM-Index für die Spalte query_text:

    CREATE INDEX idx_queries_rum
    ON queries
    USING rum (query_text rum_tsquery_ops);
    
  3. So führen Sie eine Abfrage aus, um gespeicherte Abfragen zu finden, die mit einem Dokument übereinstimmen:

    SELECT *
    FROM queries
    WHERE to_tsvector('english', 'AlloyDB is fast') @@ query_text;
    

Index für die Array-Suche, sortiert nach Zeitstempel

Verwenden Sie die Operator-Klasse rum_anyarray_addon_ops, um Array-Spalten zusammen mit einer zusätzlichen Spalte zum Sortieren zu indexieren. Im folgenden Beispiel wird davon ausgegangen, dass Sie eine Tabelle mit dem Namen documents mit einer tags-Spalte und einer published_at-Zeitstempelspalte haben.

  1. Erstellen Sie einen RUM-Index für die Spalte tags, der den Zeitstempel published_at enthält:

    CREATE INDEX idx_tags_rum_timestamp
    ON documents
    USING rum (tags rum_anyarray_addon_ops, published_at)
    WITH (attach = 'published_at', to = 'tags');
    
  2. So führen Sie eine Abfrage aus, um nach Dokumenten mit dem Tag ai zu suchen, sortiert nach Veröffentlichungsdatum:

    SELECT title, published_at
    FROM documents
    WHERE tags @> '{"ai"}'
    ORDER BY published_at DESC;
    

Nächste Schritte