Puoi accedere ai dati archiviati in Elasticsearch e cercarli creando un wrapper di dati esterni (FDW) e una tabella esterna in AlloyDB Omni.
Limitazioni
AlloyDB Omni legge i dati di Elasticsearch, ma non li scrive.
Sei responsabile della sincronizzazione dei dati tra AlloyDB Omni ed Elasticsearch.
I tipi Elasticsearch specializzati, come
geo_pointnon sono supportati. Per ulteriori informazioni, vedi Tipi di dati supportati.
Prima di iniziare
Prima di iniziare, completa le seguenti operazioni:
- Installa AlloyDB Omni utilizzando l'orchestratore di container.
- Esegui il deployment e esegui Elasticsearch in produzione.
- Crea una chiave API personale/utente di sola lettura che AlloyDB Omni può utilizzare per accedere al tuo cluster Elasticsearch.
Crea un account di servizio
AlloyDB Omni richiede un account di servizio con Google Cloud per autenticarsi e utilizzare Secret Manager. AlloyDB Omni utilizza Secret Manager per archiviare la chiave API Elasticsearch.
Se non hai ancora creato un account di servizio per AlloyDB Omni, creane uno seguendo questi passaggi:
Crea un service account con Google Cloud. Concedi a questo account di servizio le autorizzazioni per accedere a Secret Manager in Crea un cluster di database con AlloyDB AI.
Crea una account di servizio account e salvala in formato JSON nel file
private-key.json, quindi scaricala.Archivia la chiave in una posizione permanente del file system. Si trova in questa posizione per l'intera durata del server AlloyDB Omni.
Prendi nota della sua posizione nel file system, perché ti servirà per i passaggi successivi.
Crea un secret Kubernetes utilizzando la account di servizio account.
Archivia la chiave API Elasticsearch in Secret Manager
AlloyDB Omni archivia e legge la chiave API Elasticsearch da Secret Manager. Per saperne di più su come utilizzare Secret Manager, consulta Creare e accedere a un secret utilizzando Secret Manager.
Assicurati di concedere al account di servizio AlloyDB Omni l'autorizzazione per leggere il secret. Per saperne di più, vedi Gestire l'accesso ai secret.
Crea un cluster di database con AlloyDB AI
Per creare un cluster di database con AlloyDB AI, consulta
Installare AlloyDB AI in AlloyDB Omni. Per accedere ai dati ed eseguire query con
Elasticsearch, non è necessario specificare le configurazioni vertexAI*.
Attivare e configurare l'estensione external_search_fdw
Per avviare l'integrazione con Elasticsearch, completa le seguenti
istruzioni per attivare e configurare l'estensione
external_search_fdw
AlloyDB Omni:
Attiva l'estensione
external_search_fdw.CREATE EXTENSION external_search_fdw;Configura l'accesso al cluster Elasticsearch tramite un server di dati esterni.
CREATE SERVER ELASTICSEARCH_SERVER_NAME FOREIGN DATA WRAPPER external_search_fdw OPTIONS (server 'ELASTICSEARCH_SERVER_HOST_PORT', search_provider 'elastic', auth_mode 'secret_manager', auth_method 'AUTH_METHOD', secret_path 'SECRET_PATH', max_deadline_ms 'MAX_DEADLINE', pagination_num_results 'PAGINATION_NUM_RESULTS', pagination_context_timeout_ms 'PAGINATION_CONTEXT_TIMEOUT');Sostituisci le seguenti variabili:
ELASTICSEARCH_SERVER_NAME: il nome del server di dati esterni. Ad esempio,my-elasticsearch-server.ELASTICSEARCH_SERVER_HOST_PORT: URL pubblico del tuo cluster Elasticsearch. Ad esempio,https://node1.elastic.test.com:9200.AUTH_METHOD: tipo di autenticazione da utilizzare. Puoi scegliere tra le seguenti opzioni:ApiKey: Elasticsearch Chiave API personale/utente.Basic: nome utente e password di Elasticsearch.
SECRET_PATH: Il percorso di Secret Manager per le credenziali di autenticazione di Elasticsearch. Ad esempio,projects/123456789012/secrets/apikey/versions/1.123456789012rappresenta l'ID progetto Google Cloud .(Facoltativo)
MAX_DEADLINE: tempo massimo, in millisecondi, per cui AlloyDB Omni attende una risposta da Elasticsearch. Imposta questo valore in base alle posizioni delle tue istanze AlloyDB Omni ed Elasticsearch. Il valore predefinito è10000.(Facoltativo)
PAGINATION_NUM_RESULTS: numero massimo di risultati recuperati per batch da Elasticsearch. Se vengono richiesti più risultati, AlloyDB Omni recupera i risultati in più batch di queste dimensioni. Il valore predefinito è32.(Facoltativo)
PAGINATION_CONTEXT_TIMEOUT: periodo di tempo, in millisecondi, in cui Elasticsearch mantiene attivo il contesto della richiesta di paginazione. Il valore predefinito è30000.
Definisci il mapping degli utenti PostgreSQL per il server Elasticsearch. Tieni presente che le FDW PostgreSQL richiedono questa mappatura utente per funzionare. AlloyDB Omni esegue l'autenticazione utilizzando l'intestazione di autorizzazione REST.
CREATE USER MAPPING FOR CURRENT_USER SERVER ELASTICSEARCH_SERVER_NAME;Configura lo schema per i dati Elasticsearch tramite una tabella di dati esterni.
CREATE FOREIGN TABLE ELASTICSEARCH_FD_TABLE( metadata external_search_fdw_schema.OpaqueMetadata, ELASTICSEARCH_FIELDS) SERVER ELASTICSEARCH_SERVER_NAME OPTIONS(remote_table_name 'ELASTICSEARCH_INDEX_NAME');Sostituisci le seguenti nuove variabili:
ELASTICSEARCH_FD_TABLE: il nome della tabella di dati esterni che rappresenta la tabella Elasticsearch. Ad esempio,my-fd-elasticsearch-table.ELASTICSEARCH_FIELDS: un elenco separato da virgole di definizioni dello schema dei campi Elasticsearch nel seguente formato:elasticsearch_field_name PG_DATA_TYPE. Ad esempioelasticsearch_boolean_field_name BOOLEAN, elasticsearch_double_field_name DOUBLE PRECISION. Questi campi devono corrispondere ai nomi dei campi in Elasticsearch, a meno che non venga aggiunto ilremote_field_name. Ad esempio,elasticsearch_foo OPTIONS (remote_field_name 'elasticsearch_FOO').Per l'elenco dei tipi di dati Elasticsearch che possono essere definiti per AlloyDB Omni, vedi Tipi di dati supportati.
ELASTICSEARCH_INDEX_NAME: il nome dell'indice Elasticsearch. Ad esempio,my-elasticsearch-index.
Tipi di dati supportati
AlloyDB Omni supporta i seguenti tipi di dati Elasticsearch:
| Tipo/i di dati | Tipo PostgreSQL |
|---|---|
alias
|
Tipo PostgreSQL per il campo a cui fa riferimento alias
|
binary
|
bytea
|
boolean
|
BOOLEAN
|
|
|
SMALLINT
|
date
|
TIMESTAMPTZ
|
DOUBLE PRECISION
|
|
REAL
|
|
integer
|
INTEGER
|
long
|
BIGINT
|
jsonb
|
|
|
|
TEXT
|
unsigned_long
|
NUMERIC
|
Esegui query sui dati Elasticsearch
AlloyDB Omni prende le query SQL e le converte in query
dell'API REST di Elasticsearch. Durante questa conversione,
AlloyDB Omni tenta di eseguire il push-down della maggior parte della logica di query
possibile senza modificare l'identità della query, incluso il LIMIT della query SQL. Tuttavia, in alcuni casi potresti specificare di non eseguire il push verso il basso
di determinati campi Elasticsearch o in cui la logica di query non può essere eseguita. Ad esempio, LIKE e altri operatori di corrispondenza del testo non possono essere inseriti. Per altri esempi di ciò che
può e non può essere eseguito in push, vedi Esempi di pushdown.
Negli scenari in cui LIMIT è impostato su un valore superiore a pagination_num_results o
in cui LIMIT non è specificato o non può essere inserito,
AlloyDB Omni utilizza l'API Scroll,
che può richiedere molte risorse.
Poiché l'API Scroll può richiedere molte risorse, ti consigliamo di esaminare le query utilizzando EXPLAIN VERBOSE per vedere quali API vengono utilizzate. Limitare l'utilizzo dell'API Scroll e utilizzare LIMIT migliora le prestazioni.
Per eseguire query sui dati Elasticsearch, hai a disposizione le seguenti opzioni:
- Query SQL standard
- Query DSL
- Ricerche ibride
Query SQL standard
Le query SQL standard possono essere scritte utilizzando la sintassi Lucene di Elasticsearch.
Per eseguire una query SQL standard, consulta la seguente query di esempio:
SELECT id, body
FROM ELASTICSEARCH_FD_TABLE
WHERE FILTER
ORDER BY metadata <@> 'QUERY';
Sostituisci le seguenti variabili:
ELASTICSEARCH_FD_TABLE: il nome della tabella di dati esterni che rappresenta la tabella Elasticsearch. Ad esempio,my-fd-elasticsearch-table.(Facoltativo)
FILTER: filtro da applicare alla query Elasticsearch. Ad esempio,AND qubits < 105.QUERY: query da inviare a Elasticsearch. Per alcuni esempi di query, consulta il seguente elenco:body:quantum body:computingbody:(quantum computing)body:(quantum AND computing)body:"quantum computing"body:"quantum computing" AND qubits:[* TO 105}
Query DSL
Query DSL è il linguaggio di query in stile JSON completo di funzionalità di Elasticsearch consigliato per casi d'uso avanzati. Query DSL consente di eseguire ricerche, filtri e aggregazioni complessi che non possono essere espressi nella sintassi delle query SQL.
Per eseguire query utilizzando Query DSL, vedi la seguente query di esempio:
SELECT id, body
FROM ELASTICSEARCH_FD_TABLE
ORDER BY
metadata <@> $${
"query": {
"bool": {
"must": [
{
"query_string": {
"query" : "QUERY"
}
}
],
"filter": [
{
"range": {
"id": {
"lt": "10"
}
}
}
]
}
},
"sort": [
{
"id": {
"order": "desc"
}
}
]
}$$
LIMIT 1;
Sostituisci le seguenti variabili:
ELASTICSEARCH_FD_TABLE: il nome della tabella di dati esterni che rappresenta la tabella Elasticsearch. Ad esempio,my-fd-elasticsearch-table.QUERY: query da inviare a Elasticsearch. Ad esempio,"elasticsearch_field_name:\"quantum computing\" OR int_field:[* TO 3]".
Tieni presente che per Query DSL devi propagare solo le espressioni query,
filter e sort.
Ricerche ibride
Per eseguire una ricerca ibrida sui tuoi dati Elasticsearch, consulta il seguente esempio di ricerca:
SELECT *
FROM
ai.hybrid_search(
ARRAY[
'{"limit": LIMIT,
"data_type": "external_search_fdw",
"weight": WEIGHT,
"table_name": "ELASTICSEARCH_FD_TABLE",
"key_column": "DOCUMENT_ID_COLUMN_NAME",
"query_text_input": QUERY}'::jsonb],
NULL::TEXT,
'RRF',
FALSE)
ORDER BY score DESC;
Sostituisci le seguenti variabili:
LIMIT: il numero di risultati da restituire. Ad esempio,3.WEIGHT: contributo di questa voce di ricerca al Reciprocal Rank Fusion (RRF) complessivo.ELASTICSEARCH_FD_TABLE: il nome della tabella di dati esterni che rappresenta la tabella Elasticsearch. Ad esempio,my-fd-elasticsearch-table.DOCUMENT_ID_COLUMN_NAME: il nome della colonna ID documento.QUERY: query da inviare a Elasticsearch. Ad esempio,"elasticsearch_field_name:\"quantum computing\""cerca la frase "quantum computing" nel campoelasticsearch_field_name. Tutti i tipi di query menzionati in Tipi di dati supportati possono essere utilizzati nella query.
Per ulteriori informazioni sui parametri disponibili per le ricerche ibride, consulta Parametri della funzione di ricerca ibrida.
Esempi di pushdown
Per rendere più efficienti le query, AlloyDB Omni tenta di inserire i seguenti aspetti della query direttamente nella chiamata API effettuata a Elasticsearch:
SELECTcampiWHEREfiltriORDER BYordinamentiLIMIT
Per esempi di query che mostrano quali aspetti AlloyDB Omni è in grado di eseguire il push verso il basso e quali no, consulta la tabella seguente.
| Tipo di query | Esempio di query | Elementi della query spostati in basso |
|---|---|---|
| Query non filtrate |
SELECT id, body FROM elasticsearch_table ORDER BY metadata <@> 'body:foo' DESC LIMIT 10; |
|
| Corrispondenza esatta al testo |
SELECT id, body FROM elasticsearch_table WHERE body = 'foo' LIMIT 10; |
|
| Espressioni a campo singolo |
SELECT id, body FROM elasticsearch_table WHERE id > 10 ORDER BY metadata <@> 'body:foo' LIMIT 10; |
|
| Espressioni costanti |
SELECT id, body FROM elasticsearch_table WHERE id > (1+1) LIMIT 10; |
|
| Espressioni con funzioni |
SELECT id, body FROM elasticsearch_table WHERE id > CEIL(3.14) LIMIT 10; |
|
| Espressioni con più campi |
SELECT id, body FROM elasticsearch_table WHERE dbl_field < flt_field LIMIT 10; |
|
| Filtro del punteggio |
SELECT id, body, (metadata <@> 'body:bar') AS score FROM elasticsearch_table WHERE score > 0.5 ORDER by score desc LIMIT 10; |
|
LIKE e operatori simili |
SELECT id, body FROM elasticsearch_table WHERE id > 10 AND body LIKE '%foo%' LIMIT 10; |
|
| Query non elaborate |
SELECT id, body FROM elasticsearch_table WHERE id < 10 ORDER BY metadata <@> $${"query": { "match_all": {}}}$$ DESC LIMIT 10; |
|