En esta página, se describe cómo administrar manualmente el contenido del motor columnar para acelerar el rendimiento de las consultas. Se explica cómo agregar y quitar tablas, vistas materializadas e índices de ScaNN.
Administra tablas, vistas materializadas e índices de ScaNN
Según tu carga de trabajo, puedes agregar columnas de forma manual al almacén de columnas o quitar algunas o todas las columnas de una tabla o una vista materializada del almacén de columnas. La evaluación de consultas usa automáticamente los datos de columnas almacenados para responder las consultas.
De manera similar, puedes agregar manualmente un índice de ScaNN al motor columnar para acelerar la búsqueda de vectores. Esto permite realizar búsquedas eficientes de vecinos más cercanos en grandes conjuntos de datos de embeddings de vectores.
Cuando elijas qué tablas, vistas materializadas y columnas agregar al almacén de columnas, ten en cuenta el tamaño del almacén de columnas y la forma de la carga de trabajo. Entre los candidatos adecuados para la selección, se incluyen las tablas o vistas grandes que se analizan con frecuencia. Dentro de estas tablas o vistas, identifica los índices grandes no únicos que usa la carga de trabajo de OLAP. Puedes agregar las columnas de estos índices al almacén de columnas y, posiblemente, descartar los índices, lo que eliminará el costo de rendimiento asociado con su mantenimiento en la instancia principal.
Usa uno de los siguientes métodos para administrar el contenido del motor columnar:
- Administra el contenido del almacén de columnas actualizando las marcas de la base de datos
- Administra el contenido del almacén de columnas con funciones de SQL
Consulta Qué datos puedes agregar al almacén de columnas para obtener información sobre los tipos de datos y las fuentes de datos que puedes usar cuando agregues tablas, columnas y vistas materializadas al almacén de columnas.
Antes de comenzar
- Debes tener uno de estos roles de IAM en el proyecto Google Cloud que estás usando:
roles/alloydb.admin
(el rol de IAM predefinido de administrador de AlloyDB)roles/owner
(el rol de IAM básico de propietario)roles/editor
(el rol básico de IAM de Editor)
Si no tienes ninguno de estos roles, comunícate con el administrador de tu organización para solicitar acceso.
Administra el contenido del almacén de columnas actualizando las marcas de la base de datos
Puedes administrar el contenido del almacén de columnas de forma manual actualizando la marca de la base de datos google_columnar_engine.relations
. La marca tiene un solo valor que especifica todas las fuentes de datos del almacén de columnas. Durante el reinicio, las columnas especificadas en esta marca se propagan automáticamente en el almacén de columnas.
Puedes usar esta marca junto con auto-columnarization. Si el motor columnar tiene memoria disponible después de completar las columnas que especificas a través de la marca google_columnar_engine.relations
, la columnarización automática agrega más columnas al almacén de columnas, según sea necesario.
Para obtener más información sobre cómo configurar las marcas de base de datos de una instancia con Google Cloud CLI o la consola de Google Cloud , consulta Configura las marcas de base de datos de una instancia.
Agrega columnas con marcas
Para agregar columnas al almacén de columnas, define una marca google_columnar_engine.relations
de la instancia. Establece su valor en una lista de elementos separados por comas, en la que cada elemento especifica una lista de columnas para incluir de una tabla específica, con este formato:
DATABASE_NAME.SCHEMA_NAME.TABLE_NAME(COLUMN_LIST)
Reemplaza lo siguiente:
DATABASE_NAME: Es la base de datos que contiene las columnas que se agregarán al almacén de columnas.
SCHEMA_NAME: Es el esquema que identifica las tablas o las vistas materializadas que se agregarán al almacén de columnas, por ejemplo,
public
.TABLE_NAME: Es la tabla o la vista materializada que contiene las columnas que se agregarán al almacén de columnas.
COLUMN_LIST: Es una lista separada por comas de las columnas que se agregarán al almacén de columnas.
Para agregar todas las columnas de una tabla o una vista materializada, omite la lista de columnas:
DATABASE_NAME.SCHEMA_NAME.TABLE_NAME
Para obtener más información sobre cómo configurar las marcas de base de datos en una instancia, consulta Configura las marcas de base de datos de una instancia.
Sintaxis de la CLI de Google Cloud cuando se usa google_columnar_engine.relations
Si usas Google Cloud CLI para establecer la marca google_columnar_engine.relations
, debes usar la sintaxis de delimitador alternativo para separar las marcas de la base de datos que establezcas. Esto se debe a que la lista de columnas está separada por comas, lo que requiere que uses un carácter que no sea una coma cuando especifiques marcas dentro del mismo argumento de línea de comandos.
En el siguiente ejemplo, se muestra cómo usar gcloud CLI para agregar dos columnas en el esquema public
al almacén de columnas. En el ejemplo, se establece una marca separada para habilitar el motor columnar, ya que usar el comando gcloud alloydb instance update
para establecer cualquier marca de la base de datos también debe establecer todas las demás marcas de la base de datos que desees que tengan valores no predeterminados, incluso si ya están establecidas.
gcloud alloydb instances update INSTANCE_NAME \
--database-flags=^:^\
google_columnar_engine.relations='DATABASE_NAME.public.TABLE_NAME(COLUMN_1,COLUMN_2)'\
:google_columnar_engine.enabled=on\
[:FLAG_3=VALUE_3 ...] \
--region=REGION_ID \
--cluster=CLUSTER_ID
Cómo descartar columnas con marcas
Para quitar columnas del almacén de columnas, establece un valor nuevo para la marca google_columnar_engine.relations
que se describió en la sección anterior, y omite las columnas que deseas quitar.
Para descartar todas las columnas del almacén de columnas, anula la marca google_columnar_engine.relations
de tu instancia.
Para obtener más información sobre cómo configurar marcas de base de datos en una instancia, consulta Configura las marcas de base de datos de una instancia.
Administra el contenido del almacén de columnas con funciones de SQL
Puedes administrar el contenido del almacén de columnas de forma manual con funciones de SQL.
Agregar columnas con funciones de SQL
Ejecuta la función de SQL google_columnar_engine_add
para agregar columnas al almacén de columnas.
Este método agrega las columnas especificadas al almacén de columnas y administra las columnas solo en el nodo conectado. Las columnas nuevas no persisten en el almacén durante los reinicios de la instancia.
Este método no cambia la marca de la base de datos google_columnar_engine.relations
. La columna automática no considera las columnas agregadas por esta función de SQL.
Cliente psql
SELECT google_columnar_engine_add( relation => 'TABLE_NAME', columns => 'COLUMN_LIST' );
-
Reemplaza lo siguiente:
- "TABLE_NAME": Es una cadena que contiene el nombre de la tabla o la vista materializada. Si la tabla o la vista se encuentran en un esquema que no es
public
, especifica el nombre del esquema, un punto y el nombre de la tabla o la vista; por ejemplo,'myschema.mytable'
. - "COLUMN_LIST": Es una cadena que contiene una lista separada por comas y sensible a mayúsculas y minúsculas de los nombres de las columnas que deseas agregar. Si deseas agregar todas las columnas de la tabla o de la vista materializada al almacén de columnas, omite este parámetro.
Cómo descartar columnas con funciones de SQL
Ejecuta la función de SQL google_columnar_engine_drop
de la siguiente manera:
Cliente psql
SELECT google_columnar_engine_drop( relation => 'TABLE_NAME', columns => 'COLUMN_LIST' );
- "TABLE_NAME": Es una cadena que contiene el nombre de la tabla o la vista materializada. Si la tabla o la vista se encuentran en un esquema que no es
public
, especifica el nombre del esquema, un punto y el nombre de la tabla o la vista; por ejemplo,'myschema.mytable'
. - "COLUMN_LIST": Es una cadena que contiene una lista separada por comas y sensible a mayúsculas y minúsculas de los nombres de las columnas que deseas agregar. Si deseas agregar todas las columnas de la tabla o de la vista materializada al almacén de columnas, omite este parámetro.
Puedes usar la función google_columnar_engine_drop
para quitar las columnas que se agregaron cuando se editó la marca de base de datos google_columnar_engine.relations
. Sin embargo, cuando lo haces, esas columnas se vuelven a agregar al almacén columnar cuando se reinicia la instancia.
Administra índices de ScaNN en el motor de columnas
Para acelerar la búsqueda de vectores, puedes cargar los índices de ScaNN en la caché de índices del motor de columnas.
Agrega, quita y verifica índices de ScaNN con funciones de SQL
Puedes agregar, quitar y verificar manualmente los índices de ScaNN desde la caché de índices con funciones de SQL. Agregar un índice a la caché puede acelerar las consultas de búsqueda de vectores.
Agrega un índice de ScaNN
Para agregar un índice específico a la caché de índices del motor columnar, usa la siguiente función de SQL:
SELECT google_columnar_engine_add_index(index => 'SCANN_INDEX_NAME');
Reemplaza SCANN_INDEX_NAME
por el nombre del índice de ScaNN que deseas agregar a la caché de índices del motor columnar.
Cómo quitar un índice de ScaNN
Para descartar un índice de ScaNN específico del motor columnar, usa la siguiente función SQL:
SELECT google_columnar_engine_drop_index(index => 'SCANN_INDEX_NAME');
Reemplaza SCANN_INDEX_NAME
por el nombre del índice de ScaNN que deseas quitar.
Verifica el uso del motor de columnas
Para verificar si tus análisis de índices vectoriales usan el motor columnar, ejecuta el comando EXPLAIN ANALYZE
con la opción COLUMNAR_ENGINE
:
EXPLAIN (ANALYZE TRUE, SCANN TRUE, COSTS FALSE, TIMING FALSE, SUMMARY FALSE, VERBOSE FALSE, COLUMNAR_ENGINE TRUE)
SELECT * FROM t ORDER BY val <=> '[0.5,0.5,0.5,0.5]' LIMIT 100;
El comando devuelve un plan de consulta similar al siguiente:
Index Scan using t_ix3 on t t_1 (actual rows=100 loops=1)
Order By: (val <=> '[0.5,0.5,0.5,0.5]'::vector)
Limit: 100
ScaNN Info: (... columnar engine nodes hit=6...)
Columnar Engine ScaNN Info: (index found=true)
La presencia de columnar engine nodes hit
y Columnar Engine ScaNN Info: (index found=true)
en el resultado confirma que se usó el motor de columnas para la búsqueda.