Gerenciar manualmente o conteúdo do repositório de colunas

Esta página descreve como gerenciar manualmente o conteúdo do mecanismo colunar para acelerar o desempenho da consulta. Ela explica como adicionar e remover tabelas, visualizações materializadas e índices ScaNN.

Gerenciar tabelas, visualizações materializadas e índices do ScaNN

Com base na sua carga de trabalho, é possível adicionar manualmente colunas ao repositório de colunas ou remover algumas ou todas as colunas de uma tabela ou visualização materializada do repositório de colunas. A avaliação de consulta usa automaticamente os dados em colunas armazenados para responder às consultas.

Da mesma forma, é possível adicionar manualmente um índice ScaNN ao mecanismo colunar para acelerar a pesquisa vetorial. Isso permite pesquisas eficientes de vizinho mais próximo em grandes conjuntos de dados de embeddings de vetor.

Ao escolher quais tabelas, visualizações materializadas e colunas adicionar ao columnstore, considere o tamanho dele e o formato da carga de trabalho. Boas candidatas para seleção incluem tabelas ou visualizações grandes que são varridas com frequência. Nessas tabelas ou visualizações, identifique grandes índices não exclusivos usados pela carga de trabalho OLAP. É possível adicionar as colunas desses índices ao columnstore e potencialmente descartar os índices, eliminando o custo de desempenho associado à manutenção deles na instância principal.

Use um dos seguintes métodos para gerenciar o conteúdo do mecanismo colunar:

Consulte Quais dados podem ser adicionados ao repositório de colunas para saber quais tipos e fontes de dados podem ser usados ao adicionar tabelas, colunas e visualizações materializadas ao repositório de colunas.

Antes de começar

  • Você precisa ter um destes papéis do IAM no Google Cloud projeto que está sendo usado:
    • roles/alloydb.admin (o papel predefinido do IAM de Admin do AlloyDB)
    • roles/owner (o papel básico do IAM de Proprietário)
    • roles/editor (o papel básico do IAM de Editor)

    Se você não tiver nenhum desses papéis, entre em contato com o Administrador da organização para solicitar o acesso.

Gerenciar o conteúdo do columnstore atualizando flags de banco de dados

É possível gerenciar manualmente o conteúdo do repositório de colunas atualizando a flag de banco de dados google_columnar_engine.relations. A flag tem um único valor que especifica todas as fontes de dados do armazenamento de colunas. Durante a reinicialização, as colunas especificadas nessa flag são preenchidas automaticamente no repositório de colunas.

É possível usar essa flag com a colunação automática. Se o mecanismo colunar tiver memória disponível depois de preencher as colunas especificadas pela flag google_columnar_engine.relations, a columnarização automática vai adicionar mais colunas ao repositório de colunas, conforme necessário.

Para mais informações sobre como definir flags de banco de dados de uma instância usando a Google Cloud CLI ou o console Google Cloud , consulte Configurar flags de banco de dados de uma instância.

Adicionar colunas usando flags

Para adicionar colunas ao repositório de colunas, defina a flag google_columnar_engine.relations de uma instância. Defina o valor como uma lista separada por vírgulas de itens, em que cada item especifica uma lista de colunas a serem incluídas de uma tabela específica, neste formato:

DATABASE_NAME.SCHEMA_NAME.TABLE_NAME(COLUMN_LIST)

Substitua:

  • DATABASE_NAME: o banco de dados que contém as colunas a serem adicionadas ao repositório de colunas.

  • SCHEMA_NAME: o esquema que identifica as tabelas ou as visualizações materializadas a serem adicionadas ao armazenamento de colunas. Por exemplo, public.

  • TABLE_NAME: a tabela ou a visualização materializada que contém as colunas a serem adicionadas ao repositório de colunas.

  • COLUMN_LIST: uma lista separada por vírgulas das colunas a serem adicionadas ao repositório de colunas.

Para adicionar todas as colunas de uma tabela ou visualização materializada, omita a lista de colunas:

DATABASE_NAME.SCHEMA_NAME.TABLE_NAME

Para mais informações sobre como definir flags de banco de dados em uma instância, consulte Configurar flags de banco de dados de uma instância.

Sintaxe da CLI do Google Cloud CLI ao usar google_columnar_engine.relations

Se você usar a Google Cloud CLI para definir a flag google_columnar_engine.relations, use a sintaxe de delimitador alternativo para separar as flags do banco de dados definidas. Isso acontece porque a lista de colunas é separada por vírgulas, exigindo que você use um caractere diferente de vírgula ao especificar flags no mesmo argumento de linha de comando.

O exemplo a seguir demonstra o uso da CLI gcloud para adicionar duas colunas no esquema public ao repositório de colunas. O exemplo define uma flag separada para ativar o mecanismo colunar, porque usar o comando gcloud alloydb instance update para definir qualquer flag de banco de dados também precisa definir todas as outras flags que você quer ter com valores não padrão, mesmo que já estejam definidas.

gcloud alloydb instances update INSTANCE_NAME \
    --database-flags=^:^\
google_columnar_engine.relations='DATABASE_NAME.public.TABLE_NAME(COLUMN_1,COLUMN_2)'\
:google_columnar_engine.enabled=on\
[:FLAG_3=VALUE_3 ...] \
    --region=REGION_ID \
    --cluster=CLUSTER_ID

Descartar colunas usando flags

Para remover colunas do repositório de colunas, defina um novo valor para a flag google_columnar_engine.relations descrita na seção anterior, deixando de fora as colunas que você quer remover.

Para descartar todas as colunas do columnstore, desmarque a flag google_columnar_engine.relations da sua instância.

Para mais informações sobre como definir flags de banco de dados em uma instância, consulte Configurar flags de banco de dados de uma instância.

Gerenciar conteúdo do column store usando funções SQL

É possível gerenciar manualmente o conteúdo do repositório de colunas usando funções SQL.

Adicionar colunas usando funções SQL

Execute a função SQL google_columnar_engine_add para adicionar colunas ao repositório de colunas.

Esse método adiciona as colunas especificadas ao repositório de colunas e gerencia as colunas apenas no nó conectado. As novas colunas não persistem no armazenamento em reinicializações de instâncias.

Esse método não muda a flag do banco de dados google_columnar_engine.relations. A colunação automática não considera as colunas adicionadas por essa função SQL.

Cliente psql

SELECT google_columnar_engine_add(
    relation => 'TABLE_NAME',
    columns => 'COLUMN_LIST'
);
    Substitua:
  • 'TABLE_NAME': uma string que contém o nome da tabela ou da visualização materializada. Se a tabela ou a visualização estiver em um esquema diferente de public, especifique o nome do esquema, um ponto e o nome da tabela ou da visualização. Por exemplo, 'myschema.mytable'.
  • 'COLUMN_LIST': uma string que contém uma lista separada por vírgulas e sensível a maiúsculas e minúsculas dos nomes das colunas que você quer adicionar. Se você quiser adicionar todas as colunas da tabela ou da visualização materializada ao columnstore, omita esse parâmetro.

Remover colunas usando funções SQL

Execute a função SQL google_columnar_engine_drop da seguinte maneira:

Cliente psql

SELECT google_columnar_engine_drop(
    relation => 'TABLE_NAME',
    columns => 'COLUMN_LIST'
);
Substitua:
  • 'TABLE_NAME': uma string que contém o nome da tabela ou da visualização materializada. Se a tabela ou a visualização estiver em um esquema diferente de public, especifique o nome do esquema, um ponto e o nome da tabela ou da visualização. Por exemplo, 'myschema.mytable'.
  • 'COLUMN_LIST': uma string que contém uma lista separada por vírgulas e sensível a maiúsculas e minúsculas dos nomes das colunas que você quer adicionar. Se você quiser adicionar todas as colunas da tabela ou da visualização materializada ao columnstore, omita esse parâmetro.

É possível usar a função google_columnar_engine_drop para remover colunas adicionadas editando a flag do banco de dados google_columnar_engine.relations. No entanto, quando você faz isso, essas colunas são adicionadas novamente ao armazenamento colunar quando a instância é reiniciada.

Gerenciar índices do ScaNN no mecanismo colunar

Para acelerar a pesquisa vetorial, carregue os índices do ScaNN no cache de índice do mecanismo colunar.

Adicionar, remover e verificar índices do ScaNN usando funções SQL

É possível adicionar, remover e verificar manualmente os índices do ScaNN no cache de índice usando funções SQL. Adicionar um índice ao cache pode acelerar as consultas de pesquisa de vetor.

Adicionar um índice ScaNN

Para adicionar um índice específico ao cache de índice do mecanismo colunar, use a seguinte função SQL:

SELECT google_columnar_engine_add_index(index => 'SCANN_INDEX_NAME');

Substitua SCANN_INDEX_NAME pelo nome do índice do ScaNN que você quer adicionar ao cache de índice do mecanismo colunar.

Remover um índice do ScaNN

Para remover um índice ScaNN específico do mecanismo colunar, use a seguinte função SQL:

SELECT google_columnar_engine_drop_index(index => 'SCANN_INDEX_NAME');

Substitua SCANN_INDEX_NAME pelo nome do índice do ScaNN que você quer remover.

Verificar o uso do mecanismo colunar

Para verificar se as verificações do índice vetorial usam o mecanismo colunar, execute o comando EXPLAIN ANALYZE com a opção COLUMNAR_ENGINE:

EXPLAIN (ANALYZE TRUE, SCANN TRUE, COSTS FALSE, TIMING FALSE, SUMMARY FALSE, VERBOSE FALSE, COLUMNAR_ENGINE TRUE)
SELECT * FROM t ORDER BY val <=> '[0.5,0.5,0.5,0.5]' LIMIT 100;

O comando retorna um plano de consulta semelhante a este:

Index Scan using t_ix3 on t t_1 (actual rows=100 loops=1)
      Order By: (val <=> '[0.5,0.5,0.5,0.5]'::vector)
      Limit: 100
      ScaNN Info: (... columnar engine nodes hit=6...)
      Columnar Engine ScaNN Info: (index found=true)

A presença de columnar engine nodes hit e Columnar Engine ScaNN Info: (index found=true) na saída confirma que o mecanismo colunar é usado para a consulta.