Práticas recomendadas para ajustar índices do ScaNN

Selecione uma versão da documentação:

Siga as práticas recomendadas para ajustar os índices do ScaNN e equilibrar a recuperação da pesquisa e as consultas por segundo (QPS). Dependendo de quantos níveis seu índice tem, os parâmetros e valores recomendados mudam.

Para informações sobre como criar índices do ScaNN, consulte Criar um índice do ScaNN.

Limites

Antes de começar a ajustar seus índices do ScaNN, reconheça o seguinte limite:

Antes de começar

Se você quiser criar um índice ScaNN de quatro níveis, primeiro ative o recurso Prévia para sua instância do AlloyDB. Para ativar o recurso de prévia, escolha um dos dois métodos a seguir:

Índice de árvore de dois níveis

Para aplicar recomendações que ajudam a encontrar os valores ideais de num_leaves e num_leaves_to_search para seu conjunto de dados, siga estas etapas recomendadas:

  1. Para criar o índice ScaNN otimizado para os casos a seguir, defina o parâmetro num_leaves com o valor abaixo, em que "rows" é o número de linhas na tabela indexada:
    • tempo de build e qualidade de índice equilibrados definem num_leaves como sqrt(rows).
    • quality define num_leaves como rows/100.
  2. Execute as consultas de teste, aumentando o valor de scann.num_of_leaves_to_search até atingir o intervalo de recall desejado, por exemplo, 95%. Para mais informações sobre como analisar suas consultas, consulte Analisar suas consultas.
  3. Anote a proporção entre scann.num_leaves_to_search e num_leaves, que será usada nas próximas etapas. Essa proporção fornece uma aproximação do conjunto de dados que vai ajudar você a alcançar a acurácia desejada.

    Se você estiver trabalhando com vetores de alta dimensão (500 dimensões ou mais) e quiser melhorar a acurácia, ajuste o valor de scann.pre_reordering_num_neighbors. O valor padrão é definido como 50 * K, em que K é o limite definido na consulta.
  4. Se a QPS estiver muito baixa depois que as consultas atingirem uma meta de recall, siga estas etapas:
    1. Recrie o índice, aumentando o valor de num_leaves e scann.num_leaves_to_search de acordo com as seguintes orientações:
      • Defina num_leaves como um fator maior da raiz quadrada da contagem de linhas. Por exemplo, se o índice tiver num_leaves definido como a raiz quadrada da contagem de linhas, tente definir como o dobro da raiz quadrada. Se o valor já for duplo, tente definir como o triplo da raiz quadrada.
      • Aumente scann.num_leaves_to_search conforme necessário para manter a proporção com num_leaves, que você anotou na etapa 3.
      • Defina num_leaves como um valor menor ou igual à contagem de linhas dividida por 100.
    2. Execute as consultas de teste novamente. Enquanto executa as consultas de teste, experimente reduzir scann.num_leaves_to_search e encontre um valor que aumente as QPS e mantenha o recall alto. Teste valores diferentes de scann.num_leaves_to_search sem recriar o índice.
  5. Repita a etapa 4 até que o QPS e o intervalo de recall atinjam valores aceitáveis.

Índice de árvore de três níveis

Além das recomendações para o índice de árvore de dois níveis ScaNN, use as orientações a seguir.

Para aplicar recomendações e encontrar o valor ideal dos parâmetros de índice num_leaves e max_num_levels, siga estas etapas:

  1. Crie o índice ScaNN com as seguintes combinações de num_leaves e max_num_levels com base nas suas metas de performance:

    • equilibrar tempo de build e qualidade do índice: defina max_num_levels como 2 e num_leaves como power(rows, ⅔).
    • Otimizar para qualidade: defina max_num_levels como 2 e num_leaves como rows/100.
  2. Execute suas consultas de teste. Para mais informações sobre como analisar consultas, consulte Analisar suas consultas.

  3. Anote a proporção entre scann.num_leaves_to_search e num_leaves que será usada nas próximas etapas. Essa proporção fornece uma aproximação do conjunto de dados que vai ajudar você a alcançar a acurácia desejada.

Se você estiver trabalhando com vetores de alta dimensão (500 dimensões ou mais) e quiser melhorar o recall, ajuste o valor de scann.pre_reordering_num_neighbors. O valor padrão é definido como 50 * K, em que K é o limite definido na consulta.

  1. Se a QPS estiver muito baixa depois que as consultas atingirem uma meta de recall, siga estas etapas:

    • Recrie o índice, aumentando o valor de num_leaves e scann.num_leaves_to_search de acordo com as seguintes orientações:
    • Defina num_leaves como um fator maior de power(rows, ⅔). Por exemplo, se o índice tiver num_leaves definido como power(rows, ⅔), tente definir como o dobro de power(rows, ⅔). Se o valor já for o dobro, tente definir como o triplo de power(rows, ⅔).
    • Aumente scann.num_leaves_to_search conforme necessário para manter a proporção com num_leaves, que você anotou na etapa 3.
    • Defina num_leaves com um valor menor ou igual a rows/100.
    • Execute as consultas de teste novamente. Enquanto executa as consultas de teste, experimente reduzir scann.num_leaves_to_search e encontre um valor que aumente as QPS e mantenha o recall alto. Teste valores diferentes de scann.num_leaves_to_search sem recriar o índice.
  2. Repita a etapa 4 até que o QPS e o intervalo de recall atinjam valores aceitáveis.

Índice de árvore de quatro níveis

Além das recomendações para índices de árvore de três níveis, use as orientações a seguir para encontrar o valor ideal de num_leaves e max_num_levels:

  1. Crie um índice ScaNN com as seguintes combinações de num_leaves e max_num_levels com base nas suas metas de performance:

    • Equilibre o tempo de build e a qualidade do índice: defina max_num_levels como 3 e num_leaves como power(ROWS, 3/4).

    • Otimize para qualidade: defina max_num_levels como 3 e num_leaves como ROWS/100.

  2. Execute suas consultas de teste. Para mais informações sobre como analisar consultas, consulte Analisar suas consultas.

  3. Anote a proporção entre scann.num_leaves_to_search e num_leaves. Use essa proporção para alcançar a meta de recall nas etapas subsequentes.

    Se você estiver trabalhando com vetores de alta dimensão (500 dimensões ou mais) e quiser melhorar o recall, ajuste o valor de scann.pre_reordering_num_neighbors.

  4. Se o QPS estiver muito baixo depois que as consultas atingirem uma meta de recall, recrie o índice, aumentando o valor de num_leaves e scann.num_leaves_to_search de acordo com as orientações a seguir:

    1. Defina num_leaves como um fator maior de power(ROWS, 3/4). Por exemplo, se o índice tiver num_leaves definido como power(ROWS, 3/4), tente definir o dobro desse valor. Se o valor já for duplo, tente definir como triplo.

    2. Aumente scann.num_leaves_to_search conforme necessário para manter a proporção com num_leaves, que você observou na etapa três.

    3. Defina num_leaves com um valor menor ou igual a ROWS/100.

    4. Execute as consultas de teste novamente. Enquanto você executa as consultas de teste, tente reduzir scann.num_leaves_to_search. Encontre um valor que aumente o QPS e mantenha o recall alto. Teste valores diferentes de scann.num_leaves_to_search sem recriar o índice.

  5. Repita a etapa quatro até que o intervalo de recall e o QPS atinjam valores aceitáveis.

Melhorar a recuperação de pesquisas filtradas

Ao realizar uma pesquisa de vetor de vizinho k-mais próximo (KNN) que inclui um filtro, você pode encontrar situações em que a consulta retorna menos resultados do que o solicitado na cláusula LIMIT. Isso pode levar ao que é conhecido como recall insuficiente e é mais provável que ocorra ao usar filtros altamente seletivos. Isso acontece porque as partições ou folhas iniciais que o ScaNN pesquisa não contêm vetores suficientes que atendam às condições do filtro.

Para resolver isso, o AlloyDB Omni oferece um recurso que permite que a pesquisa se expanda dinamicamente além do conjunto inicial de folhas para encontrar resultados correspondentes suficientes.

Como funciona o streaming

Para ativar a funcionalidade de streaming, defina o parâmetro scann.satisfy_limit como relaxed_order. Quando ativada, a verificação de vetor continua pesquisando outras partições de folha até encontrar resultados suficientes para atender ao LIMIT da sua consulta, melhorando assim o recall.

Para evitar que uma pesquisa continue por muito tempo e controlar o impacto no desempenho, use o parâmetro scann.max_pct_leaves_to_search. Essa configuração funciona como uma proteção ao definir um limite superior para a porcentagem do total de folhas que uma consulta pode visitar. O valor padrão é 15%.

Quando usar o streaming

Considere usar o recurso de transmissão quando:

  • Você usa filtros com suas pesquisas vetoriais.
  • Você percebe que suas consultas retornam menos resultados do que o esperado com base na cláusula LIMIT.

Ao ativar o scann.satisfy_limit, você melhora a recuperação das suas pesquisas filtradas. Também é recomendável configurar scann.max_pct_leaves_to_search para alcançar o equilíbrio entre recall e desempenho da consulta.

Manutenção de índice

Se a sua tabela está sujeita a atualizações ou inserções frequentes, recomendamos reindexar periodicamente o índice ScaNN atual para melhorar a acurácia de recall. Você pode monitorar as métricas de índice para visualizar mudanças nas distribuições de vetores ou mutações de vetores desde que o índice foi criado e, em seguida, reindexá-lo corretamente. Para mais informações sobre métricas, consulte Visualizar métricas de índice vetorial.

A seguir