Sobre recuperação e classificação

Esta página descreve como a recuperação e a classificação funcionam juntas para oferecer resultados de pesquisa relevantes nos apps da Vertex AI para Pesquisa.

Visão geral

Em resumo, a recuperação é a busca de documentos relevantes, enquanto a classificação é a ordenação desses documentos. A classificação de todos os documentos disponíveis pode ser computacionalmente cara. Portanto, a recuperação e a classificação funcionam sequencialmente.

Primeiro, o modelo de pesquisa entende a consulta e a reescreve. Em seguida, dependendo das fontes de dados disponíveis e do número de documentos indexados no repositório de dados, o modelo recupera documentos na ordem de milhares. Uma pontuação de relevância é atribuída a os documentos recuperados.

O modelo de classificação ordena os documentos recuperados e apresenta os 400 principais resultados classificados. A imagem a seguir mostra como esses dois processos se encaixam no fluxo de trabalho de pesquisa.

recuperação e classificação na pesquisa
Figura 1. Recuperação e classificação no fluxo de trabalho de pesquisa

Métodos de recuperação

A recuperação é o processo de seleção de um subconjunto de documentos do repositório de dados que são relevantes para a consulta de um usuário. O modelo da Vertex AI para Pesquisa gerencia a recuperação dos apps de pesquisa com base em diferentes indicadores, como os seguintes, e atribui pontuações de relevância:

  • Atualidade: inclui correspondência de palavras-chave, gráficos de conhecimento e indicadores da Web.

  • Embeddings: inclui embeddings para encontrar conteúdo conceitualmente semelhante.

  • Atenção cruzada: permite que um modelo considere a relação entre uma consulta e um documento para atribuir uma pontuação de relevância ao documento.

  • Atualização: envolve a verificação da idade dos documentos no repositório de dados.

  • Eventos do usuário: inclui indicadores de conversão usados para personalização.

Além disso, em uma solicitação de pesquisa, é possível fornecer filtros de relevância e filtros de metadados para dados de sites e dados estruturados ou não estruturados para restringir a lista de documentos relevantes.

Métodos de classificação

A classificação usa os documentos selecionados durante a fase de recuperação, atribui a eles uma nova pontuação de relevância de acordo com as condições a seguir e os reordena:

  • Aumento: promove e rebaixa determinados resultados de acordo com atributos personalizados ou atualidade. Isso afeta os primeiros 1.000 documentos recuperados e classifica os 400 principais. Para mais informações, consulte Aumentar os resultados da pesquisa.
  • Classificação personalizada: controla, ajusta e substitui a lógica de classificação padrão com um algoritmo de classificação baseado em fórmulas para atender aos seus requisitos específicos. A pontuação de relevância atribuída pela classificação personalizada tem precedência ao apresentar os resultados. Para mais informações, consulte Personalizar a classificação dos resultados da pesquisa.
  • Ordenação: aplica instruções de ordenação, por exemplo, por data.
  • Ajuste de pesquisa: afeta a forma como o modelo percebe a relevância semântica dos documentos e muda as pontuações de relevância do embedding. Para mais informações, consulte Melhorar os resultados da pesquisa com o ajuste de pesquisa.
  • Reclassificação baseada em eventos: atualiza os resultados no momento da exibição usando o modelo de personalização baseado em eventos do usuário.