APIs da Vertex AI para criar experiências de pesquisa e RAG

A Vertex AI oferece um conjunto de APIs para ajudar você a criar aplicativos de geração aumentada por recuperação (RAG) ou um mecanismo de pesquisa. Esta página apresenta essas APIs.

Recuperação e geração

A RAG é uma metodologia que permite que modelos de linguagem grandes (LLMs) gerem respostas baseadas na fonte de dados escolhida. Há duas etapas na RAG:

  1. Recuperação: encontrar os fatos mais relevantes rapidamente pode ser um problema comum de pesquisa. Com a RAG, é possível recuperar rapidamente os fatos importantes para gerar uma resposta.
  2. Geração:os fatos recuperados são usados pelo LLM para gerar uma resposta fundamentada.

A Vertex AI oferece opções para as duas etapas, atendendo a várias necessidades dos desenvolvedores.

Recuperação

Escolha o melhor método de recuperação para suas necessidades:

  • Pesquisa do agente:a Pesquisa do agente é um mecanismo de recuperação de informações de qualidade da Pesquisa Google que pode ser um componente de qualquer aplicativo de IA generativa que usa dados corporativos. A Pesquisa do agente funciona como um mecanismo de pesquisa semântica e de palavras-chave pronto para uso para RAG, com a capacidade de processar vários tipos de documentos e com conectores para vários sistemas de origem, incluindo o BigQuery e muitos sistemas de terceiros.

    Para mais informações, consulte Pesquisa do agente.

  • Crie sua própria recuperação:se você quiser criar sua pesquisa semântica, poderá usar as APIs da Vertex AI para componentes do seu sistema RAG personalizado. Esse conjunto de APIs oferece implementações de alta qualidade para análise de documentos, geração de embeddings, pesquisa de vetor e classificação semântica. O uso dessas APIs de nível inferior oferece total flexibilidade no design do seu recuperador, além de acelerar o tempo de lançamento no mercado e oferecer alta qualidade, dependendo das APIs de nível inferior da Vertex AI.

    Para mais informações, consulte Criar sua própria geração aumentada por recuperação.

  • Traga uma recuperação atual: você pode usar sua pesquisa atual como um recuperador para geração fundamentada. Também é possível fundamentar respostas usando a RAG para fazer upgrade da pesquisa atual e melhorar a qualidade. Para mais informações, consulte Visão geral do embasamento.

  • Mecanismo RAG da Vertex AI: o Mecanismo RAG da Vertex AI oferece um ambiente de execução totalmente gerenciado para orquestração de RAG, que permite que os desenvolvedores criem RAG para uso em contextos de produção e prontos para empresas.

    Para mais informações, consulte Visão geral do Mecanismo RAG da Vertex AI na documentação da IA generativa na Vertex AI.

  • Pesquisa Google: quando você usa o recurso de Embasamento com a Pesquisa Google para o modelo do Gemini, o Gemini usa a Pesquisa Google e gera uma saída baseada nos resultados de pesquisa relevantes. Esse método de recuperação não exige gerenciamento, e você tem acesso ao conhecimento mundial disponível para o Gemini.

    Para mais informações, consulte Embasamento com a Pesquisa Google na documentação da IA generativa na Vertex AI.

Geração

Escolha o melhor método de geração para suas necessidades:

  • Basear com seus dados: gere respostas bem fundamentadas para uma consulta do usuário. A API de geração fundamentada usa modelos especializados e ajustados do Gemini e é uma maneira eficaz de reduzir alucinações e fornecer respostas baseadas nas suas fontes ou em fontes de terceiros, incluindo referências ao conteúdo de suporte de embasamento.

    Para mais informações, consulte Gerar respostas fundamentadas com a RAG.

    Também é possível fundamentar respostas aos dados da Pesquisa do agente usando a IA generativa na Vertex AI. Para mais informações, consulte Basear com seus dados.

  • Embasamento com a Pesquisa Google:o Gemini é o modelo mais eficiente do Google e oferece embasamento pronto para uso com a Pesquisa Google. É possível usá-lo para criar sua solução de geração fundamentada totalmente personalizada.

    Para mais informações, consulte Embasamento com a Pesquisa Google em a documentação da IA generativa na Vertex AI.

  • Model Garden: se você quiser controle total e o modelo de sua escolha, poderá usar qualquer um dos modelos no Vertex AI Model Garden para geração.

Criar sua própria geração aumentada por recuperação

O desenvolvimento de um sistema RAG personalizado para embasamento oferece flexibilidade e controle em todas as etapas do processo. A Vertex AI oferece um conjunto de APIs para ajudar você a criar suas próprias soluções de pesquisa. O uso dessas APIs oferece total flexibilidade no design do seu aplicativo RAG, além de acelerar o tempo de lançamento no mercado e oferecer alta qualidade, dependendo dessas APIs de nível inferior da Vertex AI.

  • O analisador de layout da Document AI. O analisador de layout da Document AI transforma documentos em vários formatos em representações estruturadas, tornando o conteúdo, como parágrafos, tabelas, listas e elementos estruturais, como cabeçalhos, cabeçalhos de página e rodapés, acessível e criando blocos contextuais que facilitam a recuperação de informações em uma variedade de aplicativos de IA generativa e descoberta.

    Para mais informações, consulte Analisador de layout da Document AI na documentação da Document AI.

  • API Embeddings:as APIs de embeddings da Vertex AI permitem criar embeddings para entradas de texto ou multimodais. Embeddings são vetores de números de ponto flutuante projetados para capturar o significado da entrada. É possível usar os embeddings para ativar a pesquisa semântica usando a pesquisa de vetor.

    Para mais informações, consulte Embeddings de texto e Embeddings multimodais na documentação da IA generativa na Vertex AI.

  • Pesquisa vetorial. O mecanismo de recuperação é uma parte fundamental do seu RAG ou app de pesquisa. A pesquisa vetorial da Vertex AI é um mecanismo de recuperação que pode pesquisar bilhões de itens semanticamente semelhantes ou relacionados semanticamente em escala, com altas consultas por segundo (QPS), alto recall, baixa latência e eficiência de custos. Ele pode pesquisar embeddings densos e oferece suporte à pesquisa de palavras-chave de embeddings esparsos e à pesquisa híbrida na prévia pública.

    Para mais informações, consulte: Visão geral da Vertex AI Pesquisa vetorial na documentação da Vertex AI.

  • A API Ranking. A API Ranking recebe uma lista de documentos e os classifica novamente com base na relevância deles para uma determinada consulta. Em comparação com embeddings que analisam puramente a similaridade semântica de um documento e uma consulta, a API Ranking pode fornecer uma pontuação mais precisa de como um documento responde a uma determinada consulta.

    Para mais informações, consulte Melhorar a qualidade da pesquisa e da RAG com a API Ranking.

  • A API de geração fundamentada. Use a API de geração fundamentada para gerar respostas bem fundamentadas a um comando do usuário. As fontes de embasamento podem ser seus repositórios de dados da Pesquisa do agente, dados personalizados fornecidos por você ou a Pesquisa Google.

    Para mais informações, consulte Gerar respostas fundamentadas.

  • A API de geração de conteúdo. Use a API de geração de conteúdo para gerar respostas bem fundamentadas a um comando do usuário. As fontes de embasamento podem ser seus repositórios de dados da Pesquisa do agente ou a Pesquisa Google.

    Para mais informações, consulte Basear com a Pesquisa Google ou Basear com seus dados.

  • A API de verificação de embasamento. A API de verificação de embasamento determina o quanto um determinado trecho de texto está fundamentado em um conjunto específico de textos de referência. A API pode gerar citações de suporte do texto de referência para indicar onde o texto fornecido é compatível com os textos de referência. Entre outras coisas, a API pode ser usada para avaliar o embasamento de respostas de um sistema RAG. Além disso, como um recurso experimental, a API também gera citações contraditórias que mostram onde o texto fornecido e os textos de referência discordam.

    Para mais informações, consulte Verificar o embasamento.

Fluxo de trabalho: gerar respostas fundamentadas de dados não estruturados

Confira um fluxo de trabalho que descreve como integrar as APIs RAG da Vertex AI para gerar respostas fundamentadas de dados não estruturados.

  1. Importe seus documentos não estruturados, como arquivos PDF, HTML ou imagens com texto, para um local do Cloud Storage.
  2. Processe os documentos importados usando o analisador de layout. O analisador de layout divide os documentos não estruturados em blocos e transforma o conteúdo não estruturado na representação estruturada. O analisador de layout também extrai anotações dos blocos.
  3. Crie embeddings de texto para blocos usando a API de embeddings de texto da Vertex AI.
  4. Indexe e recupere os embeddings de blocos usando a pesquisa de vetor.
  5. Classifique os blocos usando a API Ranking e determine os blocos mais bem classificados.
  6. Gere respostas fundamentadas com base nos blocos mais bem classificados usando a API de geração fundamentada ou usando a API de geração de conteúdo.

Se você gerou as respostas usando um modelo de geração de respostas diferente dos modelos do Google, poderá verificar o embasamento dessas respostas usando o método de verificação de embasamento.