Modos de implantação no mecanismo RAG da Vertex AI

O mecanismo de RAG da Vertex AI oferece diferentes modos de implantação para operar suas instâncias de RAG. A escolha do modo de implantação determina onde os dados são armazenados, como esse armazenamento é escalonado à medida que os dados aumentam e qual nível de gerenciamento de infraestrutura é necessário. Ao entender como esses modos operam, você pode escolher o equilíbrio certo de simplicidade, escalonabilidade e custos para seu projeto.

O mecanismo RAG da Vertex AI oferece dois modos de implantação: sem servidor e Spanner. É possível alternar entre os dois modos sem problemas. Os dados em cada modo permanecem isolados uns dos outros.

Modos de implantação disponíveis

Nesta seção, vamos discutir os dois modos de implantação disponíveis para o mecanismo RAG da Vertex AI:

Modo sem servidor

O modo sem servidor é a maneira mais acessível e recomendada de começar a usar o mecanismo RAG da Vertex AI. Ele oferece um banco de dados totalmente gerenciado, em escala planetária e pronto para empresas que abstrai todo o provisionamento e escalonamento de bancos de dados.

  • Ideal para: a maioria dos usuários, integração rápida e escalonamento perfeito sem precisar gerenciar configurações de infraestrutura.
  • Principais recursos: não exige gerenciamento de níveis. Ele usa automaticamente o Vertex AI Vector Search gerenciado por RAG como o banco de dados vetorial padrão para oferecer uma experiência de RAG simplificada e pronta para uso.

No modo sem servidor, o banco de dados gerenciado por RAG é usado para gerenciar operações comerciais de RAG e armazenar recursos de RAG. Esses recursos incluem (mas não se limitam a) RagCorpus, RagFiles, RagMetadata, DataSchema etc., mas não podem mais ser usados para indexação de incorporação e pesquisa vetorial.

Os usuários sempre precisam escolher um banco de dados vetorial diferente separadamente. No modo sem servidor, por padrão, o mecanismo RAG da Vertex AI provisiona uma coleção da Pesquisa Vetorial da Vertex AI 2.0 no seu projeto para indexação de embeddings e pesquisa vetorial. Em comparação com o modo do Spanner, o provisionamento da Pesquisa Vetorial da Vertex AI 2.0 no seu projeto oferece visibilidade e controle total sobre o uso e os custos do banco de dados de vetores. Consulte a seção Modo do Spanner x modo sem servidor para uma comparação detalhada.

Modo Spanner

O modo Spanner aloca uma infraestrutura dedicada do Spanner especificamente para servir como base da implantação do mecanismo RAG da Vertex AI. Ele foi projetado para cargas de trabalho que exigem recursos específicos de compliance (como CMEK) ou instâncias de banco de dados dedicadas e isoladas. O modo do Spanner é atribuído como padrão se uma opção de modo não for selecionada explicitamente.

Ao usar o modo do Spanner, você precisa gerenciar sua infraestrutura selecionando um nível de desempenho:

  • Nível básico (padrão): um nível fixo, econômico e de baixa computação adequado para experimentação, tamanhos pequenos de dados ou cargas de trabalho insensíveis à latência.
  • Nível escalonado:oferece performance em escala de produção com funcionalidade de escalonamento automático. É adequado para clientes com grandes quantidades de dados ou cargas de trabalho sensíveis ao desempenho.

Isolamento de dados e modos de troca

O mecanismo RAG da Vertex AI permite mudar o modo de implantação do projeto, desde que não haja operações em andamento no modo ativo. Você pode ter dados nos dois modos. No entanto, apenas um modo pode estar ativo por vez, e os dados são estritamente isolados entre os modos de implantação.

Como uma ferramenta útil, imagine que seu projeto se comporta como se tivesse dois back-ends completamente separados. Os recursos que você cria (corpora, arquivos importados e enviados e incorporações analisadas) ficam permanentemente vinculados ao modo de implantação que estava ativo durante a criação. Todas as solicitações de recuperação, diretamente ou pelo Gemini, também serão limitadas aos corpora e arquivos presentes no seu modo de implantação atual. A alternância entre os dois modos não move nem exclui dados do outro modo.

/vertex-ai/images/rag-engine-deployment-modes.png

Conforme ilustrado no diagrama:

  • API unificada: você usa as mesmas APIs RAG da Vertex AI para criar e gerenciar recursos. A API roteia automaticamente suas solicitações para o back-end associado ao modo de implantação ativo.
  • Visibilidade: se o modo sem servidor estiver ativo, seu aplicativo só poderá ver e interagir com RagCorpus A e B. O RagCorpus C, que foi criado no modo Spanner, permanece armazenado com segurança, mas fica completamente oculto e inacessível ao aplicativo até que você mude o modo do projeto de volta para Spanner.
  • Sem perda de dados: a troca de modos não exclui seus dados. Ela apenas muda qual "backend" a API está analisando.

Gerenciar o modo de implantação

O modo de implantação é uma configuração para envolvidos no projeto. É possível conferir ou mudar seu modo atual usando as APIs GetRagEngineConfig e UpdateRagEngineConfig. Consulte a página Alternar entre modos para saber como alternar entre os modos de implantação e escolher um nível adequado para o modo do Spanner.

Excluir dados e interromper o faturamento

Como os dados são isolados entre os modos, os processos para limpar recursos e interromper o faturamento variam um pouco dependendo de onde os dados estão.

  • Para excluir dados sem servidor:verifique se o modo ativo está definido como "Sem servidor". Chame a API ListRagCorpora para conferir seus recursos e exclua manualmente cada corpus usando a API DeleteRagCorpus.
  • Para excluir dados do Spanner (desprovisionamento): verifique se o modo ativo está definido como Spanner. Atualize o RagEngineConfig e defina o nível do Spanner como Unprovisioned. Isso vai excluir imediatamente sua instância dedicada do Spanner e todos os dados de RAG armazenados nela, interrompendo o faturamento associado ao modo do Spanner. Observação: não é possível recuperar os dados excluídos usando o nível não provisionado.

Modo Spanner x modo sem servidor

Recurso Modo sem servidor Modo Spanner
Custo
  • Sem custo financeiro para gerenciamento e orquestração de recursos.
  • O banco de dados de vetores é faturado diretamente de acordo com a escolha do usuário.
  • O preço depende da escolha do nível. Inclui gerenciamento e orquestração de recursos.
  • O custo do banco de dados vetorial é coberto para todos os corpora com RagManagedDb como opção de banco de dados vetorial.
  • Para o restante dos corpora, o banco de dados de vetores é cobrado diretamente de acordo com a escolha do usuário.
Escalonamento Escalonamento automático totalmente gerenciado É preciso configurar a escolha do nível, mas ele oferece um nível de escalonamento automático.
Isolamento O armazenamento não está isolado Fornece isolamento de armazenamento e desempenho.
CMEK No momento, não há CMEK Oferece suporte à CMEK
Controles de segurança da VPC Com suporte Com suporte
BDs de vetores compatíveis
  • Managed Vertex AI Vector Search 2.0 (padrão)
  • Pinecone
  • Weaviate
  • RagManagedDb (padrão)
  • Vertex AI Vector Search 2.0 gerenciado
  • Vertex AI Vector Search 1.0
  • Pinecone
  • Weaviate

A seguir