Faturamento do mecanismo RAG na plataforma de agentes do Gemini Enterprise

Esta página descreve os preços e o faturamento do mecanismo RAG na Gemini Enterprise Agent Platform com base nos componentes que você usa, como modelos, reclassificação e armazenamento de vetores.

Para mais informações, consulte a página de visão geral do mecanismo RAG na plataforma de agentes do Gemini Enterprise.

Preços e faturamento

Esta tabela explica como funciona o faturamento ao usar os componentes de RAG.

Componente Como funciona o faturamento com o mecanismo RAG
Ingestão de dados O mecanismo RAG é compatível com a ingestão de dados de diferentes fontes. Por exemplo, fazer upload de arquivos locais, do Cloud Storage e do Google Drive. O acesso a arquivos nessas fontes de dados do RAG Engine é sem custo financeiro, mas elas podem cobrar pela transferência de dados. Por exemplo, custos de saída de dados.
Transformação de dados (análise de arquivos)
  • Parser padrão: sem custo financeiro.
  • Parser de LLM: o mecanismo de RAG usa o modelo de LLM especificado para analisar seu arquivo, e você vai ver e pagar os custos do modelo de LLM diretamente do seu projeto.
  • Analisador de layout da Document AI: o mecanismo de RAG usa o analisador de layout da Document AI especificado para processar seu arquivo. O uso desse analisador vai aparecer e ser cobrado diretamente no seu projeto.
Transformação de dados (divisão de arquivos em partes) Aceita o chunking de tamanho fixo, que é sem custo financeiro.
Geração de embeddings

O mecanismo RAG orquestra a geração de embeddings usando o modelo especificado, e seu projeto é cobrado pelos custos associados a esse modelo.

Para mais informações sobre preços, consulte Custo de criação e implantação de modelos de IA na Gemini Enterprise Agent Platform.

Indexação e recuperação de dados

O mecanismo RAG é compatível com duas categorias de bancos de dados de vetores para pesquisa vetorial:

  • Banco de dados gerenciado por RAG
  • Use seu próprio banco de dados de vetores

Um banco de dados gerenciado por RAG tem duas finalidades:

  • Um banco de dados gerenciado por RAG armazena recursos de RAG, como corpora e arquivos. O conteúdo dos arquivos é excluído.
  • Indexação e recuperação de embeddings para pesquisa vetorial, de acordo com sua escolha.

Um banco de dados gerenciado por RAG usa uma instância do Spanner como back-end.

Para cada um dos seus projetos, o Mecanismo RAG provisiona um projeto Google Cloud específico do cliente e gerencia recursos gerenciados pelo RAG armazenados no Mecanismo RAG, para que seus dados sejam isolados fisicamente.

Se você escolher o nível RagManagedDB Basic ou Scaled, o mecanismo RAG vai provisionar uma instância da edição Enterprise do Spanner no projeto correspondente:

  • Nível básico: 100 unidades de processamento com backup
  • Nível escalonado: começa com um nó (1.000 unidades de processamento) e faz escalonamento automático para até 10 nós com backup.

Se algum corpus RAG no seu projeto usar um banco de dados gerenciado por RAG para a pesquisa vetorial, você vai receber cobranças pela instância do Spanner gerenciada por RAG.

O Mecanismo RAG mostra os custos do Spanner do projeto gerenciado por RAG correspondente no seu projeto Google Cloud, para que você possa ver e pagar os custos da instância do Spanner.

Para mais detalhes sobre os preços do Spanner, consulte Preços do Spanner.

Reclassificação para o mecanismo RAG na Gemini Enterprise Agent Platform

As seguintes ferramentas de classificação são compatíveis após a recuperação:

  • LLM Reranker: o mecanismo de RAG usa o modelo de LLM especificado para reclassificar os resultados da recuperação. Os custos do modelo de LLM aparecem e são pagos diretamente do seu projeto.
  • API de classificação da Pesquisa do Google: o mecanismo de RAG usa a API de classificação da Pesquisa do Google para reclassificar os resultados da recuperação, e você vai ver e pagar pela API Ranking diretamente do seu projeto.

Excluir mecanismo RAG

Os exemplos de código a seguir demonstram como excluir um mecanismo RAG para o console Google Cloud , Python e REST:

A seguir