Cotas

A estimativa precisa de cota se baseia no número de consultas por segundo (QPS) para cada API. As seções a seguir descrevem as cotas das APIs usadas com cada recurso do Agent Assist.

Consulte a página de cotas para mais informações sobre como solicitar um aumento de cota. Após o envio da sua solicitação, o Google poderá entrar em contato com você para mais informações e para comunicar se a solicitação foi aprovada ou negada.

Se não for possível especificar dimensões ao solicitar um aumento de cota para cotas multirregionais no console Google Cloud , use a Google Cloud CLI ou entre em contato com o Cloud Customer Care.

Tipos de projeto

As tabelas de cota a seguir listam dois tipos de projetos: consumidor e recurso. Consulte a documentação sobre como usar vários projetos para ver as definições desses dois tipos de projetos.

Transcrição de voz

Esse recurso usa a integração de telefonia ou gRPC, que têm cotas de API diferentes.

Integração de telefonia

Consulte as cotas do Dialogflow para as APIs usadas com a integração de telefonia.

Integração do gRPC

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
AnalyzeContentOperationsPerMinutePerProject 300 solicitações/min Global Projeto do consumidor Solicitações AnalyzeContent/StreamingAnalyzeContent. A cota é compartilhada entre o Dialogflow e o Agent Assist.
ConcurrentBidiStreamingSessionsPerProjectPerRegion 50 solicitações simultâneas Regional (o tráfego global é contado na região us-central1) Projeto do consumidor (projeto de recurso para integração de SipRec de telefonia) Sessões simultâneas de streaming bidirecional por região

Transcrição com modelos do Chirp

A transcrição de voz é compatível com os seguintes modelos do Chirp:

  • chirp_2
  • chirp_3
Nome da cota Valor padrão Região Recurso de cobrança ou projeto consumidor Descrição
SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 20 solicitações por minuto Regional (o tráfego global é contado na região us-central1). Projeto do consumidor (projeto de recurso para integração de SipRec de telefonia) Dimensões de cota: resource_type={stt_model_name} (número de novas solicitações de StreamingRecognize enviadas para a STT V2 por tipo de recurso)

Análise de sentimento

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
AnalyzeSentimentOpsPerMinutePerProjectPerVersionPerMultiRegion 300 solicitações/min EUA multirregional Projeto do consumidor Dimensões da cota: multi-region=us,version=v3. Solicitações de análise de sentimento usando AnalyzeContent ou StreamingAnalyzeContent por versão e por multirregião
AnalyzeSentimentOperationsPerMinutePerProject 300 solicitações/min Global Projeto do consumidor Solicitações de análise de sentimento usando AnalyzeContent ou StreamingAnalyzeContent.
AnalyzeSentimentOperationsPerMinutePerProjectPerRegion 300 solicitações/min Regional Projeto do consumidor Solicitações de análise de sentimento usando AnalyzeContent ou StreamingAnalyzeContent.

Crie sua própria assistência

Esse recurso usa os seguintes modelos de IA:

  • text-bison@001 (limite padrão 0)
  • text-bison@002
  • text-bison-32k@002
  • gemini-1.0-pro
  • gemini-1.5-pro
  • gemini-1.5-pro-001
  • gemini-1.5-flash-001
  • gemini-1.5-flash-002
  • gemini-2.0-flash-001
Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
GeneratorSuggestionOperationsPerMinutePerModelType 10 solicitações/min Global Projeto do consumidor Operações de sugestão do gerador por tipo de modelo
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion 10 solicitações/min Regional Projeto do consumidor Dimensões da cota: model_type={model_name}. Operações de sugestão do gerador por tipo de modelo e região

Resposta inteligente

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
SmartReplyBaselineModelOperationsPerMinutePerProject 120 solicitações/min Global Projeto do consumidor Receber solicitações de modelo de referência de resposta inteligente por AnalyzeContent ou SuggestSmartReplies
SmartReplyBaselineV2ModelOperationsPerMinutePerProject 60 solicitações/min Global Projeto do consumidor Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies
SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion 60 solicitações/min Regional Projeto do consumidor Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies

Resposta inteligente generativa

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
SmartReplyBaselineModelOperationsPerMinutePerProject 120 solicitações/min Global Projeto do consumidor Receber solicitações de modelo de referência de resposta inteligente por AnalyzeContent ou SuggestSmartReplies
SmartReplyBaselineV2ModelOperationsPerMinutePerProject 60 solicitações/min Global Projeto do consumidor Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies
SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion 60 solicitações/min Regional Projeto do consumidor Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies

Resumo

O resumo gerado com IA usa os seguintes modelos:

  • summarization-1.0
  • summarization-2.0
  • summarization-2.1
  • summarization-3.0
  • summarization-3.1
  • summarization-4.0
  • summarization-5.0

A tabela a seguir mostra o tipo de cota e o modelo usado para cada versão do resumo.


Versão do resumo

Tipo de cota

Modelo de back-end

Generator 5.0

Com base em gerador

Gemini-2.5-flash pré-treinado

Gerador 4.0

Com base em gerador

Gemini-2.0-flash-001 pré-treinado

Gerador 3.1

Com base em gerador

gemini-1.5-flash-001 ajustado com LoRA

Gerador 3.0

Com base em gerador

gemini-1.0-pro-002 ajustado com LoRA

Gerador 2.1

Com base em gerador

text-bison-32k@002 ajustado com Lora

Generator 2.0

Com base em gerador

text-bison-32k@002 ajustado com Lora

Generator 1.0

Com base em gerador

text-bison@001 ajustado com Lora

Valor de referência v2

Modelo de referência v2

text-bison

Valor de referência v1

Não baseado em gerador
Modelo
LongT5

Personalizado 2.0

Não baseado em gerador
Modelo
LongT5

Os tipos de cota na tabela anterior são refletidos na lista de cotas a seguir para APIs usadas com resumo.


Tipo de cota

Nome do limite de cota

Valor padrão

Região

Recurso de cobrança/projeto do consumidor

Descrição

Com base em gerador

GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion

10 solicitações/min

Regional

Projeto do consumidor

Dimensões da cota: model_type=summarization-{version_num}.Operações de sugestão do gerador por tipo de modelo e região

Com base em gerador

GeneratorSuggestionOperationsPerMinutePerModelType

10 solicitações/min

Global

Projeto do consumidor

Operações de sugestão do gerador por tipo de modelo

Com base em gerador

GeneratorSuggestionOperationsPerMinutePerModelTypePerMultiRegion

10 solicitações/min

EUA multirregional

Projeto do consumidor

Dimensões de cota: multi-region=us, model_type=summarization-{version_num}. Operações de sugestão do gerador por tipo de modelo e região

Com base em gerador

SuggestConversationSummaryOperationsPerMinutePerProject

60 solicitações/min

Global

Projeto de recursos

Sugerir operações de resumo de conversa

Não baseado em gerador

SuggestConversationSummaryOperationsPerMinutePerProjectPerRegion

0 a 2 solicitações/min

Regional

Projeto de recursos

Sugerir operações de resumo de conversa em cada região

Modelo de referência v2

SuggestSummaryV2BaselineOperationsPerMinutePerProject

120 solicitações/min

Global

Projeto de recursos

Solicitações de pesquisa de referência da sugestão de resumo de conversa V2

Modelo de referência v2

SuggestSummaryV2BaselineOperationsPerMinutePerProjectPerRegion

60 solicitações/min

Regional

Projeto de recursos

Solicitações de pesquisa de modelo de referência da sugestão de resumo de conversa V2 em cada região

Autoavaliação de resumo

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
ConcurrentSummarizationEvaluationsPerProject 1 solicitação por projeto Projeto do consumidor Pedidos de autoavaliação

Se você precisar de mais cotas simultâneas, faça uma solicitação no console Google Cloud . Esse recurso aceita até quatro cotas simultâneas por projeto.

Assistência de conhecimento generativo

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
SearchKnowledgeRequestsPerMinutePerProject 60 solicitações/min Global Projeto do consumidor Solicitações do SearchKnowledge
SearchKnowledgeRequestsPerMinutePerProjectPerRegion 30 solicitações/min Regional Projeto do consumidor O SearchKnowledge solicita cada região
SearchKnowledgeRequestsPerMinutePerProjectPerMultiRegion 30 solicitações/min EUA multirregional Projeto do consumidor Dimensões da cota: multi-region=us. O SearchKnowledge solicita cada multirregião

Assistência de conhecimento generativo proativa

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
SuggestKnowledgeAssistOperationsPerMinutePerProject 60 solicitações/min Global Projeto de recursos Solicitações do KnowledgeAssist usando AnalyzeContent ou SuggestKnowledgeAssist
SuggestKnowledgeAssistOperationsPerMinutePerProjectPerRegion 30 solicitações/min Regional Projeto de recursos Solicitações do KnowledgeAssist usando AnalyzeContent ou SuggestKnowledgeAssist em cada região
SuggestKnowledgeAssistOpsPerMinutePerProjectPerMultiRegion 30 solicitações/min EUA multirregional Projeto de recursos Dimensões da cota: multi-region=us. Solicitações do KnowledgeAssist usando AnalyzeContent ou SuggestKnowledgeAssist em cada multirregião

Coach de IA (LLM)

Esse recurso usa o modelo de IA agent-coaching-2.5.

Nome do limite de cota Valor padrão Região Recurso de cobrança ou projeto consumidor Descrição
GeneratorSuggestionOperationsPerMinutePerModelType 60 solicitações por minuto Global Projeto do consumidor Dimensões da cota: model_type=agent-coaching-2.5. Operações de sugestão do gerador por tipo de modelo
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion 60 solicitações por minuto Regional Projeto do consumidor Dimensões da cota: model_type=agent-coaching-2.5. Operações de sugestão do gerador por tipo de modelo e região
GeneratorSuggestionOperationsPerMinutePerModelTypePerMultiRegion 60 solicitações por minuto EUA multirregional Projeto do consumidor Dimensões da cota: multi-region=us,model_type=agent-coaching-2.5. Operações de sugestão do gerador por tipo de modelo e multirregião

Outras cotas de API

Nome do limite de cota Valor padrão Região Recurso de cobrança/projeto do consumidor Descrição
ConversationOperationsPerMinutePerProject 300 solicitações/min Global Projeto do consumidor Outras solicitações de conversa, exceto AnalyzeContent e StreamingAnalyzeContent, por exemplo, CreateConversation e CompleteConversation. A cota é compartilhada entre o Dialogflow e o Agent Assist.
MessagePollingOperationsPerMinutePerProject 1.200 solicitações / min Global Projeto do consumidor Solicitações ListMessages. A cota é compartilhada entre o Dialogflow e o Agent Assist.
AnswerRecordOperationsPerMinutePerProject 300 solicitações / min Global Projeto do consumidor Solicitações de AnswerRecord