A estimativa precisa de cota se baseia no número de consultas por segundo (QPS) para cada API. As seções a seguir descrevem as cotas das APIs usadas com cada recurso do Agent Assist.
Consulte a página de cotas para mais informações sobre como solicitar um aumento de cota. Após o envio da sua solicitação, o Google poderá entrar em contato com você para mais informações e para comunicar se a solicitação foi aprovada ou negada.
Se não for possível especificar dimensões ao solicitar um aumento de cota para cotas multirregionais no console Google Cloud , use a Google Cloud CLI ou entre em contato com o Cloud Customer Care.
Tipos de projeto
As tabelas de cota a seguir listam dois tipos de projetos: consumidor e recurso. Consulte a documentação sobre como usar vários projetos para ver as definições desses dois tipos de projetos.
Transcrição de voz
Esse recurso usa a integração de telefonia ou gRPC, que têm cotas de API diferentes.
Integração de telefonia
Consulte as cotas do Dialogflow para as APIs usadas com a integração de telefonia.
Integração do gRPC
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| AnalyzeContentOperationsPerMinutePerProject | 300 solicitações/min | Global | Projeto do consumidor | Solicitações AnalyzeContent/StreamingAnalyzeContent. A cota é compartilhada entre o Dialogflow e o Agent Assist. |
| ConcurrentBidiStreamingSessionsPerProjectPerRegion | 50 solicitações simultâneas | Regional (o tráfego global é contado na região us-central1) |
Projeto do consumidor (projeto de recurso para integração de SipRec de telefonia) | Sessões simultâneas de streaming bidirecional por região |
Transcrição com modelos do Chirp
A transcrição de voz é compatível com os seguintes modelos do Chirp:
- chirp_2
- chirp_3
| Nome da cota | Valor padrão | Região | Recurso de cobrança ou projeto consumidor | Descrição |
|---|---|---|---|---|
SttV2StreamingRequestsPerMinutePerResourceTypePerRegion |
20 solicitações por minuto | Regional (o tráfego global é contado na região us-central1). |
Projeto do consumidor (projeto de recurso para integração de SipRec de telefonia) | Dimensões de cota: resource_type={stt_model_name} (número de novas solicitações de StreamingRecognize enviadas para a STT V2 por tipo de recurso) |
Análise de sentimento
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| AnalyzeSentimentOpsPerMinutePerProjectPerVersionPerMultiRegion | 300 solicitações/min | EUA multirregional | Projeto do consumidor | Dimensões da cota: multi-region=us,version=v3.
Solicitações de análise de sentimento usando AnalyzeContent ou StreamingAnalyzeContent por versão e por multirregião |
| AnalyzeSentimentOperationsPerMinutePerProject | 300 solicitações/min | Global | Projeto do consumidor | Solicitações de análise de sentimento usando AnalyzeContent ou StreamingAnalyzeContent. |
| AnalyzeSentimentOperationsPerMinutePerProjectPerRegion | 300 solicitações/min | Regional | Projeto do consumidor | Solicitações de análise de sentimento usando AnalyzeContent ou StreamingAnalyzeContent. |
Crie sua própria assistência
Esse recurso usa os seguintes modelos de IA:
- text-bison@001 (limite padrão 0)
- text-bison@002
- text-bison-32k@002
- gemini-1.0-pro
- gemini-1.5-pro
- gemini-1.5-pro-001
- gemini-1.5-flash-001
- gemini-1.5-flash-002
- gemini-2.0-flash-001
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| GeneratorSuggestionOperationsPerMinutePerModelType | 10 solicitações/min | Global | Projeto do consumidor | Operações de sugestão do gerador por tipo de modelo |
| GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion | 10 solicitações/min | Regional | Projeto do consumidor | Dimensões da cota: model_type={model_name}. Operações de sugestão do gerador por tipo de modelo e região |
Resposta inteligente
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| SmartReplyBaselineModelOperationsPerMinutePerProject | 120 solicitações/min | Global | Projeto do consumidor | Receber solicitações de modelo de referência de resposta inteligente por AnalyzeContent ou SuggestSmartReplies |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProject | 60 solicitações/min | Global | Projeto do consumidor | Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion | 60 solicitações/min | Regional | Projeto do consumidor | Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies |
Resposta inteligente generativa
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| SmartReplyBaselineModelOperationsPerMinutePerProject | 120 solicitações/min | Global | Projeto do consumidor | Receber solicitações de modelo de referência de resposta inteligente por AnalyzeContent ou SuggestSmartReplies |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProject | 60 solicitações/min | Global | Projeto do consumidor | Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion | 60 solicitações/min | Regional | Projeto do consumidor | Receber solicitações do modelo de referência V2 de Resposta inteligente usando AnalyzeContent ou SuggestSmartReplies |
Resumo
O resumo gerado com IA usa os seguintes modelos:
- summarization-1.0
- summarization-2.0
- summarization-2.1
- summarization-3.0
- summarization-3.1
- summarization-4.0
- summarization-5.0
A tabela a seguir mostra o tipo de cota e o modelo usado para cada versão do resumo.
Versão do resumo |
Tipo de cota |
Modelo de back-end |
|---|---|---|
Generator 5.0 |
Com base em gerador |
Gemini-2.5-flash pré-treinado |
Gerador 4.0 |
Com base em gerador |
Gemini-2.0-flash-001 pré-treinado |
Gerador 3.1 |
Com base em gerador |
gemini-1.5-flash-001 ajustado com LoRA |
Gerador 3.0 |
Com base em gerador |
gemini-1.0-pro-002 ajustado com LoRA |
Gerador 2.1 |
Com base em gerador |
text-bison-32k@002 ajustado com Lora |
Generator 2.0 |
Com base em gerador |
text-bison-32k@002 ajustado com Lora |
Generator 1.0 |
Com base em gerador |
text-bison@001 ajustado com Lora |
Valor de referência v2 |
Modelo de referência v2 |
text-bison |
Valor de referência v1 |
Não baseado em gerador |
Modelo LongT5 |
Personalizado 2.0 |
Não baseado em gerador |
Modelo LongT5 |
Os tipos de cota na tabela anterior são refletidos na lista de cotas a seguir para APIs usadas com resumo.
Tipo de cota |
Nome do limite de cota |
Valor padrão |
Região |
Recurso de cobrança/projeto do consumidor |
Descrição |
|---|---|---|---|---|---|
Com base em gerador |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
10 solicitações/min |
Regional |
Projeto do consumidor |
Dimensões da cota: model_type=summarization-{version_num}.Operações de sugestão do gerador por tipo de modelo e região |
Com base em gerador |
GeneratorSuggestionOperationsPerMinutePerModelType |
10 solicitações/min |
Global |
Projeto do consumidor |
Operações de sugestão do gerador por tipo de modelo |
Com base em gerador |
GeneratorSuggestionOperationsPerMinutePerModelTypePerMultiRegion |
10 solicitações/min |
EUA multirregional |
Projeto do consumidor |
Dimensões de cota: multi-region=us, model_type=summarization-{version_num}. Operações de sugestão do gerador por tipo de modelo e região |
Com base em gerador |
SuggestConversationSummaryOperationsPerMinutePerProject |
60 solicitações/min |
Global |
Projeto de recursos |
Sugerir operações de resumo de conversa |
Não baseado em gerador |
SuggestConversationSummaryOperationsPerMinutePerProjectPerRegion |
0 a 2 solicitações/min |
Regional |
Projeto de recursos |
Sugerir operações de resumo de conversa em cada região |
Modelo de referência v2 |
SuggestSummaryV2BaselineOperationsPerMinutePerProject |
120 solicitações/min |
Global |
Projeto de recursos |
Solicitações de pesquisa de referência da sugestão de resumo de conversa V2 |
Modelo de referência v2 |
SuggestSummaryV2BaselineOperationsPerMinutePerProjectPerRegion |
60 solicitações/min |
Regional |
Projeto de recursos |
Solicitações de pesquisa de modelo de referência da sugestão de resumo de conversa V2 em cada região |
Autoavaliação de resumo
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| ConcurrentSummarizationEvaluationsPerProject | 1 solicitação por projeto | Projeto do consumidor | Pedidos de autoavaliação |
Se você precisar de mais cotas simultâneas, faça uma solicitação no console Google Cloud . Esse recurso aceita até quatro cotas simultâneas por projeto.
Assistência de conhecimento generativo
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| SearchKnowledgeRequestsPerMinutePerProject | 60 solicitações/min | Global | Projeto do consumidor | Solicitações do SearchKnowledge |
| SearchKnowledgeRequestsPerMinutePerProjectPerRegion | 30 solicitações/min | Regional | Projeto do consumidor | O SearchKnowledge solicita cada região |
| SearchKnowledgeRequestsPerMinutePerProjectPerMultiRegion | 30 solicitações/min | EUA multirregional | Projeto do consumidor | Dimensões da cota: multi-region=us. O SearchKnowledge solicita cada multirregião |
Assistência de conhecimento generativo proativa
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| SuggestKnowledgeAssistOperationsPerMinutePerProject | 60 solicitações/min | Global | Projeto de recursos | Solicitações do KnowledgeAssist usando AnalyzeContent ou SuggestKnowledgeAssist |
| SuggestKnowledgeAssistOperationsPerMinutePerProjectPerRegion | 30 solicitações/min | Regional | Projeto de recursos | Solicitações do KnowledgeAssist usando AnalyzeContent ou SuggestKnowledgeAssist em cada região |
| SuggestKnowledgeAssistOpsPerMinutePerProjectPerMultiRegion | 30 solicitações/min | EUA multirregional | Projeto de recursos | Dimensões da cota: multi-region=us. Solicitações do KnowledgeAssist usando AnalyzeContent ou SuggestKnowledgeAssist em cada multirregião |
Coach de IA (LLM)
Esse recurso usa o modelo de IA agent-coaching-2.5.
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança ou projeto consumidor | Descrição |
|---|---|---|---|---|
GeneratorSuggestionOperationsPerMinutePerModelType |
60 solicitações por minuto | Global | Projeto do consumidor | Dimensões da cota: model_type=agent-coaching-2.5.
Operações de sugestão do gerador por tipo de modelo |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
60 solicitações por minuto | Regional | Projeto do consumidor | Dimensões da cota: model_type=agent-coaching-2.5.
Operações de sugestão do gerador por tipo de modelo e região |
GeneratorSuggestionOperationsPerMinutePerModelTypePerMultiRegion |
60 solicitações por minuto | EUA multirregional | Projeto do consumidor | Dimensões da cota: multi-region=us,model_type=agent-coaching-2.5.
Operações de sugestão do gerador por tipo de modelo e multirregião |
Outras cotas de API
| Nome do limite de cota | Valor padrão | Região | Recurso de cobrança/projeto do consumidor | Descrição |
|---|---|---|---|---|
| ConversationOperationsPerMinutePerProject | 300 solicitações/min | Global | Projeto do consumidor | Outras solicitações de conversa, exceto AnalyzeContent e StreamingAnalyzeContent, por exemplo, CreateConversation e CompleteConversation. A cota é compartilhada entre o Dialogflow e o Agent Assist. |
| MessagePollingOperationsPerMinutePerProject | 1.200 solicitações / min | Global | Projeto do consumidor | Solicitações ListMessages. A cota é compartilhada entre o Dialogflow e o Agent Assist. |
| AnswerRecordOperationsPerMinutePerProject | 300 solicitações / min | Global | Projeto do consumidor | Solicitações de AnswerRecord |