Eine genaue Kontingentschätzung basiert auf der Anzahl Ihrer Abfragen pro Sekunde (Queries per Second, QPS) für jede API. In den folgenden Abschnitten werden die Kontingente für APIs beschrieben, die mit den einzelnen Agent Assist-Funktionen verwendet werden.
Weitere Informationen zum Anfordern einer Kontingenterhöhung finden Sie auf der Seite zu den Kontingenten. Wenn Sie Ihren Antrag eingereicht haben, bittet Google Sie möglicherweise um weitere Informationen und teilt Ihnen mit, ob Ihr Antrag genehmigt oder abgelehnt wurde.
Projekttypen
In den folgenden Kontingenttabellen werden zwei Arten von Projekten aufgeführt: Nutzer- und Ressourcenprojekte. Definitionen dieser beiden Projekttypen finden Sie in der Dokumentation zur Verwendung mehrerer Projekte.
Sprachtranskription
Für diese Funktion wird entweder die Telefonie- oder die gRPC-Integration verwendet, die jeweils unterschiedliche API-Kontingente haben.
Telefonieintegration
Informationen zu den Kontingenten für die APIs, die für die Telefonieintegration verwendet werden, finden Sie unter Dialogflow-Kontingente.
gRPC-Integration
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| AnalyzeContentOperationsPerMinutePerProject | 300 Anfragen/Min. | Global | Nutzerprojekt | AnalyzeContent-/StreamingAnalyzeContent-Anfragen. Das Kontingent wird zwischen Dialogflow und Agent Assist geteilt. |
| ConcurrentBidiStreamingSessionsPerProjectPerRegion | 50 gleichzeitige Anfragen | Regional (globaler Traffic wird in der Region us-central1 gezählt) |
Nutzerprojekt (Ressourcenprojekt für die SipRec-Integration für Telefonie) | Gleichzeitige bidirektionale Streaming-Sitzungen pro Region |
Transkription mit Chirp-Modellen
| Kontingentname | Standardwert | Region | Abrechnungsressource oder Nutzerprojekt | Beschreibung |
|---|---|---|---|---|
SttV2StreamingRequestsPerMinutePerResourceTypePerRegion |
20 Anfragen pro Minute | Regional (Globaler Traffic wird in der Region us-central1 gezählt.) |
Nutzerprojekt (Ressourcenprojekt für die SipRec-Integration für Telefonie) | Anzahl der neuen StreamingRecognize-Anfragen, die pro Ressourcentyp an STT V2 gesendet werden |
Sentimentanalyse
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| AnalyzeSentimentOpsPerMinutePerProjectPerVersionPerMultiRegion | 300 Anfragen/Min. | USA (mehrere Regionen) | Nutzerprojekt | Anfragen zur Sentimentanalyse über AnalyzeContent oder StreamingAnalyzeContent pro Version und Multiregion |
| AnalyzeSentimentOperationsPerMinutePerProject | 300 Anfragen/Min. | Global | Nutzerprojekt | Anfragen zur Sentimentanalyse über AnalyzeContent oder StreamingAnalyzeContent. |
| AnalyzeSentimentOperationsPerMinutePerProjectPerRegion | 300 Anfragen/Min. | Regional | Nutzerprojekt | Anfragen zur Sentimentanalyse über „AnalyzeContent“ oder „StreamingAnalyzeContent“ |
Eigene Assistenten erstellen
Für diese Funktion werden die folgenden KI-Modelle verwendet:
- text-bison@001 (Standardlimit 0)
- (text-bison@002)
- text-bison-32k@002
- gemini-1.0-pro
- gemini-1.5-pro
- gemini-1.5-pro-001
- gemini-1.5-flash-001
- gemini-1.5-flash-002
- gemini-2.0-flash-001
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| GeneratorSuggestionOperationsPerMinutePerModelType | 10 Anfragen/Min. | Global | Nutzerprojekt | Vorgänge für Generatorvorschläge nach Modelltyp |
| GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion | 10 Anfragen/Min. | Regional | Nutzerprojekt | Vorgänge für Generatorvorschläge nach Modelltyp und Region |
Intelligente Antwort
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| SmartReplyBaselineModelOperationsPerMinutePerProject | 120 Anfragen/Min. | Global | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies erhalten |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProject | 60 Anfragen/Min. | Global | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten V2 über AnalyzeContent oder SuggestSmartReplies erhalten |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion | 60 Anfragen/Min. | Regional | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten V2 über AnalyzeContent oder SuggestSmartReplies erhalten |
Generative intelligente Antwort
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| SmartReplyBaselineModelOperationsPerMinutePerProject | 120 Anfragen/Min. | Global | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies erhalten |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProject | 60 Anfragen/Min. | Global | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten V2 über AnalyzeContent oder SuggestSmartReplies erhalten |
| SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion | 60 Anfragen/Min. | Regional | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten V2 über AnalyzeContent oder SuggestSmartReplies erhalten |
Zusammenfassung
Für die KI-generierte Zusammenfassung werden die folgenden Modelle verwendet:
- summarization-1.0
- summarization-2.0
- summarization-2.1
- summarization-3.0
- summarization-3.1
- summarization-4.0
- summarization-5.0
In der folgenden Tabelle sind der Kontingenttyp und das Modell für jede Version der Zusammenfassung aufgeführt.
Version der Zusammenfassung |
Kontingenttyp |
Backend-Modell |
|---|---|---|
Generator 5.0 |
Generatorbasiert |
Vortrainiertes Gemini 2.5 Flash |
Generator 4.0 |
Generatorbasiert |
Vortrainiertes Gemini‑2.0-Flash-001 |
Generator 3.1 |
Generatorbasiert |
Lora-tuned gemini-1.5-flash-001 |
Generator 3.0 |
Generatorbasiert |
Lora-tuned gemini-1.0-pro-002 |
Generator 2.1 |
Generatorbasiert |
Lora-tuned text-bison-32k@002 |
Generator 2.0 |
Generatorbasiert |
Lora-tuned text-bison-32k@002 |
Generator 1.0 |
Generatorbasiert |
Lora-tuned text-bison@001 |
Baseline v2 |
Baseline v2-Modell |
text-bison |
Baseline V1 |
Nicht auf Generator basierend |
LongT5-Modell |
Benutzerdefiniert 2.0 |
Nicht auf Generator basierend |
LongT5-Modell |
Die Kontingenttypen in der vorherigen Tabelle werden in der folgenden Kontingentliste für APIs, die für die Zusammenfassung verwendet werden, berücksichtigt.
Kontingenttyp |
Name des Kontingentlimits |
Standardwert |
Region |
Abrechnungsressource/Verbraucherprojekt |
Beschreibung |
|---|---|---|---|---|---|
Generatorbasiert |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
10 Anfragen/Min. |
Regional |
Nutzerprojekt |
Vorgänge für Generatorvorschläge nach Modelltyp und Region |
Generatorbasiert |
GeneratorSuggestionOperationsPerMinutePerModelType |
10 Anfragen/Min. |
Global |
Nutzerprojekt |
Vorgänge für Generatorvorschläge nach Modelltyp |
Generatorbasiert |
SuggestConversationSummaryOperationsPerMinutePerProject |
60 Anfragen/Min. |
Global |
Ressourcenprojekt |
Vorgeschlagene Zusammenfassungen von Unterhaltungen |
Nicht auf Generator basierend |
SuggestConversationSummaryOperationsPerMinutePerProjectPerRegion |
0–2 Anfragen/Min. |
Regional |
Ressourcenprojekt |
Vorgänge zum Zusammenfassen von Unterhaltungen in jeder Region vorschlagen |
Baseline v2-Modell |
SuggestSummaryV2BaselineOperationsPerMinutePerProject |
120 Anfragen/Min. |
Global |
Ressourcenprojekt |
Baseline-Polling-Anfragen für Zusammenfassungsvorschläge für Unterhaltungen V2 |
Baseline v2-Modell |
SuggestSummaryV2BaselineOperationsPerMinutePerProjectPerRegion |
60 Anfragen/Min. |
Regional |
Ressourcenprojekt |
Baseline-Umfrageanfragen für die Zusammenfassung von Unterhaltungen V2 in jeder Region |
Automatische Bewertung der Zusammenfassung
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| ConcurrentSummarizationEvaluationsPerProject | 1 Anfrage pro Projekt | Nutzerprojekt | Anfragen zur automatischen Überprüfung |
Wenn Sie zusätzliche Kontingente für gleichzeitige Vorgänge benötigen, stellen Sie einen Antrag über die Google Cloud Console. Diese Funktion kann bis zu vier gleichzeitige Kontingente pro Projekt unterstützen.
Auf generativer KI basierender Knowledge Assist
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| SearchKnowledgeRequestsPerMinutePerProject | 60 Anfragen/Min. | Global | Nutzerprojekt | SearchKnowledge-Anfragen |
| SearchKnowledgeRequestsPerMinutePerProjectPerRegion | 30 Anfragen/Min. | Regional | Nutzerprojekt | SearchKnowledge-Anfragen pro Region |
| SearchKnowledgeRequestsPerMinutePerProjectPerMultiRegion | 30 Anfragen/Min. | USA (mehrere Regionen) | Nutzerprojekt | SearchKnowledge-Anfragen pro Multi-Region |
Proaktive generative Knowledge Assist-Funktion
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| SuggestKnowledgeAssistOperationsPerMinutePerProject | 60 Anfragen/Min. | Global | Ressourcenprojekt | KnowledgeAssist-Anfragen über AnalyzeContent oder SuggestKnowledgeAssist |
| SuggestKnowledgeAssistOperationsPerMinutePerProjectPerRegion | 30 Anfragen/Min. | Regional | Ressourcenprojekt | KnowledgeAssist-Anfragen über AnalyzeContent oder SuggestKnowledgeAssist in jeder Region |
| SuggestKnowledgeAssistOpsPerMinutePerProjectPerMultiRegion | 30 Anfragen/Min. | USA (mehrere Regionen) | Ressourcenprojekt | KnowledgeAssist-Anfragen über „AnalyzeContent“ oder „SuggestKnowledgeAssist“ in jeder Mehrfachregion |
KI-Coach (LLM)
Diese Funktion verwendet das KI-Modell „agent-coaching-2.5“.
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource oder Nutzerprojekt | Beschreibung |
|---|---|---|---|---|
GeneratorSuggestionOperationsPerMinutePerModelType |
60 Anfragen pro Minute | Global | Nutzerprojekt | Vorgänge für Generatorvorschläge nach Modelltyp |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
60 Anfragen pro Minute | Regional | Nutzerprojekt | Vorgänge für Generatorvorschläge nach Modelltyp und Region |
GeneratorSuggestionOperationsPerMinutePerModelTypePerMultiRegion |
60 Anfragen pro Minute | USA (mehrere Regionen) | Nutzerprojekt | Vorgangsvorschläge für Generatoren nach Modelltyp und Mehrfachregion |
Weitere API-Kontingente
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
| ConversationOperationsPerMinutePerProject | 300 Anfragen/Min. | Global | Nutzerprojekt | Andere Unterhaltungsanfragen als AnalyzeContent und StreamingAnalyzeContent, z. B. CreateConversation und CompleteConversation. Das Kontingent wird zwischen Dialogflow und Agent Assist geteilt. |
| MessagePollingOperationsPerMinutePerProject | 1.200 Anfragen / Min. | Global | Nutzerprojekt | ListMessages-Anfragen. Das Kontingent wird zwischen Dialogflow und Agent Assist geteilt. |
| AnswerRecordOperationsPerMinutePerProject | 300 Anfragen / Min. | Global | Nutzerprojekt | AnswerRecord-Anfragen |