Transkription mit Speech-to-Text Chirp 3 verwenden

Chirp 3, die neueste Generation der mehrsprachigen generativen Modelle von Google für die automatische Spracherkennung (Automatic Speech Recognition, ASR), die von Google Cloudder Speech-to-Text (STT) API v2 von angeboten wird, ist für die Sprachtranskription verfügbar.

Einrichten

Folgen Sie dieser Anleitung, um die Transkription mit Speech-to-Text Chirp 3 zu aktivieren.

Console

Wenn Sie ein Unterhaltungsprofil mit der Agent Assist Console erstellen oder aktualisieren, folgen Sie dieser Anleitung, um die Speech-to-Text-Einstellungen für die Verwendung des Chirp 3-Modells zu konfigurieren.

  1. Klicken Sie auf Unterhaltungsprofile.
  2. Klicken Sie auf den Namen Ihres Profils.
  3. Rufen Sie den Abschnitt Speech-to-Text-Konfiguration auf.
  4. Wählen Sie für das Modell Chirp 3 aus.
  5. Optional: Wählen Sie Long-Form-Modell für die AA-Telefonie-SipRec-Integration verwenden aus, wenn die Audioinhalte über die Telefonieintegration übertragen werden.
  6. Optional: Konfigurieren Sie Sprachcode und bis zu einen Alternativen Sprachcode für die sprachbeschränkte Transkription.
  7. Optional: Konfigurieren Sie auto als Sprachcode für die sprachunabhängige Transkription.
  8. Optional: Konfigurieren Sie Phrasen für die Sprachanpassung , um die Genauigkeit durch die Modellanpassung zu verbessern.

REST API

Sie können die API direkt aufrufen, um ein Unterhaltungsprofil zu erstellen oder zu aktualisieren. Aktivieren Sie STT V2 mit dem ConversationProfile.sttConfig.useSttV2 Feld, wie im folgenden Beispiel gezeigt. Konfigurationsbeispiel:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Best Practices

Folgen Sie diesen Vorschlägen, um die Sprachtranskription mit dem Chirp 3-Modell optimal zu nutzen.

Audio streaming

Um die Leistung von Chirp 3 zu maximieren, senden Sie Audioinhalte nahezu in Echtzeit. Wenn Sie also X Sekunden Audio haben, streamen Sie es in etwa X Sekunden. Teilen Sie Ihre Audioinhalte in kleine Blöcke mit einer Framegröße von 100 ms auf. Weitere Best Practices für das Audiostreaming finden Sie in der Speech-to-Text-Dokumentation.

Sprachanpassung verwenden

Verwenden Sie die Transkription mit der Chirp 3-Sprachanpassung nur mit Inline-Phrasen, die im Unterhaltungsprofil konfiguriert sind.

Regionale und sprachliche Unterstützung

Chirp 3 ist für alle Speech-to-Text-Sprachen mit unterschiedlicher Verfügbarkeit und in allen Agent Assist-Regionen außer northamerica-northeast1, northamerica-northeast2 und asia-south1 verfügbar.

Kontingente

Die Anzahl der Transkriptionsanfragen mit dem Chirp 3-Modell ist durch das Kontingent SttV2StreamingRequestsPerMinutePerResourceTypePerRegion begrenzt, wobei chirp_3 als Ressourcentyp angegeben ist. Informationen zur Kontingentnutzung und zum Anfordern einer Kontingenterhöhung finden Sie im Google Cloud Leitfaden zu Kontingenten.

Bei Kontingenten befinden sich Transkriptionsanfragen an die globalen Dialogflow-Endpunkte in der us-central1 Region.