Mit der Sprachtranskription können Sie Ihre Streaming-Audiodaten in Echtzeit in transkribierten Text umwandeln. Agent Assist gibt Vorschläge auf der Grundlage von Text. Daher müssen Audiodaten konvertiert werden, bevor sie verwendet werden können. Sie können transkribierte Streaming-Audiodaten auch mit Customer Experience Insights verwenden, um Echtzeitdaten zu Agenten Unterhaltungen zu erfassen (z. B. Themen Modellierung).
Es gibt zwei Möglichkeiten, Streaming-Audiodaten für die Verwendung mit Agent Assist zu transkribieren: mit der SIPREC-Funktion oder durch gRPC-Aufrufe mit Audiodaten als Nutzlast. Auf dieser Seite wird beschrieben, wie Sie Streaming-Audiodaten mit gRPC-Aufrufen transkribieren.
Die Sprachtranskription funktioniert mit der Streaming-Spracherkennung von Speech-to-Text Streaming-Spracherkennung. Speech-to-Text bietet mehrere Erkennungs modelle, sowohl Standard- als auch optimierte Modelle. Agent Assist schränkt nicht ein, welche Modelle Sie für die Sprach transkription verwenden können. Die Sprachtranskription wird jedoch auf GA-Ebene nur unterstützt, wenn sie mit dem Telefonie- oder Chirp 3 Modell verwendet wird. Für eine optimale Transkriptionsqualität wird das Chirp 3-Modell empfohlen, sofern es in Ihrer Region verfügbar ist.
Vorbereitung
- Erstellen Sie ein Projekt in Google Cloud.
- Aktivieren Sie die Dialogflow API.
- Wenden Sie sich an Ihren Google-Ansprechpartner, um zu prüfen, ob Ihr Konto Zugriff auf die optimierten Modelle von Speech-to-Text hat.
Unterhaltungsprofil erstellen
Um ein Unterhaltungsprofil zu erstellen, verwenden Sie
die Agent Assist Console oder rufen Sie die Methode create für die
ConversationProfile
Ressource direkt auf.
Für die Sprachtranskription empfehlen wir,
ConversationProfile.stt_config als Standard-InputAudioConfig zu konfigurieren, wenn Sie Audiodaten in einer Unterhaltung
senden.

Transkriptionen während der Unterhaltung abrufen
Wenn Sie Transkriptionen während der Unterhaltung abrufen möchten, müssen Sie Teilnehmer für die Unterhaltung erstellen und für jeden Teilnehmer Audiodaten senden.
Teilnehmer erstellen
Es gibt drei Arten von
Teilnehmern.
Weitere Informationen zu ihren Rollen finden Sie in der reference
documentation. Rufen Sie die Methode create für den participant auf und geben Sie die role an. Nur ein END_USER- oder ein HUMAN_AGENT-Teilnehmer kann StreamingAnalyzeContent aufrufen, was für eine Transkription erforderlich ist.
Audiodaten senden und Transkript abrufen
Mit
StreamingAnalyzeContent
können Sie die Audiodaten eines Teilnehmers an Google senden und eine Transkription erhalten. Verwenden Sie dazu die
folgenden Parameter:
Die erste Anfrage im Stream muss
InputAudioConfigsein. Die hier konfigurierten Felder überschreiben die entsprechenden Einstellungen unterConversationProfile.stt_config. Senden Sie erst mit der zweiten Anfrage eine Audioeingabe.audioEncodingmuss aufAUDIO_ENCODING_LINEAR_16oderAUDIO_ENCODING_MULAWfestgelegt werden.model: Dies ist das Speech-to-Text Modell, das Sie zum Transkribieren Ihrer Audiodaten verwenden möchten. Legen Sie für dieses Feldchirp_3fest. Die Variante hat keine Auswirkungen auf die Transkriptionsqualität. Sie können also Speech model variant nicht angeben oder Use best available auswählen.singleUtterancesollte für eine optimale Transkriptionsqualität auffalsegesetzt werden. WennsingleUtteranceauffalsegesetzt ist, sollten Sie nicht mitEND_OF_SINGLE_UTTERANCErechnen. Sie können sich jedoch aufisFinal==trueinStreamingAnalyzeContentResponse.recognition_resultverlassen, um den Stream halb zu schließen.- Optionale zusätzliche Parameter: Die folgenden Parameter sind
optional. Wenden Sie sich an Ihren Google-Ansprechpartner, um Zugriff auf diese Parameter zu erhalten.
languageCode:language_codedes Audios. Der Standardwert isten-US.alternativeLanguageCodes: Diese Funktion ist nur auf GA-Ebene für das Chirp 3-Modell verfügbar. Zusätzliche Sprachen, die im Audio erkannt werden können. Agent Assist verwendet das Feldlanguage_code, um die Sprache am Anfang des Audios automatisch zu erkennen und verwendet diese Sprache in allen folgenden Unterhaltungsrunden. Mit dem FeldalternativeLanguageCodeskönnen Sie weitere Optionen für Agent Assist angeben.phraseSets: Der Name der Speech-to-Text-Modell anpassungsphraseSetressource.- Wenn Sie die Anpassung für das Chirp 3-Modell konfigurieren möchten, fügen Sie Inline-Phrasen hinzu, die durch Zeilenumbrüche getrennt sind und keine Kommas enthalten.
- Wenn Sie die Modellanpassung mit anderen Modellen wie
telephonyfür die Sprachtranskription verwenden möchten, müssen Sie zuerst dasphraseSetmit der Speech-to-Text API erstellen und hier den Ressourcennamen angeben.
Nachdem Sie die zweite Anfrage mit der Audio-Nutzlast gesendet haben, sollten Sie einige
StreamingAnalyzeContentResponsesaus dem Stream erhalten.- Sie können den Stream halb schließen (oder in einigen Sprachen wie Python das Senden beenden), wenn
is_finalinStreamingAnalyzeContentResponse.recognition_resultauftruegesetzt ist. - Nachdem Sie den Stream halb geschlossen haben, sendet der Server die Antwort mit der endgültigen Transkription sowie potenziellen Dialogflow- oder Agent Assist-Vorschlägen zurück.
- Sie können den Stream halb schließen (oder in einigen Sprachen wie Python das Senden beenden), wenn
Die endgültige Transkription finden Sie an den folgenden Stellen:
StreamingAnalyzeContentResponse.message.content.- Wenn Sie Pub/Sub Benachrichtigungen aktivieren, können Sie die Transkription auch in Pub/Sub sehen.
Starten Sie einen neuen Stream, nachdem der vorherige Stream geschlossen wurde.
- Audio erneut senden: Audiodaten, die nach dem letzten
speech_end_offsetder Antwort mitis_final=truegeneriert wurden, müssen an die neue Startzeit des Streams gesendet werden, damitStreamingAnalyzeContenteine optimale Transkriptionsqualität erzielen kann.
- Audio erneut senden: Audiodaten, die nach dem letzten
Das folgende Diagramm veranschaulicht die Funktionsweise des Streams.

Codebeispiel für eine Anfrage zur Streamingerkennung
Das folgende Codebeispiel veranschaulicht, wie Sie eine Anfrage zur Streaming-Transkription senden.
Python
Richten Sie zur Authentifizierung bei Agent Assist die Standardanmeldedaten für Anwendungen (ADC) ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
So rufen Sie die Python-Dateien für conversation_management und participant_management auf:
Rufen Sie das GitHub-Repository für Python-Dokumente auf.
Klicken Sie auf Go to file (Zur Datei) und geben Sie den Dateinamen ein:
conversation_managementoderparticipant_management.Drücken Sie die Eingabetaste.