In dieser Anleitung wird gezeigt, wie Sie mithilfe von Speech-to-Text die Audiospur einer Videodatei transkribieren.
Audiodateien und -daten können aus vielen verschiedenen Quellen stammen, z. B. von der Mailbox eines Smartphones oder von der Tonspur einer Videodatei.
Speech-to-Text kann eines von mehreren Modellen für maschinelles Lernen verwenden, um Audiodateien so zu transkribieren, dass sie möglichst genau dem ursprünglichen Audiomaterial entsprechen. Sie erhalten bei der Sprachtranskription bessere Ergebnisse, wenn Sie die Quelle dieses Materials angeben. Speech-to-Text kann die Audiodateien dann nämlich mit einem Modell für maschinelles Lernen verarbeiten, das speziell für die Art von Daten trainiert wurde, die in Ihrer Audiodatei enthalten sind.
Audiodaten vorbereiten
Bevor Sie Audio aus einem Video transkribieren können, müssen Sie die Daten aus der Videodatei extrahieren. Nachdem Sie die Audiodaten extrahiert haben, müssen Sie sie in einem Cloud Storage-Bucket speichern oder in die base64-Codierung konvertieren.
Audiodaten extrahieren
Sie können ein beliebiges Dateikonvertierungstool verwenden, das Audio- und Videodateien verarbeitet, beispielsweise FFmpeg.
Verwenden Sie das folgende Code-Snippet, um eine Videodatei mithilfe von ffmpeg
in eine Audiodatei zu konvertieren.
ffmpeg -i video-input-file audio-output-file
Audiodaten speichern oder konvertieren
Sie können eine Audiodatei transkribieren, die auf Ihrem lokalen Computer oder in einem Cloud Storage-Bucket gespeichert ist.
Verwenden Sie den folgenden Befehl, um die Audiodatei mit der Google Cloud CLI in einen vorhandenen Cloud Storage-Bucket hochzuladen.
gcloud storage cp audio-output-file storage-bucket-uri
Wenn Sie eine lokale Datei verwenden und planen, eine Anfrage mit dem curl
-Tool über die Befehlszeile zu senden, müssen Sie die Audiodatei zuerst in base64-codierte Daten konvertieren.
Verwenden Sie den folgenden Befehl, um eine Audiodatei in eine Textdatei zu konvertieren.
base64 audio-output-file -w 0 > audio-data-text
Transkriptionsanfrage senden
Verwenden Sie den folgenden Code, um eine Transkriptionsanfrage an Speech-to-Text zu senden.
Anfrage mit lokaler Datei
Protokoll
Ausführliche Informationen finden Sie unter dem API-Endpunkt speech:recognize
.
Für eine synchrone Spracherkennung senden Sie eine POST
-Anfrage und geben den entsprechenden Anfragetext an. Das folgende Beispiel zeigt eine POST
-Anfrage mit curl
. In diesem Beispiel wird die Google Cloud CLI verwendet, um ein Zugriffstoken zu generieren. Eine Anleitung zur Installation der gcloud CLI finden Sie in der Kurzanleitung.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Weitere Informationen zum Konfigurieren des Anfragetexts erhalten Sie in der Referenzdokumentation zu RecognitionConfig
.
Wenn die Anfrage erfolgreich ist, gibt der Server den HTTP-Statuscode 200 OK
und die Antwort im JSON-Format zurück:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Go API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Java API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Node.js API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Python API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für Ruby auf.
Remote-Dateianfrage
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Go API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Java API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Node.js API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für Speech-to-Text finden Sie unter Speech-to-Text-Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Speech-to-Text Python API.
Richten Sie zur Authentifizierung bei Speech-to-Text Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite "Clientbibliotheken" und rufen Sie dann die Speech-to-Text-Referenzdokumentation für Ruby auf.