Mit benutzerdefinierten Speech-to-Text-Modellen können Sie Spracherkennungsmodelle an Ihre spezifischen Anforderungen anpassen. Dieser Dienst wurde entwickelt, um die Accuracy und Relevanz des Spracherkennungsdienstes in verschiedenen Umgebungen und Anwendungsfällen über Ihre fachspezifischen Audio- und Textdaten zu verbessern.
Benutzerdefinierte Speech-to-Text-Modelle sind sowohl über die Google Cloud -Console als auch über unsere API zugänglich und ermöglichen das Trainieren, Evaluieren und Bereitstellen eines dedizierten Sprachmodells in einer integrierten Umgebung ohne Code. Für das Training können Sie einfach nur Audiodaten bereitstellen, die für Ihre Audiobedingungen repräsentativ sind, ohne Referenztranskriptionen als Trainings-Dataset zu benötigen. Sie müssen jedoch Audiodaten und die entsprechenden Referenztranskriptionen als Teil Ihres Evaluationssets bereitstellen.
Das Erstellen und Verwenden eines benutzerdefinierten Cloud Speech-to-Text-Modells umfasst die folgenden Schritte:
- Bereiten Sie Trainingsdaten vor und laden Sie diese in einen Cloud Storage-Bucket hoch.
- Trainieren Sie ein neues benutzerdefiniertes Modell.
- Stellen Sie Ihr benutzerdefiniertes Modell über Endpunkte bereit und verwalten Sie es über diese.
- Verwenden und bewerten Sie Ihr benutzerdefiniertes Modell in Ihrer Anwendung.
Funktionsweise
Sie können benutzerdefinierte Speech-to-Text-Modelle verwenden, um ein Basistranskriptionsmodell zu erweitern und die Transkriptionserkennung zu verbessern. Bestimmte Audiobedingungen, darunter Sirenen, Musik und übermäßige Hintergrundgeräusche, können akustische Herausforderungen darstellen. Dies gilt auch für bestimmte Akzente und ungewöhnliches Vokabular, darunter Produktnamen.
Benutzerdefinierte Speech-to-Text-Modell verwenden eine vortrainierte, konforme Architektur als Basismodell, das mit proprietären Daten in häufig gesprochener Sprache trainiert wurde. Während des Trainingsprozesses wird das Basismodell optimiert. Dazu wird ein erheblicher Prozentsatz der ursprünglichen Gewichtungen angepasst, um die Erkennung des domainspezifischen Vokabulars und der Audiobedingungen zu verbessern, die für Ihre Anwendung spezifisch sind.
Für das effektive Training eines benutzerdefinierten Speech-to-Text-Modells müssen Sie Folgendes bereitstellen:
- Mindestens 100 Audiostunden an Trainingsdaten, entweder nur Audio oder Audio mit dem entsprechenden Texttranskript als Grundwahrheit. Diese Daten sind für die erste Trainingsphase entscheidend, damit das Modell die Nuancen der Sprachmuster und des Vokabulars umfassend lernt. Weitere Informationen finden Sie unter Grundwahrheiten-Dataset erstellen.
- Ein separates Dataset mit mindestens zehn Audiostunden an Validierungsdaten und dem entsprechenden Texttranskript als Grundwahrheit. Weitere Informationen zum erwarteten Format und zu den Grundwahrheiten-Konventionen finden Sie in unserer Anleitung zur Datenvorbereitung.
Nach einem erfolgreichen Training können Sie ein benutzerdefiniertes Speech-to-Text-Modell mit einem Klick an einem Endpunkt bereitstellen und es direkt über die Cloud Speech-to-Text V2 API für Inferenz und Benchmarking verwenden.
Unterstützte Modelle, Sprachen und Regionen
Benutzerdefinierte Speech-to-Text-Modelle unterstützen die folgenden Kombinationen aus Modellen, Sprachen und Lokalen für das Training:
| Sprache | BCP-47 | Basismodell |
|---|---|---|
|
Deutsch (Deutschland) |
de-DE |
|
|
Englisch (Australien) |
en-AU |
|
|
Englisch (Vereinigtes Königreich) |
en-GB |
|
|
Englisch (Indien) |
en-IN |
|
|
Englisch (USA) |
en-US |
|
|
Spanisch (USA) |
es-US |
|
|
Spanisch (Spanien) |
es-ES |
|
|
Französisch (Kanada) |
fr-CA |
|
|
Französisch (Frankreich) |
fr-FR |
|
|
Hindi (Indien) |
hi-IN |
|
|
Italienisch (Italien) |
it-IT |
|
|
Japanisch (Japan) |
ja-JP |
|
|
Koreanisch (Südkorea) |
ko-KR |
|
|
Niederländisch (Niederlande) |
nl-NL |
|
|
Portugiesisch (Brasilien) |
pt-BR |
|
|
Portugiesisch (Portugal) |
pt-PT |
|
Um Ihre Anforderungen an den Datenstandort zu erfüllen, bieten wir außerdem Hardware für Training und Bereitstellung in verschiedenen Regionen an. Dedizierte Hardware wird für folgende Kombinationen von Modellen und Regionen unterstützt:
| Basismodell | Region vonGoogle Cloud | Unterstützte Aufgaben |
|---|---|---|
|
|
|
Training und Bereitstellung |
|
|
|
Training und Bereitstellung |
Kontingent
Für das Training von benutzerdefinierten Speech-to-Text-Modellen sollte jedes Projekt von Google Cloudein ausreichendes Standardkontingent haben, um mehrere Trainingsjobs gleichzeitig auszuführen zu können. Außerdem sollte es die Anforderungen der meisten Projekte ohne zusätzliche Anpassungen erfüllen. Wenn Sie jedoch eine höhere Anzahl gleichzeitiger Trainingsjobs ausführen müssen oder umfangreichere Labeling- oder Rechenressourcen benötigen, können Sie zusätzliche Kontingente anfordern.
Bei einem benutzerdefinierten Speech-to-Text-Modell, das eine Endpunktbereitstellung bereitstellt, hat jeder Endpunkt ein theoretisches Limit von 20 Abfragen pro Sekunde (QPS, Queries Per Second). Wenn ein höherer Durchsatz erforderlich ist, fordern Sie zusätzliches Bereitstellungskontingent an.
Preise
Das Erstellen und Verwenden eines benutzerdefinierten Speech-to-Text-Modells ist mit bestimmten Kosten verbunden, die hauptsächlich auf den Ressourcen basieren, die während des Trainings und der anschließenden Bereitstellung des Modells verwendet werden. Genauer verursacht das benutzerdefinierte Speech-to-Text-Modell in einem typischen Modelllebenszyklus folgende Kosten:
- Training: Die Kosten werden anhand der Anzahl der Stunden für das Modelltraining berechnet. Diese Zeit ist proportional zur Anzahl der Audio-Stunden im Trainingsdataset. In der Regel dauert das Training ein Zehntel der Anzahl der Audio-Stunden im Dataset.
- Bereitstellung: Ihnen wird jede Stunde in Rechnung gestellt, in der ein Modell auf einem Endpunkt bereitgestellt wird.
- Inferenz: Die Abrechnung erfolgt anhand der Anzahl der gestreamten Sekunden von Audio für die Transkription, entsprechend der allgemeinen Abrechnung von Cloud Speech-to-Text.
Das Verständnis dieser Kosten ist für eine effektive Budgetierung und Ressourcenzuweisung von entscheidender Bedeutung. Weitere Informationen finden Sie im Abschnitt „Benutzerdefinierte Speech-to-Text-Modelle“ unter Cloud Speech-to-Text-Preise.
Nächste Schritte
Folgen Sie den Ressourcen, um benutzerdefinierte Sprachmodelle in Ihrer Anwendung zu nutzen:
- Trainingsdaten vorbereiten
- Benutzerdefinierte Modelle trainieren und verwalten
- Modellendpunkte bereitstellen und verwalten.
- Benutzerdefinierte Modelle verwenden
- Benutzerdefinierte Modelle bewerten