Neue Nutzer von Cloud Speech-to-Text sollten die V2 API verwenden. In unserer Migrationsanleitung erfahren Sie, wie Sie bestehende Projekte auf die aktuelle Version migrieren.

Einführung in die „latest“-Modelle

Die „latest“-Modell-Tags in der Cloud Speech-to-Text API gewähren Zugriff auf zwei neue Modell-Tags, die beim Angeben des Modellfelds verwendet werden können. Diese Modelle bieten Ihnen Zugriff auf die neueste Forschung von Google zu Sprachtechnologie und maschinellem Lernen und können eine höhere Genauigkeit für die Spracherkennung als andere verfügbare Modelle bieten. Einige Features, die von anderen verfügbaren Modellen unterstützt werden, werden jedoch noch nicht von den „latest“-Modellen unterstützt.

Die „latest“-Modelle basieren auf der Conformer Speech Model-Technologie von Google. Weitere Informationen finden Sie in den Google Research-Veröffentlichungen.

Für die Verwendung der „latest“-Modelle sind allgemeine Kenntnisse der Nutzung der Cloud Speech-to-Text API oder der Cloud Speech-to-Text-UI erforderlich.

Modellkennzeichnungen

Die „latest“-Modelle sind in zwei verschiedenen Versionen verfügbar:

Das latest_short-Modell ist für kurze Äußerungen mit einer Länge von einigen Sekunden vorgesehen. Es ist hilfreich, um Befehle oder andere Anwendungsfälle mit sehr kurzen, gezielten Sprachäußerungen zu erfassen. Verwenden Sie latest_short anstelle des Modells command_and_search.
Das latest_long-Modell eignet sich für alle Arten von langen Inhalten, z. B. Medien oder spontane Sprache und Unterhaltungen. Verwenden Sie latest_long anstelle von video, insbesondere wenn video in Ihrer Zielsprache nicht verfügbar ist. Sie können latest_long auch anstelle des default-Modells verwenden.

Modelltechnologie

Das Ziel der „latest“-Modelle besteht darin, die neueste Sprachtechnologie direkt für Nutzer von Google Cloud bereitzustellen. Unsere aktuellen „latest“-Modelle basieren auf der Conformer Speech Model-Technologie von Google. Dies kann sich jedoch in Zukunft ändern. Weitere Informationen finden Sie in der Liste der Google Research-Veröffentlichungen.

Preise

Die Modelle latest_long und latest_short werden als „Standard“ abgerechnet und unterliegen denselben Nutzungsgebühren und Kosten wie die Modelle command_and_search oder default. Weitere Informationen finden Sie unter Speech-to-Text – Preise.

Modellaktualisierungen

Die „latest“-Modelle basieren auf fortschrittlichen Technologien für maschinelles Lernen. Aus diesem Grund nehmen wir Modellaktualisierungen möglicherweise häufiger als bei unseren anderen Modellen vor. Durch diese Aktualisierungen können zusätzliche Features hinzugefügt oder geringfügige Änderungen an der Genauigkeit oder Latenz vorgenommen werden.

Sprachen

Die „latest“-Modelle sind in mehr als 20 Sprachen und über 50 Varianten verfügbar. Wir fügen immer wieder Sprachen hinzu. Eine aktuelle Liste finden Sie unter Von Speech-to-Text unterstützte Sprachen.

Funktionsunterstützung und Einschränkungen

Die Funktionsunterstützung variiert je nach Sprache. Eine vollständige Liste der unterstützten Funktionen finden Sie unter Von Speech-to-Text unterstützte Sprachen.

Die „latest“-Modelle unterstützen derzeit folgende Funktion nicht:

Konfidenzwerte: Die API gibt einen Wert zurück, der jedoch kein richtiger Konfidenzwert ist.

Service Level Agreement für Modelle

Die „latest“-Modelle gelten als allgemein verfügbarer Bestandteil der Cloud Speech-to-Text API. Daher ist die Funktionalität, die sie unterstützen, in der V1 API verfügbar und kann für dasselbe Service Level Agreement und andere Schutzmaßnahmen genutzt werden, die auch für allgemein verfügbare Produkte und Funktionen vorgesehen sind.

Einführung in die „latest“-Modelle Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.