Die „latest“-Modell-Tags in der Cloud Speech-to-Text API gewähren Zugriff auf zwei neue Modell-Tags, die beim Angeben des Modellfelds verwendet werden können. Diese Modelle bieten Ihnen Zugriff auf die neueste Forschung von Google zu Sprachtechnologie und maschinellem Lernen und können eine höhere Genauigkeit für die Spracherkennung als andere verfügbare Modelle bieten. Einige Features, die von anderen verfügbaren Modellen unterstützt werden, werden jedoch noch nicht von den „latest“-Modellen unterstützt.
Die „latest“-Modelle basieren auf der Conformer Speech Model-Technologie von Google. Weitere Informationen finden Sie in den Google Research-Veröffentlichungen.
Für die Verwendung der „latest“-Modelle sind allgemeine Kenntnisse der Nutzung der Cloud Speech-to-Text API oder der Cloud Speech-to-Text-UI erforderlich.
Modellkennzeichnungen
Die „latest“-Modelle sind in zwei verschiedenen Versionen verfügbar:
Das
latest_short-Modell ist für kurze Äußerungen mit einer Länge von einigen Sekunden vorgesehen. Es ist hilfreich, um Befehle oder andere Anwendungsfälle mit sehr kurzen, gezielten Sprachäußerungen zu erfassen. Verwenden Sielatest_shortanstelle des Modellscommand_and_search.Das
latest_long-Modell eignet sich für alle Arten von langen Inhalten, z. B. Medien oder spontane Sprache und Unterhaltungen. Verwenden Sielatest_longanstelle vonvideo, insbesondere wennvideoin Ihrer Zielsprache nicht verfügbar ist. Sie könnenlatest_longauch anstelle desdefault-Modells verwenden.
Modelltechnologie
Das Ziel der „latest“-Modelle besteht darin, die neueste Sprachtechnologie direkt für Nutzer von Google Cloud bereitzustellen. Unsere aktuellen „latest“-Modelle basieren auf der Conformer Speech Model-Technologie von Google. Dies kann sich jedoch in Zukunft ändern. Weitere Informationen finden Sie in der Liste der Google Research-Veröffentlichungen.
Preise
Die Modelle latest_long und latest_short werden als „Standard“ abgerechnet und unterliegen denselben Nutzungsgebühren und Kosten wie die Modelle command_and_search oder default. Weitere Informationen finden Sie unter Speech-to-Text – Preise.
Modellaktualisierungen
Die „latest“-Modelle basieren auf fortschrittlichen Technologien für maschinelles Lernen. Aus diesem Grund nehmen wir Modellaktualisierungen möglicherweise häufiger als bei unseren anderen Modellen vor. Durch diese Aktualisierungen können zusätzliche Features hinzugefügt oder geringfügige Änderungen an der Genauigkeit oder Latenz vorgenommen werden.
Sprachen
Die „latest“-Modelle sind in mehr als 20 Sprachen und über 50 Varianten verfügbar. Wir fügen immer wieder Sprachen hinzu. Eine aktuelle Liste finden Sie unter Von Speech-to-Text unterstützte Sprachen.
Funktionsunterstützung und Einschränkungen
Die Funktionsunterstützung variiert je nach Sprache. Eine vollständige Liste der unterstützten Funktionen finden Sie unter Von Speech-to-Text unterstützte Sprachen.
Die „latest“-Modelle unterstützen derzeit folgende Funktion nicht:
- Konfidenzwerte: Die API gibt einen Wert zurück, der jedoch kein richtiger Konfidenzwert ist.
Service Level Agreement für Modelle
Die „latest“-Modelle gelten als allgemein verfügbarer Bestandteil der Cloud Speech-to-Text API. Daher ist die Funktionalität, die sie unterstützen, in der V1 API verfügbar und kann für dasselbe Service Level Agreement und andere Schutzmaßnahmen genutzt werden, die auch für allgemein verfügbare Produkte und Funktionen vorgesehen sind.