Les nouveaux utilisateurs de Cloud Speech-to-Text doivent utiliser l'API V2. Consultez notre guide de migration pour découvrir comment migrer des projets existants vers la dernière version.

Présentation des derniers modèles

Les tags de modèle "latest" dans l'API Cloud Speech-to-Text permettent d'accéder à deux nouveaux tags de modèle, qui peuvent être utilisés lorsque vous spécifiez le champ de modèle. Ces modèles sont conçus pour vous permettre d'accéder aux dernières technologies de reconnaissance vocale et de machine learning de Google. Ils offrent une reconnaissance vocale plus fiable par rapport à d'autres modèles disponibles. Cependant, certaines fonctionnalités compatibles avec d'autres modèles disponibles ne le sont pas encore avec les "derniers" modèles.

Les derniers modèles sont basés sur la technologie Conformer Speech Model de Google. Pour en savoir plus, consultez les Publications de Google Research.

L'utilisation des derniers modèles nécessite une compréhension générale de l'utilisation de l'API ou de l'interface utilisateur Cloud Speech-to-Text.

Identifiants de modèle

Les derniers modèles sont disponibles dans deux versions différentes :

Le modèle latest_short est destiné aux énoncés courts, de quelques secondes. Il est pertinent pour capturer des commandes vocales, ou d'autres cas d'utilisation supposant des énoncés brefs et orientés. Envisagez d'utiliser latest_short au lieu du modèle command_and_search.
Le modèle latest_long est adapté à tous types de contenus longs, tels que les flux audio présents dans des médias, ou des conversations spontanées. Envisagez d'utiliser latest_long à la place de video, en particulier si video n'est pas disponible dans votre langue cible. Vous pouvez également utiliser latest_long à la place du modèle default.

Technologie du modèle

L'objectif des derniers modèles est de mettre les dernières avancées en termes de technologie vocale directement à la disposition des utilisateurs de Google Cloud . Nos derniers modèles actuels sont basés sur la technologie Conformer Speech Model de Google, mais cela pourrait changer. Pour en savoir plus, consultez la liste des publications Google Research.

Tarification

Les modèles latest_long et latest_short sont facturés comme étant "standards", et sont soumis à la même utilisation et aux mêmes coûts que les modèles command_and_search ou default. Pour en savoir plus, consultez la page Tarifs.

Mises à jour du modèle

Les derniers modèles sont basés sur des technologies de machine learning qui évoluent rapidement. C'est la raison pour laquelle nous sommes susceptibles d'apporter des mises à jour ou des actualisations de modèles plus fréquemment que sur nos autres modèles. Ces mises à jour peuvent ajouter des fonctionnalités supplémentaires ou apporter de légères modifications en termes de justesse ou de latence.

Langues

Les derniers modèles sont disponibles dans plus de 20 langues et plus de 50 variantes. Reportez-vous à la section Langues pour obtenir la liste la plus à jour, car nous ajoutons en permanence de nouvelles langues.

Compatibilité des fonctionnalités et limites

La prise en charge de la fonctionnalité varie selon la langue. Consultez la section Langues pour obtenir la liste complète des fonctionnalités acceptées.

Les derniers modèles ne sont pas compatibles avec la fonctionnalité suivante :

Scores de confiance : l'API renvoie une valeur, mais ce n'est pas réellement un score de confiance.

Contrat de niveau de service du modèle

Les derniers modèles sont considérés comme étant une partie en disponibilité générale de l'API Cloud Speech-to-Text. Ainsi, les fonctionnalités qu'ils prennent en charge sont disponibles dans l'API v1 et bénéficient du même contrat de niveau de service et des mêmes protections que les produits et fonctionnalités en disponibilité générale.

Présentation des derniers modèles Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.