Synthétiser la voix avec le streaming bidirectionnel
Ce document vous explique comment synthétiser des contenus audio à l'aide du streaming bidirectionnel.
Le streaming bidirectionnel vous permet d'envoyer des entrées de texte et de recevoir des données audio simultanément. Cela signifie que vous pouvez commencer à synthétiser la parole avant l'envoi du texte d'entrée complet, ce qui réduit la latence et permet des interactions en temps réel. Les assistants vocaux et les jeux interactifs utilisent le streaming bidirectionnel pour créer des applications plus dynamiques et réactives.
Pour en savoir plus sur les concepts fondamentaux de Cloud Text-to-Speech, consultez la page Concepts de base de Cloud Text-to-Speech.
Avant de commencer
Avant de pouvoir envoyer une requête à l'API Cloud Text-to-Speech, vous devez avoir effectué les actions suivantes.
- Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
Installez la Google Cloud CLI.
-
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à la gcloud CLI avec votre identité fédérée.
-
Pour initialiser la gcloud CLI, exécutez la commande suivante :
gcloud init -
Créez ou sélectionnez un projet Google Cloud .
Rôles requis pour sélectionner ou créer un projet
- Sélectionnez un projet : la sélection d'un projet ne nécessite pas de rôle IAM spécifique. Vous pouvez sélectionner n'importe quel projet pour lequel un rôle vous a été attribué.
-
Créer un projet : pour créer un projet, vous devez disposer du rôle Créateur de projet (
roles/resourcemanager.projectCreator), qui contient l'autorisationresourcemanager.projects.create. Découvrez comment attribuer des rôles.
-
Créez un projet Google Cloud :
gcloud projects create PROJECT_ID
Remplacez
PROJECT_IDpar le nom du projet Google Cloud que vous créez. -
Sélectionnez le projet Google Cloud que vous avez créé :
gcloud config set project PROJECT_ID
Remplacez
PROJECT_IDpar le nom de votre projet Google Cloud .
-
Vérifiez que la facturation est activée pour votre projet Google Cloud .
Activez l'API Cloud Text-to-Speech :
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (
roles/serviceusage.serviceUsageAdmin), qui contient l'autorisationserviceusage.services.enable. Découvrez comment attribuer des rôles.gcloud services enable texttospeech.googleapis.com
-
Installez la Google Cloud CLI.
-
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à la gcloud CLI avec votre identité fédérée.
-
Pour initialiser la gcloud CLI, exécutez la commande suivante :
gcloud init -
Créez ou sélectionnez un projet Google Cloud .
Rôles requis pour sélectionner ou créer un projet
- Sélectionnez un projet : la sélection d'un projet ne nécessite pas de rôle IAM spécifique. Vous pouvez sélectionner n'importe quel projet pour lequel un rôle vous a été attribué.
-
Créer un projet : pour créer un projet, vous devez disposer du rôle Créateur de projet (
roles/resourcemanager.projectCreator), qui contient l'autorisationresourcemanager.projects.create. Découvrez comment attribuer des rôles.
-
Créez un projet Google Cloud :
gcloud projects create PROJECT_ID
Remplacez
PROJECT_IDpar le nom du projet Google Cloud que vous créez. -
Sélectionnez le projet Google Cloud que vous avez créé :
gcloud config set project PROJECT_ID
Remplacez
PROJECT_IDpar le nom de votre projet Google Cloud .
-
Vérifiez que la facturation est activée pour votre projet Google Cloud .
Activez l'API Cloud Text-to-Speech :
Rôles requis pour activer les API
Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (
roles/serviceusage.serviceUsageAdmin), qui contient l'autorisationserviceusage.services.enable. Découvrez comment attribuer des rôles.gcloud services enable texttospeech.googleapis.com
Synthétiser la voix avec le streaming bidirectionnel
Installer la bibliothèque cliente
Python
Avant d'installer la bibliothèque, assurez-vous d'avoir préparé votre environnement pour le développement Python.
pip install --upgrade google-cloud-texttospeech
Envoyer un flux de texte et recevoir un flux audio
L'API accepte un flux de requêtes de type StreamingSynthesizeRequest, qui contient StreamingSynthesisInput ou StreamingSynthesizeConfig.
Avant d'envoyer un flux StreamingSynthesizeRequest avec StreamingSynthesisInput, qui fournit une entrée de texte, envoyez exactement un StreamingSynthesizeRequest avec un StreamingSynthesizeConfig.
Le streaming Cloud Text-to-Speech n'est compatible qu'avec les voix Chirp 3 HD.
Python
Avant d'exécuter l'exemple, assurez-vous d'avoir préparé l'environnement pour le développement Python.
Effectuer un nettoyage
Pour éviter d'encourir des frais inutiles liés à Google Cloud Platform, supprimez votre projet à l'aide deGoogle Cloud console si vous n'en avez plus besoin.
Étapes suivantes
- Pour en savoir plus sur Cloud Text-to-Speech, consultez la page Concepts de base.
- Passez en revue la liste des voix disponibles que vous pouvez utiliser pour la voix synthétique.