O Chirp 2 é a geração mais recente dos modelos multilingues específicos de RFA da Google, concebidos para satisfazer as necessidades dos utilizadores com base no feedback e na experiência. Melhora o modelo Chirp original em termos de precisão e velocidade, além de expandir-se para novas funcionalidades importantes, como indicações de tempo ao nível da palavra, adaptação do modelo e tradução de voz.
Detalhes do modelo
O Chirp 2 está disponível exclusivamente na API Speech-to-Text V2.
Identificadores do modelo
Pode usar o Chirp 2 tal como qualquer outro modelo, especificando o identificador do modelo adequado no seu pedido de reconhecimento quando usar a API ou o nome do modelo na Google Cloud consola.
| Modelo | Identificador do modelo |
|---|---|
| Chirp 2 | chirp_2 |
Métodos da API
Como o Chirp 2 está disponível exclusivamente na API Speech-to-Text V2, suporta os seguintes métodos de reconhecimento:
| Modelo | Identificador do modelo | Suporte de idiomas |
|---|---|---|
V2 |
Speech.StreamingRecognize (bom para streaming e áudio em tempo real) |
Limitado* |
V2 |
Speech.Recognize (ideal para áudio curto com menos de 1 minuto) |
À altura do Chirp |
V2 |
Speech.BatchRecognize (bom para áudio longo de 1 min a 8 horas) |
À altura do Chirp |
*Pode sempre encontrar a lista mais recente de idiomas e funcionalidades suportados para cada modelo de transcrição através da API locations.
Disponibilidade regional
O Chirp 2 é compatível nas seguintes regiões:
| Google Cloud Zona | Disposição para o lançamento |
|---|---|
us-central1 |
DG |
europe-west4 |
DG |
asia-southeast1 |
DG |
Pode sempre encontrar a lista mais recente de regiões Google Cloud , idiomas e funcionalidades suportados para cada modelo de transcrição através da API Locations, conforme explicado aqui.
Idiomas disponíveis para a transcrição
O Chirp 2 suporta a transcrição nos métodos de reconhecimento StreamingRecognize, Recognize e BatchRecognize. No entanto, o suporte de idiomas difere consoante o método usado. Especificamente, a BatchRecognize oferece a compatibilidade com idiomas mais abrangente.
O StreamingRecognize suporta os seguintes idiomas:
| Idioma | Código BCP-47 |
|---|---|
| Chinês (simplificado, China) | cmn-Hans-CN |
| Chinês (tradicional, Taiwan) | cmn-Hant-TW |
| Chinês, cantonês (Hong Kong tradicional) | yue-Hant-HK |
| Inglês (Austrália) | en-AU |
| Inglês (Índia) | en-IN |
| Inglês (Reino Unido) | en-GB |
| Inglês (Estados Unidos) | en-US |
| Francês (Canadá) | fr-CA |
| Francês (França) | fr-FR |
| Alemão (Alemanha) | de-DE |
| Italiano (Itália) | it-IT |
| Japonês (Japão) | ja-JP |
| Coreano (Coreia do Sul) | ko-KR |
| Português (Brasil) | pt-BR |
| Espanhol (Espanha) | es-ES |
| Espanhol (Estados Unidos) | es-US |
Idiomas disponíveis para tradução
Estes são os idiomas suportados para a tradução de voz. Tenha em atenção que o suporte de idiomas do Chirp 2 para tradução não é simétrico. Isto significa que, embora possamos traduzir do idioma A para o idioma B, a tradução do idioma B para o idioma A pode não estar disponível. Os seguintes pares de idiomas são suportados para a tradução de voz.
Para tradução para inglês:
| Idioma de origem -> Idioma de destino | Código do idioma de origem -> Código do idioma de destino |
|---|---|
| Árabe (Egito) -> inglês | ar-EG -> en-US |
| Árabe (Golfo) -> inglês | ar-x-gulf -> en-US |
| Árabe (Levante) -> inglês | ar-x-levant -> en-US |
| Árabe (Magrebe) -> inglês | ar-x-maghrebi -> en-US |
| Catalão (Espanha) -> Inglês | ca-ES -> en-US |
| Galês (Reino Unido) -> inglês | cy-GB -> en-US |
| Alemão (Alemanha) -> inglês | de-DE -> en-US |
| Espanhol (América Latina) -> Inglês | es-419 -> en-US |
| Espanhol (Espanha) -> Inglês | es-ES -> en-US |
| Espanhol (Estados Unidos) -> inglês | es-US -> en-US |
| Estónio (Estónia) -> inglês | et-EE -> en-US |
| Francês (Canadá) -> inglês | fr-CA -> en-US |
| Francês (França) -> Inglês | fr-FR -> en-US |
| Persa (Irão) -> Inglês | fa-IR -> en-US |
| Indonésio (Indonésia) -> Inglês | id-ID -> en-US |
| Italiano (Itália) -> Inglês | it-IT -> en-US |
| Japonês (Japão) -> inglês | ja-JP -> en-US |
| Letão (Letónia) -> Inglês | lv-LV -> en-US |
| Mongol (Mongólia) -> Inglês | mn-MN -> en-US |
| Neerlandês (Países Baixos) -> Inglês | nl-NL -> en-US |
| Português (Brasil) -> Inglês | pt-BR -> en-US |
| Russo (Rússia) -> Inglês | ru-RU -> en-US |
| Esloveno (Eslovénia) -> Inglês | sl-SI -> en-US |
| Sueco (Suécia) -> Inglês | sv-SE -> en-US |
| Tâmil (Índia) -> inglês | ta-IN -> en-US |
| Turco (Turquia) -> Inglês | tr-TR -> en-US |
| Chinês (simplificado, China) -> Inglês | cmn-Hans-CN -> en-US |
Para tradução de inglês:
| Idioma de origem -> Idioma de destino | Código do idioma de origem -> Código do idioma de destino |
|---|---|
| Inglês -> árabe (Egito) | en-US -> ar-EG |
| Inglês -> Árabe (Golfo) | en-US -> ar-x-gulf |
| Inglês -> Árabe (Levante) | en-US -> ar-x-levant |
| Inglês -> Árabe (Magrebe) | en-US -> ar-x-maghrebi |
| Inglês -> catalão (Espanha) | en-US -> ca-ES |
| Inglês -> Galês (Reino Unido) | en-US -> cy-GB |
| Inglês -> alemão (Alemanha) | en-US -> de-DE |
| Inglês -> estónio (Estónia) | en-US -> et-EE |
| Inglês -> persa (Irão) | en-US -> fa-IR |
| Inglês -> indonésio (Indonésia) | en-US -> id-ID |
| Inglês -> japonês (Japão) | en-US -> ja-JP |
| Inglês -> letão (Letónia) | en-US -> lv-LV |
| Inglês -> Mongol (Mongólia) | en-US -> mn-MN |
| Inglês -> esloveno (Eslovénia) | en-US -> sl-SI |
| Inglês -> Sueco (Suécia) | en-US -> sv-SE |
| Inglês -> tâmil (Índia) | en-US -> ta-IN |
| Inglês -> turco (Turquia) | en-US -> tr-TR |
| Inglês -> chinês (simplificado, China) | en-US -> cmn-Hans-CN |
Suporte de funcionalidades e limitações
O Chirp 2 suporta as seguintes funcionalidades:
| Funcionalidade | Descrição |
|---|---|
| Pontuação automática | Geradas automaticamente pelo modelo e podem ser desativadas opcionalmente. |
| Utilização automática de maiúsculas | Geradas automaticamente pelo modelo e podem ser desativadas opcionalmente. |
| Adaptação da voz (tendência) | Forneça sugestões ao modelo sob a forma de palavras ou expressões simples para melhorar a precisão do reconhecimento de termos específicos ou nomes próprios. Os tokens de classe ou as classes personalizadas não são suportados. |
| Indicações de tempo das palavras (datas/horas) | Geradas automaticamente pelo modelo e podem ser ativadas opcionalmente. É possível que a qualidade e a velocidade da transcrição se degradem ligeiramente. |
| Filtro de linguagem obscena | Detetar palavras obscenas e devolver apenas a primeira letra seguida de asteriscos na transcrição (por exemplo, f***). |
| Transcrição de áudio independente do idioma | O modelo infere automaticamente o idioma falado no seu ficheiro de áudio e transcreve-o no idioma mais predominante. |
| Tradução específica do idioma | O modelo traduz automaticamente do idioma falado para o idioma de destino. |
| Normalização forçada | Se estiverem definidas no corpo do pedido, a API faz substituições de strings em termos ou expressões específicos, garantindo a consistência na transcrição. |
| Pontuações de confiança ao nível da palavra | A API devolve um valor, mas não é verdadeiramente uma pontuação de confiança. No caso da tradução, as classificações de confiança não são devolvidas. |
| Cancelamento de ruído e filtragem de SNR | Remova o ruído do áudio antes de o enviar para o modelo. Filtre segmentos de áudio se a relação sinal/ruído for inferior ao limite especificado. |
O Chirp 2 não suporta as seguintes funcionalidades:
| Funcionalidade | Descrição |
|---|---|
| Diarização | Não suportado |
| Deteção de idioma | Não suportado |
Transcreva com o Chirp 2
Descubra como usar o Chirp 2 para as suas necessidades de transcrição e tradução.
Realize o reconhecimento de voz em streaming
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_streaming_chirp2(
audio_file: str
) -> cloud_speech.StreamingRecognizeResponse:
"""Transcribes audio from audio file stream using the Chirp 2 model of Google Cloud Speech-to-Text V2 API.
Args:
audio_file (str): Path to the local audio file to be transcribed.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API V2 containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
content = f.read()
# In practice, stream should be a generator yielding chunks of audio data
chunk_length = len(content) // 5
stream = [
content[start : start + chunk_length]
for start in range(0, len(content), chunk_length)
]
audio_requests = (
cloud_speech.StreamingRecognizeRequest(audio=audio) for audio in stream
)
recognition_config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_2",
)
streaming_config = cloud_speech.StreamingRecognitionConfig(
config=recognition_config
)
config_request = cloud_speech.StreamingRecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
streaming_config=streaming_config,
)
def requests(config: cloud_speech.RecognitionConfig, audio: list) -> list:
yield config
yield from audio
# Transcribes the audio into text
responses_iterator = client.streaming_recognize(
requests=requests(config_request, audio_requests)
)
responses = []
for response in responses_iterator:
responses.append(response)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return responses
Realize o reconhecimento de voz síncrono
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_sync_chirp2(
audio_file: str
) -> cloud_speech.RecognizeResponse:
"""Transcribes an audio file using the Chirp 2 model of Google Cloud Speech-to-Text V2 API.
Args:
audio_file (str): Path to the local audio file to be transcribed.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_2",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
Realize o reconhecimento de voz em lote
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_batch_chirp2(
audio_uri: str,
) -> cloud_speech.BatchRecognizeResults:
"""Transcribes an audio file from a Google Cloud Storage URI using the Chirp 2 model of Google Cloud Speech-to-Text V2 API.
Args:
audio_uri (str): The Google Cloud Storage URI of the input audio file.
E.g., gs://[BUCKET]/[FILE]
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_2",
)
file_metadata = cloud_speech.BatchRecognizeFileMetadata(uri=audio_uri)
request = cloud_speech.BatchRecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
files=[file_metadata],
recognition_output_config=cloud_speech.RecognitionOutputConfig(
inline_response_config=cloud_speech.InlineOutputConfig(),
),
)
# Transcribes the audio into text
operation = client.batch_recognize(request=request)
print("Waiting for operation to complete...")
response = operation.result(timeout=120)
for result in response.results[audio_uri].transcript.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response.results[audio_uri].transcript
Usar as funcionalidades do Chirp 2
Explore como pode usar as funcionalidades mais recentes com exemplos de código:
Faça uma transcrição sem diálogo
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_sync_chirp2_auto_detect_language(
audio_file: str
) -> cloud_speech.RecognizeResponse:
"""Transcribes an audio file and auto-detect spoken language using Chirp 2.
Please see https://cloud.google.com/speech-to-text/docs/encoding for more
information on which audio encodings are supported.
Args:
audio_file (str): Path to the local audio file to be transcribed.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["auto"], # Set language code to auto to detect language.
model="chirp_2",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
print(f"Detected Language: {result.language_code}")
return response
Faça tradução de voz
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def translate_sync_chirp2(
audio_file: str
) -> cloud_speech.RecognizeResponse:
"""Translates an audio file using Chirp 2.
Args:
audio_file (str): Path to the local audio file to be translated.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the translated results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["fr-FR"], # Set language code to targeted to detect language.
translation_config=cloud_speech.TranslationConfig(target_language="fr-FR"), # Set target language code.
model="chirp_2",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Translated transcript: {result.alternatives[0].transcript}")
return response
Ative as indicações de tempo ao nível das palavras
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_sync_chirp2_with_timestamps(
audio_file: str
) -> cloud_speech.RecognizeResponse:
"""Transcribes an audio file using the Chirp 2 model of Google Cloud Speech-to-Text V2 API, providing word-level timestamps for each transcribed word.
Args:
audio_file (str): Path to the local audio file to be transcribed.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_2",
features=cloud_speech.RecognitionFeatures(
enable_word_time_offsets=True, # Enabling word-level timestamps
)
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
Melhore a precisão com a adaptação do modelo
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_sync_chirp2_model_adaptation(
audio_file: str
) -> cloud_speech.RecognizeResponse:
"""Transcribes an audio file using the Chirp 2 model with adaptation, improving accuracy for specific audio characteristics or vocabulary.
Args:
audio_file (str): Path to the local audio file to be transcribed.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_2",
# Use model adaptation
adaptation=cloud_speech.SpeechAdaptation(
phrase_sets=[
cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
inline_phrase_set=cloud_speech.PhraseSet(phrases=[
{
"value": "alphabet",
},
{
"value": "cell phone service",
}
])
)
]
)
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
Detalhes do redutor de ruído e da filtragem de SNR
denoiser_audio=true pode ajudar eficazmente a reduzir a música de fundo ou os ruídos, como a chuva e o trânsito na rua. Tenha em atenção que um redutor de ruído não pode remover vozes humanas em segundo plano.
Pode definir snr_threshold=X para controlar o volume mínimo da voz necessário para a transcrição. Isto ajuda a filtrar o áudio sem voz ou o ruído de fundo, evitando texto indesejado nos seus resultados. Um valor snr_threshold mais elevado significa que o utilizador tem de falar mais alto para que o modelo transcreva as expressões.
A filtragem de SNR pode ser usada em exemplos de utilização de streaming em tempo real para evitar o envio de sons desnecessários a um modelo para transcrição. Um valor mais elevado para esta definição significa que o volume da sua voz tem de ser mais alto em relação ao ruído de fundo para ser enviado para o modelo de transcrição.
A configuração de snr_threshold interage com o facto de denoise_audio
ser true ou false. Quando denoise_audio=true, o ruído de fundo é removido e a voz torna-se relativamente mais clara. A relação sinal/ruído geral do áudio aumenta.
Se o seu exemplo de utilização envolver apenas a voz do utilizador sem outras pessoas a falar, defina denoise_audio=true para aumentar a sensibilidade da filtragem de SNR, que pode filtrar o ruído que não é de voz. Se o seu exemplo de utilização envolver pessoas a falar em segundo plano e quiser evitar a transcrição da fala em segundo plano, considere definir denoise_audio=false e baixar o limite de SNR.
Seguem-se os valores de limite de SNR recomendados. Pode definir um valor snr_threshold
razoável entre 0 e 1000. Um valor de 0 significa que não filtra nada,
e 1000 significa que filtra tudo. Ajuste o valor se a definição recomendada não funcionar para si.
| Remova o ruído do áudio | Limite de SNR | Sensibilidade da voz |
|---|---|---|
| verdadeiro | 10,0 | alta |
| verdadeiro | 20,0 | média |
| verdadeiro | 40,0 | baixos |
| verdadeiro | 100,0 | muito baixa |
| falso | 0,5 | alta |
| falso | 1,0 | média |
| falso | 2,0 | baixos |
| falso | 5.0 | muito baixa |
Ative o cancelamento de ruído e a filtragem de SNR
import os
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
from google.api_core.client_options import ClientOptions
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def transcribe_sync_chirp2_with_timestamps(
audio_file: str
) -> cloud_speech.RecognizeResponse:
"""Transcribes an audio file using the Chirp 2 model of Google Cloud Speech-to-Text V2 API, providing word-level timestamps for each transcribed word.
Args:
audio_file (str): Path to the local audio file to be transcribed.
Example: "resources/audio.wav"
Returns:
cloud_speech.RecognizeResponse: The response from the Speech-to-Text API containing
the transcription results.
"""
# Instantiates a client
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_2",
denoiser_config={
denoise_audio: True,
# Medium snr threshold
snr_threshold: 20.0,
}
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/us-central1/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
Use o Chirp 2 na Google Cloud consola
- Inscreva-se numa Google Cloud conta e crie um projeto.
- Aceda a Voz na Google Cloud consola.
- Se a API não estiver ativada, ative-a.
Certifique-se de que tem uma consola de STT do Workspace. Se não tiver um espaço de trabalho, tem de criar um.
Aceda à página de transcrições e clique em Nova transcrição.
Abra o menu pendente Espaço de trabalho e clique em Novo espaço de trabalho para criar um espaço de trabalho para a transcrição.
Na barra lateral de navegação Criar um novo espaço de trabalho, clique em Procurar.
Clique para criar um novo contentor.
Introduza um nome para o seu depósito e clique em Continuar.
Clique em Criar para criar o contentor do Cloud Storage.
Depois de criar o contentor, clique em Selecionar para selecionar o contentor a usar.
Clique em Criar para concluir a criação do seu espaço de trabalho para a consola da API Speech-to-Text V2.
Fazer uma transcrição do seu áudio real.
A página de criação de transcrições de voz para texto, que mostra opções para seleção ou carregamento de ficheiros. Na página Nova transcrição, selecione o ficheiro de áudio através do carregamento (Carregamento local) ou da especificação de um ficheiro do Cloud Storage existente (Armazenamento na nuvem).
Clique em Continuar para aceder às Opções de transcrição.
Selecione o Idioma falado que planeia usar para o reconhecimento com o Chirp a partir do reconhecedor criado anteriormente.
No menu pendente de modelos, selecione chirp_2.
No menu pendente Reconhecedor, selecione o reconhecedor que acabou de criar.
Clique em Enviar para executar o seu primeiro pedido de reconhecimento através da
chirp_2.
Veja o resultado da transcrição do Chirp 2.
Na página Transcrição, clique no nome da transcrição para ver o respetivo resultado.
Na página Detalhes da transcrição, veja o resultado da transcrição e, opcionalmente, ouça o áudio no navegador.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
-
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
gcloud auth application-default revoke
-
Optional: Revoke credentials from the gcloud CLI.
gcloud auth revoke
Consola
gcloud
O que se segue?
- Saiba como transcrever áudio em streaming.
- Saiba como transcrever ficheiros de áudio curtos.
- Saiba como transcrever ficheiros de áudio longos.
- Para o melhor desempenho, precisão e outras sugestões, consulte a documentação de práticas recomendadas.