이 페이지에서는 Speech-to-Text에 대한 오디오 스크립트 작성 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.
올바른 스크립트 작성 모델 선택
Speech-to-Text는 입력을 여러 머신러닝 모델 중 하나와 비교하는 방법으로 오디오 클립의 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.
Speech-to-Text에는 특정 소스의 오디오로 학습된 특화 모델이 있습니다. 이러한 모델을 학습된 데이터와 유사한 종류의 오디오 데이터에 적용하면 더 나은 결과를 얻을 수 있습니다.
다음 표에는 Speech-to-Text V2 API와 함께 사용할 수 있는 스크립트 작성 모델이 나와 있습니다.
| 모델 이름 | 설명 |
|---|---|
chirp_3 |
피드백과 경험을 기반으로 사용자 요구사항을 충족하도록 설계된 최신 세대의 Google 다국어 자동 음성 인식(ASR) 전용 생성 모델을 사용하세요. Chirp 3는 이전 Chirp 모델보다 정확성과 속도가 향상되었으며 분할 및 자동 언어 감지를 제공합니다. |
chirp_2 |
대규모 언어 모델 (LLM) 기술로 지원되는 범용 대규모 음성 모델 (USM)을 사용하여 스트리밍 및 일괄 처리하고 다양한 언어 콘텐츠와 다국어 기능으로 스크립트 작성 및 번역을 제공하세요. |
telephony |
일반적으로 8kHz 샘플링 레이트로 녹화된 오디오 전화 통화에서 시작되는 오디오에 이 모델을 사용합니다. 고객 서비스, 화상회의, 자동 키오스크 애플리케이션에 이상적입니다. |
오디오 스크립트 작성용 모델 선택
짧은 오디오 클립 (60초 미만)을 텍스트로 변환하는 가장 간단한 방법은 동기 인식입니다. 오디오를 처리하고 모든 오디오가 처리된 후 단일 응답으로 전체 텍스트 변환 결과를 반환합니다.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
60초보다 긴 오디오 파일을 텍스트로 변환하거나 오디오를 실시간으로 텍스트로 변환하려면 다음 방법 중 하나를 사용하세요.
- 일괄 인식: Cloud Storage 버킷에 저장된 긴 오디오 파일 (분~시간)의 스크립트를 작성하는 데 적합합니다. 이 작업은 비동기 작업입니다. 일괄 인식에 대해 자세히 알아보려면 일괄 인식을 참고하세요.
- 스트리밍 인식: 마이크 피드 또는 라이브 스트림과 같이 오디오를 실시간으로 캡처하고 스크립트로 변환하는 데 적합합니다. 스트리밍 인식에 대한 자세한 내용은 스트리밍 인식을 참고하세요.
다음 단계
- 스트리밍 오디오의 텍스트 변환 방법 알아보기
- 긴 오디오 파일의 텍스트 변환 방법 알아보기
- 짧은 오디오 파일의 스크립트 작성 방법 알아보기
- 권장사항 문서에서 최상의 성능, 정확도, 기타 팁 참조