스크립트 작성 모델 비교

이 페이지에서는 Cloud Speech-to-Text에 대한 오디오 텍스트 변환 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.

올바른 스크립트 작성 모델 선택

Cloud Speech-to-Text는 여러 머신러닝 모델 중 하나와 입력을 비교하여 오디오 클립에서 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.

Cloud STT에는 특정 소스의 오디오에서 학습된 특화 모델이 있습니다. 이러한 모델을 학습된 데이터와 유사한 종류의 오디오 데이터에 적용하면 더 나은 결과를 얻을 수 있습니다.

다음 표에는 Cloud Speech-to-Text API V2와 함께 사용할 수 있는 스크립트 작성 모델이 나와 있습니다.

모델 이름 설명
chirp_3 피드백과 경험을 기반으로 사용자 요구사항을 충족하도록 설계된 최신 세대의 Google 다국어 자동 음성 인식(ASR) 전용 생성 모델을 사용합니다. Chirp 3는 이전 Chirp 모델보다 정확성과 속도가 향상되었으며 분할 및 자동 언어 감지를 제공합니다.
chirp_2 스트리밍 및 일괄 처리를 위해 대규모 언어 모델(LLM) 기술을 기반으로 하며 다양한 언어 콘텐츠 및 다국어 기능을 통해 텍스트 변환 및 번역을 제공하는 범용 대규모 음성 모델(USM)을 사용합니다.
telephony 일반적으로 8kHz 샘플링 레이트로 녹음된 오디오 전화 통화에서 시작되는 오디오에 이 모델을 사용합니다. 고객 서비스, 화상회의, 자동 키오스크 애플리케이션에 이상적입니다.

오디오 텍스트 변환용 모델 선택

짧은 오디오 클립(60초 미만)을 텍스트로 변환하는 가장 간단한 방법은 동기식 인식입니다. 오디오를 처리한 후 모든 오디오가 처리되면 단일 응답으로 전체 텍스트 변환 결과를 반환합니다.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

60초보다 긴 오디오 파일을 텍스트로 변환하거나 오디오를 실시간으로 텍스트로 변환하려면 다음 방법 중 하나를 사용하세요.

  • 일괄 인식: Cloud Storage 버킷에 저장된 긴 오디오 파일(수 분에서 수 시간)을 텍스트로 변환하는 데 적합합니다. 이는 비동기식 작업입니다. 일괄 인식에 대한 자세한 내용은 일괄 인식을 참조하세요.
  1. 스트리밍 인식: 마이크 피드 또는 라이브 스트림과 같은 오디오를 실시간으로 캡처하고 텍스트로 변환하는 데 적합합니다. 스트리밍 인식에 대한 자세한 내용은 스트리밍 인식을 참조하세요.

다음 단계