스크립트 작성 모델 비교

이 페이지에서는 Speech-to-Text에 대한 오디오 스크립트 작성 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.

올바른 스크립트 작성 모델 선택

Speech-to-Text는 입력을 여러 머신러닝 모델 중 하나와 비교하는 방법으로 오디오 클립의 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.

Speech-to-Text에는 특정 소스의 오디오로 학습된 특화 모델이 있습니다. 이러한 모델을 학습된 데이터와 유사한 종류의 오디오 데이터에 적용하면 더 나은 결과를 얻을 수 있습니다.

다음 표에는 Speech-to-Text V2 API와 함께 사용할 수 있는 스크립트 작성 모델이 나와 있습니다.

모델 이름 설명
chirp_3 피드백과 경험을 기반으로 사용자 요구사항을 충족하도록 설계된 최신 세대의 Google 다국어 자동 음성 인식(ASR) 전용 생성 모델을 사용하세요. Chirp 3는 이전 Chirp 모델보다 정확성과 속도가 향상되었으며 분할 및 자동 언어 감지를 제공합니다.
chirp_2 대규모 언어 모델 (LLM) 기술로 지원되는 범용 대규모 음성 모델 (USM)을 사용하여 스트리밍 및 일괄 처리하고 다양한 언어 콘텐츠와 다국어 기능으로 스크립트 작성 및 번역을 제공하세요.
telephony 일반적으로 8kHz 샘플링 레이트로 녹화된 오디오 전화 통화에서 시작되는 오디오에 이 모델을 사용합니다. 고객 서비스, 화상회의, 자동 키오스크 애플리케이션에 이상적입니다.

오디오 스크립트 작성용 모델 선택

짧은 오디오 클립 (60초 미만)을 텍스트로 변환하는 가장 간단한 방법은 동기 인식입니다. 오디오를 처리하고 모든 오디오가 처리된 후 단일 응답으로 전체 텍스트 변환 결과를 반환합니다.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

60초보다 긴 오디오 파일을 텍스트로 변환하거나 오디오를 실시간으로 텍스트로 변환하려면 다음 방법 중 하나를 사용하세요.

  • 일괄 인식: Cloud Storage 버킷에 저장된 긴 오디오 파일 (분~시간)의 스크립트를 작성하는 데 적합합니다. 이 작업은 비동기 작업입니다. 일괄 인식에 대해 자세히 알아보려면 일괄 인식을 참고하세요.
  1. 스트리밍 인식: 마이크 피드 또는 라이브 스트림과 같이 오디오를 실시간으로 캡처하고 스크립트로 변환하는 데 적합합니다. 스트리밍 인식에 대한 자세한 내용은 스트리밍 인식을 참고하세요.

다음 단계