Gemini Live API의 프로비저닝된 처리량

이 섹션에서는 토큰 집계 및 할당량 적용을 위해 프로비저닝된 처리량이 Gemini Live API와 어떻게 연동되는지 설명합니다.

Gemini Live API는 세션을 통해 지연 시간이 짧은 멀티모달 상호작용을 지원합니다. 세션 메모리를 사용하여 세션 내 상호작용의 정보를 보관하고 기억합니다. 이를 통해 모델은 이전에 제공되거나 논의된 정보를 기억할 수 있습니다. 프로비저닝된 처리량은 Gemini Live API를 사용하는 Gemini 2.5 Flash 모델을 지원합니다. 세션 한도 및 기능을 비롯한 Gemini Live API에 관한 자세한 내용은 Gemini Live API 참조를 참고하세요.

Gemini Live API의 처리량 계산

Gemini Live API를 사용하는 동안 세션 메모리에 저장된 토큰은 모델에 대한 후속 요청에서 사용할 수 있습니다. 따라서 프로비저닝된 처리량은 동일한 요청에서 수신 토큰과 세션 메모리 토큰을 모두 고려합니다. 이로 인해 요청당 처리되는 토큰 수가 진행 중인 요청에서 사용자가 보낸 토큰 수보다 많아질 수 있습니다.

Gemini Live API에는 세션 메모리에 저장할 수 있는 총 토큰 수에 제한이 있으며 총 토큰 수를 포함하는 메타데이터 필드도 있습니다. 요청을 처리하는 데 필요한 처리량을 계산할 때는 세션 메모리의 토큰을 고려해야 합니다. 사용한 만큼만 지불하는 요금제(PayGo)로 Gemini Live API를 사용한 경우 이러한 트래픽 패턴과 세션 토큰을 사용하여 프로비저닝된 처리량 요구사항을 추정할 수 있습니다.

Gemini Live API의 프로비저닝된 처리량 요구사항을 추정하는 방법의 예

세션 중에 모든 트래픽은 프로비저닝된 처리량 또는 사용한 만큼만 지불 요금제로 처리됩니다. 세션 중에 프로비저닝된 처리량 할당량에 도달하면 나중에 다시 시도하라는 오류 메시지가 표시됩니다. 할당량 내에 있으면 요청 전송을 재개할 수 있습니다. 세션 메모리를 비롯한 세션 상태는 세션이 활성 상태인 동안 사용할 수 있습니다.

이 예시에서는 세션 메모리의 토큰을 포함하여 연속된 두 요청이 처리되는 방식을 보여줍니다.

요청 1 세부정보

기간: 10초

전송된 토큰(오디오): 10초 x 토큰 25개/초 = 토큰 250개

전송된 토큰(동영상): 10초 x 토큰 258개/초당 프레임 수 = 토큰 2,580개

요청 1에 대해 처리된 총 토큰 수:

  • 전송된 토큰: 전송된 오디오 및 동영상 토큰의 합계 = 2,580 + 250 = 토큰 2,830개
  • 수신된 토큰: 100개(오디오)

요청 2 세부정보

기간: 40초

전송된 토큰(오디오): 40초 x 토큰 25개/초 = 토큰 1,000개

요청 2에 대해 처리된 총 토큰 수:

  • 전송된 토큰: 요청 2에서 전송된 토큰 + 요청 1의 세션 메모리 토큰 = 토큰 2,830개 + 토큰 1,000개 = 토큰 3,830개
  • 수신된 토큰: 200개(오디오)

요청에서 처리된 토큰 수 계산

이러한 요청 중에 처리된 토큰 수는 다음과 같이 계산됩니다.

  • 요청 1에서는 진행 중인 요청의 입력 및 출력 토큰만 처리합니다. 세션 메모리에 추가 토큰이 없기 때문입니다.

  • 요청 2는 진행 중인 요청의 입력 및 출력 토큰을 처리하지만 세션 메모리의 입력 토큰도 포함하며 이는 세션 메모리의 이전 요청(요청 1) 입력 토큰으로 구성됩니다. 세션 메모리의 토큰 소진율은 표준 입력 토큰의 소진율과 동일합니다(입력 세션 메모리 토큰 1개 = 입력 토큰 1개).

    요청 2를 보낸 후 처리하는 데 정확히 1초가 걸린 경우 토큰은 다음과 같이 처리되어 프로비저닝된 처리량 할당량에 적용됩니다.

    • 입력에 소진율을 곱하여 총 입력 토큰을 구합니다.

      2,830 x (세션 메모리 토큰당 토큰 1개) + 1,000 x (입력 텍스트 토큰당 토큰 1개) = 쿼리당 소진 조정 입력 토큰 3,830개

    • 출력에 소진율을 곱하여 총 출력 토큰을 구합니다.

      200 x (오디오 출력 토큰당 토큰 6개) = 토큰 1,200개

    • 다음 두 합계를 더하여 처리된 총 토큰 수를 구합니다.

      토큰 3,830개 + 토큰 1,200개 = 토큰 5,030개

프로비저닝된 처리량 할당량이 초당 토큰 5,030개보다 많은 경우 이 요청은 즉시 처리될 수 있습니다. 이보다 적으면 시간이 지나면서 할당량에 설정된 비율에 따라 토큰이 처리됩니다.

다음 단계