토큰 할당량으로 비용 관리
이 문서에서는 생성형 AI 함수에서 사용하는 입력 및 출력 토큰 수를 일일 한도로 정의하고 관리하는 방법을 설명합니다.BigQuery 생성형 AI 함수는 대규모 언어 모델 (LLM)을 사용하여 SQL 쿼리 내에서 고급 분석을 실행합니다. LLM 사용량은 일반적으로 처리된 토큰 수를 기준으로 청구되므로 BigQuery는 이러한 함수 사용과 관련된 비용을 관리하고 제어할 수 있도록 토큰 할당량을 제공합니다.
토큰 할당량은 AI.CLASSIFY 및 AI.GENERATE 함수와 같이 Gemini LLM을 사용하는 모든 생성형 AI 추론 작업을 위해 설계된 BigQuery SQL 함수에 적용됩니다.
할당량 세부정보
BigQuery는 LLM 토큰 사용량을 기반으로 다음 일일 할당량을 제공합니다. 토큰 사용량은 Gemini 모델을 사용하는 BigQuery 생성형 AI 기능의 Vertex AI 청구와 직접적인 관련이 있습니다. 이러한 할당량은 모든 지역에서 전역적으로 추적됩니다.
이러한 토큰 할당량은 생성형 AI 함수를 위해 LLM에서 처리하는 입력 및 출력 토큰 수를 관리합니다.
- 입력 토큰: 처리를 위해 모델로 전송된 토큰입니다. 여기에는 프롬프트 텍스트의 토큰과 모델에 입력으로 제공된 기타 데이터가 포함됩니다.
- 출력 토큰: 모델이 대답에서 생성한 토큰입니다. 여기에는 생성된 텍스트의 토큰 (후보 토큰)과 내부 추론 단계에서 생성된 토큰 (사고 토큰)이 포함됩니다.
| 할당량 이름 | 측정항목 | 범위 | 기본값 |
|---|---|---|---|
GenAiInputTokensPerDay |
LLM에서 사용한 입력 토큰 | 프로젝트별 일일 | 200,000,000,000 |
GenAiInputTokensPerUserPerDay |
LLM에서 사용한 입력 토큰 | 사용자당 일일 | 40,000,000,000 |
GenAiOutputTokensPerDay |
LLM에서 사용한 출력 및 사고 토큰 | 프로젝트별 일일 | 20,000,000,000 |
GenAiOutputTokensPerUserPerDay |
LLM에서 사용한 출력 및 사고 토큰 | 사용자당 일일 | 4,000,000,000 |
이러한 할당량은 수백만 개의 토큰 단위로 추적됩니다. 정확한 한도를 설정할 수 있지만 토큰 보고 및 집계의 특성상 수백만 토큰보다 작은 값은 완벽하게 정확하게 반영되지 않을 수 있습니다.
캐시된 토큰은 할당량에 포함되지 않습니다.
할당량 관리
리소스 사용량에 따라 토큰 할당량 값을 확인하거나 상향 또는 하향 조정할 수 있습니다. Google Cloud 콘솔을 사용하여 다음 작업을 수행할 수 있습니다.
Google Cloud 콘솔에서 IAM 및 관리자 > 할당량 및 시스템 한도 페이지로 이동합니다.
Service: BigQuery API를 입력하여 할당량을 필터링합니다.할당량 목록에서 특정 할당량을 검색합니다 (예:
GenAiInputTokensPerDay검색).수정을 클릭합니다.
할당량 변경 창에서 새 값을 입력하여 할당량을 늘리거나 줄입니다.
- 워크로드에 기본 한도보다 더 많은 용량이 필요한 경우 할당량 상향을 요청할 수 있습니다.
- 예산 초과를 방지하기 위해 사용량에 더 엄격한 한도를 적용하려면 할당량 재정의를 만들어 사용량을 제한하면 됩니다.
요청 제출을 클릭합니다.
할당량 적용 동작
BigQuery는 쿼리 실행의 여러 단계에서 토큰 소비를 모니터링합니다.
- 실행 전 확인: BigQuery는 생성형 AI 함수가 포함된 쿼리를 실행하기 전에 사용 가능한 토큰 할당량을 확인합니다. 관련 할당량 (예: 프로젝트 일일 입력 토큰)이 이미 소진된 경우
QuotaExceeded오류와 함께 쿼리가 거부됩니다. - 실행 중: 쿼리가 실행 중이고 토큰을 소비하여 구성된 할당량 (프로젝트별 또는 사용자별 입력 또는 출력)이 소진되면 해당 쿼리 내의 새 LLM 호출이 거부됩니다.
- LLM 호출에 종속된 나머지 행에는 할당량 소진 오류가 발생합니다.
AI.IF과 같은 함수에서 사용되는 경우 쿼리의 결과는max_error_ratio인수에 따라 달라집니다. 오류 비율이 허용된 한도 내에 있으면 부분 결과가 반환될 수 있습니다. 그렇지 않으면 전체 쿼리가 실패합니다.- 생성형 AI 기능을 사용하려는 후속 쿼리는 일일 할당량이 재설정될 때까지
QuotaExceeded오류와 함께 실패합니다.
중요 고려사항
- 전역 할당량: 정의된 할당량은 전역입니다. 토큰 사용량은 프로젝트가 운영되는 모든 리전에서 집계되므로 통합 비용 관리 메커니즘을 제공합니다. 이렇게 하면 다른 지역에서의 사용으로 인해 예상치 못한 요금이 청구되지 않습니다.
- 프로비저닝된 처리량: 프로비저닝된 처리량으로 Vertex AI 모델을 사용하는 경우 토큰 사용량을 기준으로 청구되지 않습니다. 쿼리가 불필요하게 차단되지 않도록 이러한 BigQuery 토큰 할당량을 높은 값으로 설정해야 합니다.
다음 단계
- AI 함수 비용 최적화에 대해 자세히 알아보세요.
- BigQuery의 생성형 AI 개요를 읽어보세요.