컨텍스트 캐싱 개요

컨텍스트 캐싱은 반복된 콘텐츠가 포함된 Gemini 요청의 비용과 지연 시간을 줄이는 데 도움이 됩니다. Vertex AI는 두 가지 유형의 캐싱을 제공합니다.

암시적 캐싱: 기본적으로 사용 설정된 자동 캐싱으로, 캐시 적중이 발생할 때 비용 절감 효과가 있습니다.
명시적 캐싱: Vertex AI API를 사용해 수동으로 사용 설정하는 캐싱으로, 캐싱할 콘텐츠와 프롬프트가 캐시 콘텐츠를 참조할지 여부를 명시적으로 선언해야 합니다.

암시적 캐싱과 명시적 캐싱 모두에서 응답 메타데이터의 cachedContentTokenCount 필드는 입력 중 캐싱된 부분의 토큰 수를 나타냅니다. 캐싱 요청은 최소 2,048개의 토큰을 포함해야 합니다.

캐싱 스토리지 비용

암시적 캐싱과 명시적 캐싱 모두에서 캐시를 만드는 데 사용된 입력 토큰에 대해 표준 입력 토큰 가격으로 비용이 청구됩니다. 단, 명시적 캐싱의 경우 캐시 저장 기간에 따라 스토리지 비용이 청구됩니다 암시적 캐싱에는 스토리지 비용이 발생하지 않습니다. 자세한 내용은 Vertex AI 가격 책정을 참조하세요.

암시적 캐싱

모든 Google Cloud 프로젝트에서는 암시적 캐싱이 기본적으로 사용 설정되어 있습니다. 암시적 캐싱은 표준 입력 토큰 대비 캐시된 토큰에 대해 90%의 요금 할인을 제공합니다.

암시적 캐싱이 사용 설정된 경우, 캐시 적중으로 인한 비용 절감은 자동으로 적용됩니다. 암시적 캐시 적중 발생 가능성을 높이려면 다음 안내를 따르세요.

프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치합니다.
짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송합니다.

지원되는 모델

다음 모델을 사용할 때 암시적 캐싱이 지원됩니다.

암시적 캐싱은 다음을 비롯한 최신 별칭도 지원합니다.

gemini-flash-latest
gemini-flash-lite-latest

명시적 캐싱

명시적 캐싱은 더 많은 제어 기능을 제공하며 명시적 캐시가 참조될 때 요금 할인이 보장됩니다. 즉, 기존 컨텍스트 캐시를 참조하는 입력 토큰에 대한 할인입니다. Gemini 2.5 모델에서는 90% 할인이, Gemini 2.0 모델에서는 75% 할인이 적용됩니다.

Vertex AI API를 사용하면 다음을 수행할 수 있습니다.

컨텍스트 캐시를 만들고 더 효과적으로 제어합니다.
프롬프트 요청에서 리소스 이름으로 콘텐츠를 참조하여 컨텍스트 캐시를 사용합니다.
컨텍스트 캐시의 만료 시간(수명 또는 TTL)을 업데이트하여 기본값 60분에서 연장합니다.
필요하지 않은 경우 컨텍스트 캐시를 삭제합니다.

또한 Vertex AI API를 사용하여 컨텍스트 캐시에 대한 정보를 가져올 수도 있습니다.

명시적 캐시는 암시적 캐시와 상호작용하여, 캐시를 만들 때 지정된 콘텐츠 외에도 추가적인 캐싱이 발생할 수 있습니다. 캐시 데이터 보관을 방지하려면 암시적 캐싱을 사용 중지하고 명시적 캐시를 만들지 마세요. 자세한 내용은 캐싱 사용 설정 및 사용 중지를 참조하세요.

지원되는 모델

다음 모델을 사용할 때 명시적 캐싱이 지원됩니다.

명시적 캐싱은 다음을 비롯한 최신 별칭도 지원합니다.

gemini-flash-latest
gemini-flash-lite-latest

컨텍스트 캐싱을 사용하는 경우

컨텍스트 캐싱은 대규모 초기 컨텍스트를 후속 요청에서 반복적으로 참조하는 시나리오에 특히 적합합니다.

대량의 텍스트, 오디오 파일 또는 동영상 파일과 같은 캐시된 컨텍스트 항목은 Gemini API에 대한 프롬프트 요청에서 출력을 생성하는 데 사용될 수 있습니다. 동일한 캐시를 사용하는 프롬프트 요청은 각 요청마다 고유한 텍스트도 포함합니다. 예를 들어 채팅 대화를 구성하는 각 프롬프트 요청은 동영상을 참조하는 동일한 컨텍스트 캐시와 각 대화 차례에 해당하는 고유 텍스트를 함께 포함할 수 있습니다.

다음과 같은 사용 사례에 컨텍스트 캐싱을 사용하는 것이 좋습니다.

다양한 시스템 안내를 제공하는 챗봇
긴 동영상 파일 반복 분석
대규모 문서 세트에 대해 반복 쿼리
빈번한 코드 저장소 분석 또는 버그 수정

암시적 및 명시적 캐싱은 프리뷰에서 프로비저닝된 처리량으로 지원됩니다. 자세한 내용은 프로비저닝된 처리량 가이드를 참조하세요.

가용성

컨텍스트 캐싱은 Vertex AI에서 생성형 AI가 제공되는 리전에서 사용할 수 있습니다. 자세한 내용은 Vertex AI의 생성형 AI 위치를 참조하세요.

한도

명시적으로 캐싱하는 콘텐츠는 다음 표에 나열된 한도를 따라야 합니다.

컨텍스트 캐싱 한도
최소 캐시 토큰 수	모든 모델에서 `2,048`
Blob 또는 텍스트로 캐싱할 수 있는 최대 콘텐츠 크기	10MB
캐시가 생성된 후 만료되기 전까지의 최소 시간	1분
캐시가 생성된 후 만료되기 전까지의 최대 시간	최대 캐시 기간이 없습니다.

VPC 서비스 제어 지원

컨텍스트 캐싱은 VPC 서비스 제어를 지원하므로 캐시가 서비스 경계를 벗어나 유출될 수 없습니다. 캐시를 빌드하는 데 Cloud Storage를 사용하는 경우, 캐시 콘텐츠를 보호하기 위해 버킷도 서비스 경계에 포함해야 합니다.

자세한 내용은 Vertex AI 문서의 Vertex AI를 통한 VPC 서비스 제어를 참조하세요.

다음 단계

Gemini API 알아보기
멀티모달 프롬프트 사용 방법 알아보기

컨텍스트 캐싱 개요 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

캐싱 스토리지 비용

암시적 캐싱

지원되는 모델

명시적 캐싱

지원되는 모델

컨텍스트 캐싱을 사용하는 경우

가용성

한도

VPC 서비스 제어 지원

다음 단계

컨텍스트 캐싱 개요