Anthropic Claude モデルは、プロンプトのキャッシュ保存機能を備えているため、複数のリクエストで同じコンテンツを再利用する際のレイテンシと費用を削減できます。クエリを送信するときに、入力の一部またはすべてをキャッシュに保存して、後続のクエリで前のリクエストのキャッシュに保存された結果を使用できるようにします。これにより、コンピューティングとネットワークの追加費用の発生を回避できます。キャッシュは Google Cloud プロジェクトに固有のものであり、他のプロジェクトでは使用できません。
プロンプトを構造化するための方法について詳しくは、Anthropic のプロンプトのキャッシュ保存のドキュメントをご覧ください。
サポートされている Anthropic Claude モデル
Vertex AI は、次の Anthropic Claude モデルでのプロンプトのキャッシュ保存をサポートしています。
- Claude Opus 4
- Claude Sonnet 4
- Claude 3.7 Sonnet
- Claude 3.5 Sonnet v2
- Claude 3.5 Haiku
- Claude 3.5 Sonnet
- Claude 3 Opus
- Claude 3 Haiku
データ処理
Anthropic の明示的なプロンプトのキャッシュ保存は、Anthropic Claude モデルの機能です。これらの Anthropic モデルの Vertex AI サービスは、Anthropic のドキュメントで説明されているように動作します。
プロンプトのキャッシュ保存はオプション機能です。Claude は、キャッシュ保存キーのリクエストのハッシュ(フィンガープリント)を計算します。これらのハッシュは、キャッシュ保存が有効になっているリクエストに対してのみ計算されます。
プロンプトのキャッシュ保存は Claude モデルによって実装される機能ですが、データ処理の観点から、Google はこれらのハッシュを「ユーザー メタデータ」の一種とみなしています。これらのデータは、Cloud のデータ処理に関する追加条項(お客様)の「お客様データ」ではなく、Google Cloudプライバシーに関するお知らせのお客様の「サービスデータ」として扱われます。具体的に、「お客様データ」の追加保護はこれらのハッシュには適用されません。Google は、これらのハッシュを他の目的に使用しません。
このプロンプトのキャッシュ保存機能の使用を完全に無効にして、特定の Google Cloud プロジェクトで使用できなくする場合は、カスタマー サポートにお問い合わせのうえ、関連するプロジェクト番号をお知らせください。プロジェクトで明示的なキャッシュ保存が無効になると、プロンプトのキャッシュ保存が有効になっているプロジェクトからのリクエストは拒否されます。
プロンプトのキャッシュ保存を使用する
Anthropic Claude SDK または Vertex AI REST API を使用して、Vertex AI エンドポイントにリクエストを送信できます。
詳細については、プロンプトのキャッシュ保存の仕組みをご覧ください。
その他の例については、Anthropic のドキュメントのプロンプトのキャッシュ保存の例をご覧ください。
後続のリクエストに最初のリクエストと同じテキスト、画像、cache_control
パラメータが含まれている場合、キャッシュ保存は自動的に行われます。すべてのリクエストで、同じブロックに cache_control
パラメータを配置する必要があります。
キャッシュの有効期間は 5 分間です。キャッシュに保存されたコンテンツにアクセスするたびに更新されます。
料金
プロンプトのキャッシュ保存は、請求額に影響する可能性があります。次のことに注意してください。
- キャッシュ書き込みトークンはベース入力トークンよりも 25% 高価格です
- キャッシュ読み取りトークンはベース入力トークンよりも 90% 低価格です
- 通常の入力トークンと出力トークンは標準料金で課金されます
詳細については、料金ページをご覧ください。