プロンプトのキャッシュ保存

Anthropic Claude モデルは、プロンプトのキャッシュ保存機能を備えているため、複数のリクエストで同じコンテンツを再利用する際のレイテンシと費用を削減できます。クエリを送信するときに、入力の一部またはすべてをキャッシュに保存して、後続のクエリで前のリクエストのキャッシュに保存された結果を使用できるようにします。これにより、コンピューティングとネットワークの追加費用の発生を回避できます。キャッシュは Google Cloud プロジェクトに固有のものであり、他のプロジェクトでは使用できません。

プロンプトを構造化するための方法について詳しくは、Anthropic のプロンプトのキャッシュ保存のドキュメントをご覧ください。

データ処理

Anthropic の明示的なプロンプトのキャッシュ保存は、Anthropic Claude モデルの機能です。これらの Anthropic モデルの Vertex AI サービスは、Anthropic のドキュメントで説明されているように動作します。

プロンプトのキャッシュ保存はオプション機能です。Claude は、キャッシュ保存キーのリクエストのハッシュ（フィンガープリント）を計算します。これらのハッシュは、キャッシュ保存が有効になっているリクエストに対してのみ計算されます。

プロンプトのキャッシュ保存は Claude モデルによって実装される機能ですが、データ処理の観点から、Google はこれらのハッシュを「ユーザーメタデータ」の一種とみなしています。これらのデータは、Cloud のデータ処理に関する追加条項（お客様）の「お客様データ」ではなく、Google Cloudプライバシーに関するお知らせのお客様の「サービスデータ」として扱われます。具体的に、「お客様データ」の追加保護はこれらのハッシュには適用されません。Google は、これらのハッシュを他の目的に使用しません。

このプロンプトのキャッシュ保存機能の使用を完全に無効にして、特定の Google Cloud プロジェクトで使用できなくする場合は、カスタマーサポートにお問い合わせのうえ、関連するプロジェクト番号をお知らせください。プロジェクトで明示的なキャッシュ保存が無効になると、プロンプトのキャッシュ保存が有効になっているプロジェクトからのリクエストは拒否されます。

プロンプトのキャッシュ保存を使用する

Anthropic Claude SDK または Vertex AI REST API を使用して、Vertex AI エンドポイントにリクエストを送信できます。

詳細については、プロンプトのキャッシュ保存の仕組みをご覧ください。

その他の例については、Anthropic のドキュメントのプロンプトのキャッシュ保存の例をご覧ください。

後続のリクエストに最初のリクエストと同じテキスト、画像、cache_control パラメータが含まれている場合、キャッシュ保存は自動的に行われます。すべてのリクエストで、同じブロックに cache_control パラメータを配置する必要があります。

デフォルトでは、キャッシュの有効期間（TTL）は 5 分です。cache_control オブジェクト内で "ttl": "1h" を設定すると、TTL を 1 時間に延長できます。キャッシュに保存されたコンテンツにアクセスするたびに、キャッシュの有効期間が更新されます。詳細については、1 時間のキャッシュ期間をご覧ください。

1 時間の TTL は、Claude 3.7 Sonnet、Claude 3.5 Sonnet v2、Claude 3.5 Sonnet、Claude 3 Opus ではサポートされていません。

料金

プロンプトのキャッシュ保存は、請求額に影響する可能性があります。次のことに注意してください。

有効期間が 5 分のキャッシュ書き込みトークンは、ベース入力トークンよりも 25% 高価格です。
有効期間が 1 時間のキャッシュ書き込みトークンは、ベース入力トークンよりも 100% 高価格です。
キャッシュ読み取りトークンはベース入力トークンよりも 90% 低価格です。
通常の入力トークンと出力トークンは標準料金で課金されます。

詳細については、料金のページをご覧ください。

プロンプトのキャッシュ保存 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

データ処理

プロンプトのキャッシュ保存を使用する

料金

プロンプトのキャッシュ保存