Mistral AI モデル

Vertex AI の Mistral AI モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で Mistral AI モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。Mistral AI モデルはマネージド API を使用します。インフラストラクチャをプロビジョニングしたり、管理する必要はありません。

レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。レスポンスをストリーミングする際には、サーバー送信イベント(SSE)を使用してレスポンスを段階的にストリーミングします。

Mistral AI モデルは従量課金制です。従量課金制の料金については、Vertex AI の料金ページで Mistral AI モデルの料金をご覧ください

利用可能な Mistral AI モデル

Vertex AI で使用できる Mistral AI のモデルは次のとおりです。Mistral AI モデルにアクセスするには、Model Garden のモデルカードに移動します。

Mistral Medium 3

Mistral Medium 3 は、プログラミング、数学的推論、長いドキュメントの理解、要約、対話など、幅広いタスク向けに設計された汎用モデルです。高度な推論能力、視覚的な理解、高度な専門知識(クリエイティブな文章作成、エージェント ワークフロー、コード生成など)を必要とする複雑なタスクに優れています。

マルチモーダル機能を備え、視覚的な入力を処理できます。また、80 を超えるコーディング言語を含む数十の言語をサポートしています。また、関数呼び出しとエージェント ワークフローも備えています。

Mistral Medium 3 は、特に長文コンテキスト アプリケーションの単一ノード推論用に最適化されています。このサイズにより、単一ノードで高いスループットを実現できます。

Mistral Medium 3 モデルカードに移動

Mistral OCR(25.05)

Mistral OCR(25.05)は、ドキュメントの理解のための光学式文字認識 API です。Mistral OCR(25.05)は、インターリーブされた画像、数式、表、LaTeX 形式などの高度なレイアウトを含む複雑なドキュメント要素の理解に優れています。このモデルにより、チャート、グラフ、方程式、図を含む科学論文などのリッチ ドキュメントをより深く理解できます。

Mistral OCR(25.05)は、マルチモーダル ドキュメント(スライドや複雑な PDF など)を入力として受け取る RAG システムと組み合わせて使用するのに最適なモデルです。

Mistral OCR(25.05)を他の Mistral モデルと組み合わせて、結果を再フォーマットできます。この組み合わせにより、抽出されたコンテンツが正確であるだけでなく、構造化され一貫性のある方法で提示されるため、さまざまなダウンストリーム アプリケーションや分析に適しています。

Mistral OCR(25.05)モデルカードに移動

Mistral Small 3.1(25.03)

Mistral Small 3.1(25.03)は、マルチモーダル機能と最大 128,000 のコンテキストを備えています。このモデルは、視覚的な入力や長いドキュメントを処理して理解できるため、以前の Mistral AI Small モデルと比較して、アプリケーションの範囲がさらに広がります。Mistral Small 3.1(25.03)は、プログラミング、数学的推論、ドキュメント理解、会話など、さまざまなタスク向けに設計された汎用モデルです。Mistral Small 3.1(25.03)は、低レイテンシ アプリケーション向けに設計されており、同じ品質のモデルと比較して最高水準の効率を実現します。

Mistral Small 3.1(25.03)は、モデルを人間の好みやニーズに合わせるための完全なトレーニング後プロセスを経ており、チャットや正確な指示の追従を必要とするアプリケーションですぐに使用できます。

Mistral Small 3.1(25.03)モデルカードに移動

Codestral 2

Codestral 2 は、高精度の Fill-in-the-Middle(FIM)補完専用に構築された Mistral のコード生成特化モデルです。このモデルにより、デベロッパーは共有された指示と補完の API エンドポイントを通じたコードの記述と操作が可能になります。コードを習得し、さまざまな言語で会話できるため、ソフトウェア デベロッパー向けの高度な AI アプリケーションを設計する際に利用できます。

Codestral 2 の最新リリースでは、以前のバージョンの Codestral(25.01)と比較して、次のようなアップグレードが実現されています。

  • 完了の承認率が 30% 増加しました。
  • 提案後のコードの保持率が 10% 向上。
  • 暴走した生成が 50% 減少し、長い編集に対する信頼性が向上しました。

短コンテキストと長コンテキストの FIM 補完に関する学術ベンチマークのパフォーマンスが向上しました。

  • コード生成: コード補完、候補の提示、翻訳。
  • コードの理解とドキュメント: コードの要約と説明。
  • コードの品質: コードレビュー、リファクタリング、バグの修正、テストケースの生成。
  • コードの Fill-in-the-Middle: ユーザーは、プロンプトを使用してコードの開始点を定義し、オプションの接尾辞とオプションの停止を使用してコードの終了点を定義できます。Codestral モデルは、その間に収まるコードを生成します。特定のコードを生成する必要があるタスクに最適です。

Codestral 2 モデルカードに移動

Mistral AI モデルを使用する

curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。

  • Mistral Medium 3 の場合は mistral-medium-3 を使用します
  • Mistral OCR(25.05)の場合は、mistral-ocr-2505 を使用します
  • Mistral Small 3.1(25.03)の場合は、mistral-small-2503 を使用します
  • Codestral 2 の場合は codestral-2 を使用します

Mistral AI SDK の使用方法については、Mistral AI Vertex AI のドキュメントをご覧ください。

始める前に

Vertex AI で Mistral AI モデルを使用するには、次の操作を行う必要があります。Vertex AI を使用するには、Vertex AI API(aiplatform.googleapis.com)を有効にする必要があります。既存のプロジェクトで Vertex AI API が有効になっている場合は、新しいプロジェクトを作成する代わりに、そのプロジェクトを使用できます。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. 次のいずれかの Model Garden モデルカードに移動し、[有効にする] をクリックします。
  9. Mistral AI モデルにストリーミング呼び出しを行う

    次のサンプルでは、Mistral AI モデルへのストリーミング呼び出しを行います。

    REST

    環境をセットアップしたら、REST を使用してテキスト プロンプトをテストできます。次のサンプルは、パブリッシャー モデルのエンドポイントにリクエストを送信します。

    リクエストのデータを使用する前に、次のように置き換えます。

    • LOCATION: Mistral AI モデルをサポートするリージョン。
    • MODEL: 使用するモデル名。リクエスト本文で、@ モデルのバージョン番号を除外します。
    • ROLE: メッセージに関連付けられたロール。user または assistant を指定できます。最初のメッセージでは、user ロールを使用する必要があります。Claude モデルは userassistant のターンを交互に操作します。最後のメッセージが assistant ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンス コンテンツが続きます。これを使用して、モデルの回答の一部を制限できます。
    • STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は true、すべてのレスポンスを一度に戻すには false に設定します。
    • CONTENT: user または assistant のメッセージの内容(テキストなど)。
    • MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。トークンは約 3.5 文字です。100 トークンは約 60~80 語に相当します。

      回答を短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。

    HTTP メソッドと URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

    リクエストの本文(JSON):

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": true
    }
    

    リクエストを送信するには、次のいずれかのオプションを選択します。

    curl

    リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

    PowerShell

    リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

    次のような JSON レスポンスが返されます。

    Mistral AI モデルに単一呼び出しを行う

    次のサンプルでは、Mistral AI モデルへの単一呼び出しを行います。

    REST

    環境をセットアップしたら、REST を使用してテキスト プロンプトをテストできます。次のサンプルは、パブリッシャー モデルのエンドポイントにリクエストを送信します。

    リクエストのデータを使用する前に、次のように置き換えます。

    • LOCATION: Mistral AI モデルをサポートするリージョン。
    • MODEL: 使用するモデル名。リクエスト本文で、@ モデルのバージョン番号を除外します。
    • ROLE: メッセージに関連付けられたロール。user または assistant を指定できます。最初のメッセージでは、user ロールを使用する必要があります。Claude モデルは userassistant のターンを交互に操作します。最後のメッセージが assistant ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンス コンテンツが続きます。これを使用して、モデルの回答の一部を制限できます。
    • STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は true、すべてのレスポンスを一度に戻すには false に設定します。
    • CONTENT: user または assistant のメッセージの内容(テキストなど)。
    • MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。トークンは約 3.5 文字です。100 トークンは約 60~80 語に相当します。

      回答を短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。

    HTTP メソッドと URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

    リクエストの本文(JSON):

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": false
    }
    

    リクエストを送信するには、次のいずれかのオプションを選択します。

    curl

    リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

    PowerShell

    リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

    次のような JSON レスポンスが返されます。

    Mistral AI モデルで利用可能なリージョンと割り当て

    Mistral AI モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数(QPM)と 1 分あたりのトークン数(TPM)で指定されます。TPM には、入力トークンと出力トークンの両方が含まれます。

    モデル リージョン 割り当て コンテキストの長さ
    Mistral Medium 3
    us-central1
    • QPM: 90
    • TPM: 315,000
    128,000
    europe-west4
    • QPM: 90
    • TPM: 315,000
    128,000
    Mistral OCR(25.05)
    us-central1
    • QPM: 30
    • リクエストあたりのページ数: 30(1 ページ = 100 万個の入力トークンと 100 万個の出力トークン)
    30 ページ
    europe-west4
    • QPM: 30
    • リクエストあたりのページ数: 30(1 ページ = 100 万個の入力トークンと 100 万個の出力トークン)
    30 ページ
    Mistral Small 3.1(25.03)
    us-central1
    • QPM: 60
    • TPM: 200,000
    128,000
    europe-west4
    • QPM: 60
    • TPM: 200,000
    128,000
    Codestral 2
    us-central1
    • QPM: 1,100
    • 入力 TPM: 1,100,000
    • 出力 TPM: 110,000
    128,000 トークン
    europe-west4
    • QPM: 1,100
    • 入力 TPM: 1,100,000
    • 出力 TPM: 110,000
    128,000 トークン

    Vertex AI の生成 AI の割り当てを引き上げる場合は、 Google Cloud コンソールで割り当ての引き上げをリクエストできます。割り当ての詳細については、クラウド割り当ての概要をご覧ください。