Vertex AI の OpenAI モデルは、API としてフルマネージド モデルとサーバーレス モデルを提供します。Vertex AI で OpenAI モデルを使用するには、Vertex AI API エンドポイントにリクエストを直接送信します。OpenAI モデルはマネージド API を使用します。インフラストラクチャをプロビジョニングしたり、管理したりする必要はありません。
レスポンスをストリーミングして、エンドユーザーのレイテンシを軽減できます。回答をストリーミングする際には、サーバー送信イベント(SSE)を使用して回答を段階的にストリーミングします。
利用可能な OpenAI モデル
Vertex AI で使用できる OpenAI のモデルは次のとおりです。OpenAI モデルにアクセスするには、Model Garden のモデルカードに移動します。
gpt-oss 120B
OpenAI gpt-oss 120B は、Apache 2.0 ライセンスでリリースされた 120B のオープンウェイト言語モデルです。推論と関数呼び出しのユースケースに適しています。このモデルは、一般消費者向けハードウェアでのデプロイ用に最適化されています。
120B モデルは、単一の 80 GB GPU で実行しながら、コア推論ベンチマークで OpenAI o4-mini とほぼ同等の性能を実現しています。
gpt-oss 20B
OpenAI gpt-oss 20B は、Apache 2.0 ライセンスでリリースされた 20B のオープンウェイト言語モデルです。推論と関数呼び出しのユースケースに適しています。このモデルは、一般消費者向けハードウェアでのデプロイ用に最適化されています。
20B モデルは、一般的なベンチマークで OpenAI の o3-mini と同等の結果を出しつつ、16GB のメモリを備えたエッジデバイス上でも動作します。そのため、デバイス上で直接実行するユースケース、ローカルでの推論、高額なインフラを使わずすばやくイテレーションする用途に最適です。
OpenAI モデルを使用する
OpenAI モデルに対してストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデル API を呼び出すをご覧ください。
次のステップ
- オープンモデル API を呼び出す方法を確認する。