Chat Completions API berfungsi sebagai endpoint yang kompatibel dengan Open AI, yang dirancang untuk mempermudah interaksi dengan Gemini di Vertex AI dengan menggunakan library OpenAI untuk Python dan REST. Jika sudah menggunakan library OpenAI, Anda dapat menggunakan API ini sebagai cara berbiaya rendah untuk beralih antara memanggil model OpenAI dan model yang dihosting Vertex AI untuk membandingkan output, biaya, dan skalabilitas, tanpa mengubah kode yang ada. Jika Anda belum menggunakan library OpenAI, sebaiknya gunakan Google Gen AI SDK. Untuk memigrasikan kode OpenAI SDK yang ada agar menggunakan Google Gen AI SDK, lihat Bermigrasi dari OpenAI SDK ke Google Gen AI SDK.
Model yang didukung
Chat Completions API mendukung model Gemini dan model yang di-deploy sendiri tertentu dari Model Garden.
Model Gemini
Model berikut memberikan dukungan untuk Chat Completions API:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash
Model yang di-deploy sendiri dari Model Garden
Container Hugging Face Text Generation Interface (HF TGI) dan vLLM bawaan Vertex AI Model Garden mendukung Chat Completions API. Namun, tidak semua model yang di-deploy ke container ini mendukung Chat Completions API. Tabel berikut mencakup model yang didukung paling populer menurut penampung:
HF TGI |
vLLM |
|---|---|
Parameter yang didukung
Untuk model Google, Chat Completions API mendukung parameter OpenAI berikut. Untuk mengetahui deskripsi setiap parameter, lihat dokumentasi OpenAI tentang Membuat penyelesaian chat. Dukungan parameter untuk model pihak ketiga bervariasi menurut model. Untuk melihat parameter yang didukung, lihat dokumentasi model.
messages |
|
model |
|
detail |
Untuk model yang lebih lama dari Gemini 3, kolom detail harus konsisten di semua pesan
dan konten (berada di tingkat permintaan). Untuk Gemini 3 dan yang lebih baru, ini sesuai dengan
`media_resolution` tingkat bagian. Untuk mengetahui informasi selengkapnya, lihat
Resolusi Media.
|
max_completion_tokens |
Alias untuk max_tokens. |
modalities |
Mendukung audio, image, dan text. |
max_tokens |
|
n |
|
frequency_penalty |
|
presence_penalty |
|
reasoning_effort |
Mengonfigurasi berapa banyak waktu dan token yang digunakan untuk respons.
reasoning_effort atau extra_body.google.thinking_config
yang dapat ditentukan.
|
response_format |
|
seed |
Sesuai dengan GenerationConfig.seed. |
stop |
|
stream |
|
temperature |
|
top_p |
|
tools |
|
tool_choice |
|
web_search_options |
Berhubungan dengan alat GoogleSearch. Tidak ada sub-opsi yang
didukung. |
function_call |
Kolom ini tidak digunakan lagi, tetapi didukung untuk kompatibilitas mundur. |
functions |
Kolom ini tidak digunakan lagi, tetapi didukung untuk kompatibilitas mundur. |
Jika Anda meneruskan parameter yang tidak didukung, parameter tersebut akan diabaikan.
Parameter input multimodal
Chat Completions API mendukung input multimodal tertentu.
input_audio |
|
image_url |
|
Secara umum, parameter data dapat berupa URI atau kombinasi jenis MIME dan
byte berenkode base64 dalam bentuk "data:<MIME-TYPE>;base64,<BASE64-ENCODED-BYTES>".
Untuk mengetahui daftar lengkap jenis MIME, lihat GenerateContent.
Untuk mengetahui informasi selengkapnya tentang encoding base64 OpenAI, lihat dokumentasi mereka.
Untuk penggunaan, lihat contoh input multimodal kami.
Parameter khusus Gemini
Ada beberapa fitur yang didukung oleh Gemini yang tidak tersedia di model OpenAI.
Fitur ini masih dapat diteruskan sebagai parameter, tetapi harus berada dalam
extra_content atau extra_body atau akan diabaikan.
Fitur extra_body
Sertakan kolom google untuk memuat fitur
extra_body khusus Gemini.
{
...,
"extra_body": {
"google": {
...,
// Add extra_body features here.
}
}
}
safety_settings |
Ini sesuai dengan Gemini
SafetySetting.
|
cached_content |
Ini sesuai dengan kolom Gemini
generateContent.cached_content.
|
thinking_config |
Ini sesuai dengan Gemini
GenerationConfig.ThinkingConfig.
|
thought_tag_marker |
Digunakan untuk memisahkan pemikiran model dari responsnya untuk model dengan fitur Thinking yang tersedia. Jika tidak ditentukan, tidak ada tag yang akan ditampilkan di sekitar pemikiran model. Jika ada, kueri berikutnya akan menghapus tag pemikiran dan menandai pemikiran dengan tepat untuk konteks. Hal ini membantu mempertahankan konteks yang sesuai untuk kueri berikutnya. |
stream_function_call_arguments |
Mengalirkan kembali argumen panggilan fungsi sebagai segmen JSON. Untuk mengetahui informasi selengkapnya, lihat Streaming argumen panggilan fungsi. |
tools |
Tentukan alat yang mirip dengan `GenerateContent`. Untuk mengetahui informasi selengkapnya, lihat
Tool. |
media_resolution |
Tentukan resolusi media tingkat permintaan yang mirip dengan `GenerateContent`. Untuk mengetahui informasi selengkapnya, lihat
MediaResolution. |
Fitur extra_content
extra_content memungkinkan Anda menentukan konten khusus Gemini yang tidak boleh diabaikan.
Sertakan kolom google untuk memuat fitur
extra_content khusus Gemini.
{
...,
"extra_content": {
"google": {
...,
// Add extra_content features here.
}
}
}
thought |
Kolom ini secara eksplisit menandai apakah suatu kolom adalah pemikiran dan lebih diprioritaskan
daripada thought_tag_marker. Hal ini membantu membedakan langkah-langkah yang berbeda dalam proses berpikir, terutama dalam skenario penggunaan alat di mana langkah-langkah perantara dapat disalahartikan sebagai jawaban akhir. Dengan memberi tag pada bagian tertentu dari
input sebagai pemikiran, Anda dapat memandu model untuk memperlakukannya sebagai
penalaran internal, bukan respons yang ditampilkan kepada pengguna. |
thought_signature |
Kolom byte yang memberikan tanda tangan pemikiran untuk divalidasi terhadap
pemikiran yang ditampilkan oleh model. Kolom ini berbeda dengan
thought, yang merupakan kolom boolean. Untuk mengetahui informasi selengkapnya, lihat
Tanda tangan pikiran. |
parts |
Khusus untuk pesan Alat guna meneruskan kembali bagian respons fungsi multi-modal ke model.
Untuk mengetahui informasi selengkapnya, lihat
FunctionResponsePart dan
Respons fungsi multimodal. |
Langkah berikutnya
- Pelajari lebih lanjut autentikasi dan pemberian kredensial dengan sintaksis yang kompatibel dengan OpenAI.
- Lihat contoh panggilan Chat Completions API dengan sintaksis yang kompatibel dengan OpenAI.
- Lihat contoh panggilan Inference API dengan sintaksis yang kompatibel dengan OpenAI.
- Lihat contoh pemanggilan Function Calling API dengan sintaksis yang kompatibel dengan OpenAI.
- Pelajari lebih lanjut Gemini API.
- Pelajari lebih lanjut cara bermigrasi dari Azure OpenAI ke Gemini API.
- Untuk memigrasikan kode OpenAI SDK yang ada agar menggunakan Google Gen AI SDK, lihat Bermigrasi dari OpenAI SDK ke Google Gen AI SDK.