Model terbuka Vertex AI untuk MaaS

Vertex AI mendukung daftar model terbuka yang telah dikurasi sebagai model terkelola. Model terbuka ini dapat digunakan dengan Vertex AI sebagai model sebagai layanan (MaaS) dan ditawarkan sebagai API terkelola. Saat menggunakan model terbuka terkelola, Anda tetap mengirim permintaan ke endpoint Vertex AI. Model terbuka terkelola bersifat serverless, sehingga tidak perlu menyediakan atau mengelola infrastruktur.

Model terbuka terkelola dapat ditemukan menggunakan Model Garden. Anda juga dapat men-deploy model menggunakan Model Garden. Untuk mengetahui informasi selengkapnya, lihat Menjelajahi model AI di Model Garden.

Sebelum dapat menggunakan model terbuka, Anda harus memberi pengguna akses ke model terbuka.

Model terbuka

Model terbuka berikut ditawarkan sebagai API terkelola di Vertex AI Model Garden (MaaS):

Nama model Pengandaian Deskripsi Panduan Memulai
DeepSeek-OCR Bahasa, Visi Model Pengenalan Karakter Optik (OCR) komprehensif yang menganalisis dan memahami dokumen kompleks. Model ini unggul dalam tugas OCR yang menantang. Kartu model
DeepSeek R1 (0528) Bahasa Versi terbaru model DeepSeek R1 dari DeepSeek. Kartu model
DeepSeek-V3.1 Bahasa Model hybrid DeepSeek yang mendukung mode berpikir dan mode non-berpikir. Kartu model
DeepSeek-V3.2 Bahasa Model DeepSeek yang menyelaraskan efisiensi komputasi tinggi dengan penalaran dan performa agen yang unggul. Kartu model
GLM 4.7 Bahasa, Kode Model GLM dirancang untuk pengodean inti atau vibe, penggunaan alat, dan penalaran yang kompleks. Kartu model
GLM 5 Bahasa, Kode Model GLM menargetkan tugas agentik dengan cakupan panjang dan rekayasa sistem yang kompleks. Kartu model
gpt-oss 120B Bahasa Model 120B yang menawarkan performa tinggi dalam tugas penalaran. Kartu model
gpt-oss 20B Bahasa Model 20B yang dioptimalkan untuk efisiensi dan deployment di hardware konsumen dan edge. Kartu model
Kimi K2 Thinking Bahasa Model agen pemikiran open source yang bernalar langkah demi langkah dan menggunakan alat untuk memecahkan masalah kompleks. Kartu model
Llama 3.3 Bahasa Llama 3.3 adalah model yang disesuaikan untuk perintah 70B khusus teks yang memberikan peningkatan performa dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks. Selain itu, untuk beberapa aplikasi, Llama 3.3 70B mendekati performa Llama 3.1 405B. Kartu model
Llama 4 Maverick 17B-128E Bahasa, Visi Model Llama 4 terbesar dan tercanggih yang memiliki kemampuan pengkodean, penalaran, dan gambar. Llama 4 Maverick 17B-128E adalah model multimodal yang menggunakan arsitektur Mixture-of-Experts (MoE) dan fusi awal. Kartu model
Llama 4 Scout 17B-16E Bahasa, Visi Llama 4 Scout 17B-16E memberikan hasil terbaik untuk kelas ukurannya, mengungguli generasi Llama sebelumnya dan model terbuka serta eksklusif lainnya pada beberapa tolok ukur. Llama 4 Scout 17B-16E adalah model multimodal yang menggunakan arsitektur Mixture-of-Experts (MoE) dan fusi awal. Kartu model
MiniMax M2 Bahasa, Kode Dirancang untuk tugas agentic dan terkait kode dengan kemampuan yang kuat dalam merencanakan dan menjalankan tugas pemanggilan alat yang kompleks. Kartu model
Qwen3 235B Bahasa Model berat terbuka dengan kemampuan "pemikiran hibrida" untuk beralih antara penalaran metodis dan percakapan cepat. Kartu model
Qwen3 Coder Bahasa, Kode Model dengan bobot terbuka yang dikembangkan untuk tugas pengembangan software tingkat lanjut. Kartu model
Qwen3-Next-80B Instruct Bahasa, Kode Model dari kelompok model Qwen3-Next, yang dikhususkan untuk mengikuti perintah tertentu. Kartu model
Pemikiran Qwen3-Next-80B Bahasa, Kode Model dari rangkaian model Qwen3-Next, yang dikhususkan untuk pemecahan masalah yang kompleks dan penalaran yang mendalam. Kartu model

Model embedding terbuka berikut ditawarkan sebagai API terkelola di Vertex AI Model Garden (MaaS):

Nama model Deskripsi Dimensi output Panjang urutan maksimum Bahasa teks yang didukung Panduan Memulai
multilingual-e5-small Bagian dari rangkaian model embedding teks E5. Varian kecil berisi 12 lapisan. Hingga 384 512 token Bahasa yang didukung Kartu model
multilingual-e5-large Bagian dari rangkaian model embedding teks E5. Varian Large berisi 24 lapisan. Hingga 1.024 512 token Bahasa yang didukung Kartu model

Kepatuhan terhadap peraturan model terbuka

Sertifikasi untuk AI Generatif di Vertex AI tetap berlaku saat model terbuka digunakan sebagai API terkelola menggunakan Vertex AI. Jika Anda memerlukan detail tentang model itu sendiri, informasi tambahan dapat ditemukan di kartu model masing-masing, atau Anda dapat menghubungi penerbit model yang bersangkutan.

Data Anda disimpan dalam penyimpanan di dalam region atau multi-region yang dipilih untuk model terbuka di Vertex AI, tetapi regionalisasi pemrosesan data dapat bervariasi. Untuk mengetahui daftar lengkap komitmen pemrosesan data model terbuka, lihat Residensi data untuk model terbuka.

Perintah pelanggan dan respons model tidak dibagikan kepada pihak ketiga saat menggunakan Vertex AI API, termasuk model terbuka. Google hanya memproses data pelanggan sesuai dengan petunjuk pelanggan, yang dijelaskan lebih lanjut dalam Adendum Pemrosesan Data Cloud kami.

Context caching

Caching konteks membantu mengurangi biaya dan latensi permintaan ke Model Terbuka yang berisi konten berulang. Fitur ini diaktifkan saat menggunakan traffic bayar sesuai penggunaan saja, dan tidak mendukung jenis traffic lainnya, seperti Throughput yang Disediakan dan Batch.

Jenis penyimpanan ke cache yang didukung adalah penyimpanan ke cache implisit, yaitu penyimpanan ke cache otomatis yang diaktifkan di semua project Google Cloud secara default dan memberikan diskon 90% untuk token yang di-cache dibandingkan dengan token input standar saat terjadi hit cache. Dengan jenis caching ini, Anda tidak menentukan dan memanggil cache secara eksplisit. Sebagai gantinya, backend kami menarik dari cache ini setelah konteks berulang terdeteksi.

Model yang didukung

  • qwen3-coder-480b-a35b-instruct-maas
  • kimi-k2-thinking-maas
  • minimax-m2-maas
  • gpt-oss-20b-maas
  • deepseek-v3.1-maas
  • deepseek-v3.2-maas

Kolom cachedContentTokenCount dalam metadata respons Anda menunjukkan jumlah token di bagian input yang di-cache. Permintaan penyiapan cache harus berisi minimal 4.096 token (minimum ini dapat berubah selama Pratinjau).

Jika diaktifkan, penghematan biaya hit cache implisit akan otomatis diteruskan kepada Anda. Hit cache tidak dijamin dan bergantung pada permintaan yang dikirim dan faktor lainnya. Untuk meningkatkan peluang terjadinya hit cache implisit, coba lakukan hal berikut:

  • Tempatkan konten yang besar dan umum di awal perintah Anda.
  • Mengirim permintaan dengan awalan yang serupa dalam waktu singkat.

Langkah berikutnya