Model partner Vertex AI untuk MaaS

Vertex AI mendukung daftar model pilihan yang dikembangkan oleh partner Google. Model partner dapat digunakan dengan Vertex AI sebagai model sebagai layanan (MaaS) dan ditawarkan sebagai API terkelola. Saat menggunakan model partner, Anda tetap mengirim permintaan ke endpoint Vertex AI. Model partner bersifat serverless sehingga tidak perlu menyediakan atau mengelola infrastruktur.

Model partner dapat ditemukan menggunakan Model Garden. Anda juga dapat men-deploy model menggunakan Model Garden. Untuk mengetahui informasi selengkapnya, lihat Menjelajahi model AI di Model Garden. Meskipun informasi tentang setiap model partner yang tersedia dapat ditemukan di kartu modelnya di Model Garden, hanya model pihak ketiga yang berfungsi sebagai MaaS dengan Vertex AI yang didokumentasikan dalam panduan ini.

Model Claude dan Mistral dari Anthropic adalah contoh model terkelola pihak ketiga yang tersedia untuk digunakan di Vertex AI.

Model partner

Model partner berikut ditawarkan sebagai Managed API di Model Garden Vertex AI (MaaS):

Nama model Pengandaian Deskripsi Panduan Memulai
Grok 4.20 (Penalaran) (Pratinjau) Bahasa Grok 4.20 (Penalaran) adalah model unggulan xAI, yang memiliki tingkat halusinasi rendah yang terdepan di industri. Unggul dalam tugas pemahaman dokumen dan panggilan alat agentik dengan cakupan panjang. Kartu model
Grok 4.20 (Non-Penalaran) (Pratinjau) Bahasa Grok 4.20 (Non-Reasoning) adalah model non-pemikiran unggulan xAI, yang memiliki tingkat halusinasi rendah yang terdepan di industri. Unggul dalam kasus penggunaan yang sensitif terhadap latensi seperti dukungan dan kategorisasi pelanggan. Kartu model
Grok 4.1 Fast (Penalaran) (Pratinjau) Bahasa Grok 4.1 Fast (Reasoning) adalah model xAI yang paling hemat biaya, yang memiliki kemampuan panggilan alat yang kuat dan sintesis pusat informasi yang efisien. Unggul dalam tugas penelusuran yang melibatkan data web dan alat basis pengetahuan internal. Kartu model
Grok 4.1 Cepat (Non-Penalaran) (Pratinjau) Bahasa Grok 4.1 Fast (Non-Reasoning) adalah model non-pemikiran xAI yang paling hemat biaya, yang dioptimalkan untuk performa latensi rendah. Unggul dalam tugas bervolume tinggi seperti peringkasan dan kategorisasi. Kartu model
Claude Opus 4.7 Bahasa, Visi Model Anthropic tercerdas generasi berikutnya, Claude Opus 4.7 adalah pemimpin industri di bidang coding, agen, penggunaan komputer, dan alur kerja perusahaan. Kartu model
Claude Sonnet 4.6 Bahasa, Visi Claude Sonnet 4.6 menghadirkan kecerdasan terdepan dalam skala besar—dibuat untuk coding, agen, dan alur kerja perusahaan. Kartu model
Claude Opus 4.6 Bahasa, Visi Model Anthropic paling cerdas generasi berikutnya, Claude Opus 4.6 adalah pemimpin industri di bidang coding, agen, penggunaan komputer, dan alur kerja perusahaan. Kartu model
Claude Opus 4.5 Bahasa, Visi Model Anthropic paling cerdas generasi berikutnya, Claude Opus 4.5 adalah pemimpin industri di bidang coding, agen, penggunaan komputer, dan alur kerja perusahaan. Kartu model
Claude Sonnet 4.5 Bahasa, Visi Model berukuran sedang Anthropic untuk mendukung agen dunia nyata, dengan kemampuan dalam coding, penggunaan komputer, keamanan siber, dan bekerja dengan file kantor seperti spreadsheet. Kartu model
Claude Opus 4.1 Bahasa, Visi Pemimpin industri untuk coding. Agen ini memberikan performa berkelanjutan pada tugas yang berjalan lama yang memerlukan upaya terfokus dan ribuan langkah, sehingga memperluas secara signifikan apa yang dapat diselesaikan oleh agen AI. Ideal untuk mendukung produk dan fitur agen canggih. Kartu model
Claude Haiku 4.5 Bahasa, Visi Claude Haiku 4.5 memberikan performa mendekati yang terbaik untuk berbagai kasus penggunaan, dan menonjol sebagai salah satu model coding terbaik di dunia–dengan kecepatan dan biaya yang tepat untuk mendukung produk gratis dan pengalaman pengguna bervolume tinggi. Kartu model
Claude Opus 4 Bahasa, Visi Claude Opus 4 memberikan performa berkelanjutan pada tugas yang berjalan lama yang memerlukan upaya terfokus dan ribuan langkah, sehingga secara signifikan memperluas kemampuan agen AI dalam menyelesaikan masalah. Kartu model
Claude Sonnet 4 Bahasa, Visi Model berukuran sedang dari Anthropic dengan kecerdasan yang lebih unggul untuk penggunaan bervolume tinggi, seperti coding, riset mendalam, dan agen. Kartu model
Claude 3.5 Sonnet v2 dari Anthropic Bahasa, Visi Claude 3.5 Sonnet yang telah diupgrade adalah model canggih untuk tugas-tugas software engineering di dunia nyata dan kemampuan agentic. Claude 3.5 Sonnet menghadirkan peningkatan ini dengan harga dan kecepatan yang sama seperti pendahulunya. Kartu model
Claude 3.5 Sonnet dari Anthropic Bahasa Claude 3.5 Sonnet mengungguli Claude 3 Opus dari Anthropic di berbagai evaluasi Anthropic dengan kecepatan dan biaya layaknya model tingkat menengah Anthropic, Claude 3 Sonnet. Kartu model
Jamba 1.5 Large (Pratinjau) Bahasa Jamba 1.5 Large dari AI21 Labs dirancang untuk memberikan respons berkualitas tinggi, throughput tinggi, dan harga yang kompetitif dibandingkan dengan model lain dalam kelas ukurannya. Kartu model
Jamba 1.5 Mini (Pratinjau) Bahasa Jamba 1.5 Mini dari AI21 Labs memiliki keseimbangan yang baik antara kualitas, throughput, dan biaya rendah. Kartu model
Mistral Medium 3 Bahasa Mistral Medium 3 adalah model serbaguna yang dirancang untuk berbagai tugas, termasuk pemrograman, penalaran matematika, pemahaman dokumen panjang, perangkuman, dan dialog. Kartu model
Mistral OCR (25.05) Bahasa, Visi Mistral OCR (25.05) adalah API Pengenalan Karakter Optik untuk pemahaman dokumen. Model memahami setiap elemen dokumen seperti media, teks, tabel, dan persamaan. Kartu model
Mistral Small 3.1 (25.03) Bahasa Mistral Small 3.1 (25.03) adalah versi terbaru dari model Small Mistral, yang menampilkan kemampuan multimodal dan panjang konteks yang diperluas. Kartu model
Codestral 2 Bahasa, Kode Codestral 2 adalah model khusus pembuatan kode Mistral yang dibuat khusus untuk penyelesaian isi di tengah (FIM) dengan presisi tinggi yang membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan petunjuk bersama. Kartu model

Mengevaluasi model partner menggunakan layanan evaluasi AI generatif

Layanan evaluasi AI generatif mendukung evaluasi model partner, seperti model Anthropic dan Llama. Evaluasi model partner didukung melalui Model Garden, jadi Anda harus mengaktifkan model sebelum menjalankan evaluasi terhadap model partner.

Untuk mengetahui informasi selengkapnya, lihat Melakukan evaluasi menggunakan konsol.

Harga model partner Vertex AI dengan jaminan kapasitas

Google menawarkan throughput yang disediakan untuk beberapa model partner yang mencadangkan kapasitas throughput untuk model Anda dengan biaya tetap. Anda memutuskan kapasitas throughput dan region tempat kapasitas tersebut akan dipesan. Karena permintaan throughput yang disediakan diprioritaskan daripada permintaan standar bayar sesuai penggunaan, throughput yang disediakan memberikan ketersediaan yang lebih tinggi. Saat sistem kelebihan beban, permintaan Anda tetap dapat diselesaikan selama throughput tetap berada di bawah kapasitas throughput yang dicadangkan. Untuk mengetahui informasi selengkapnya atau berlangganan layanan, hubungi bagian penjualan.

Endpoint regional, global, dan multi-region

Untuk endpoint regional, permintaan ditayangkan dari region yang Anda tentukan. Jika Anda memiliki persyaratan residensi data atau jika model tidak mendukung endpoint global, gunakan endpoint regional.

Saat Anda menggunakan endpoint global, Google dapat memproses dan menayangkan permintaan Anda dari region mana pun yang didukung oleh model yang Anda gunakan, yang mungkin menyebabkan latensi yang lebih tinggi dalam beberapa kasus. Endpoint global membantu meningkatkan ketersediaan secara keseluruhan dan membantu mengurangi error.

Endpoint multi-region memungkinkan akses ketersediaan tinggi ke model partner sekaligus mempertahankan residensi data dalam geografi yang lebih luas, seperti Amerika Serikat.

Ada perbedaan harga bergantung pada jenis endpoint yang Anda pilih. Untuk mengetahui informasi selengkapnya tentang kuota dan kemampuan, lihat halaman model pihak ketiga terkait.

Endpoint global

Untuk menggunakan endpoint global, tetapkan region ke global.

Misalnya, URL permintaan untuk perintah curl menggunakan format berikut: https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Untuk Vertex AI SDK, endpoint regional adalah defaultnya. Tetapkan region ke GLOBAL untuk menggunakan endpoint global.

Model yang didukung untuk endpoint global

Endpoint global tersedia untuk model berikut:

Membatasi penggunaan endpoint API global

Untuk membantu menerapkan penggunaan endpoint regional, gunakan batasan kebijakan organisasi constraints/gcp.restrictEndpointUsage untuk memblokir permintaan ke endpoint API global. Untuk mengetahui informasi selengkapnya, lihat artikel Membatasi penggunaan endpoint.

Endpoint multi-region (Pratinjau)

Catatan: Endpoint multi-region saat ini dalam Pratinjau dan tercakup dalam Persyaratan Penawaran Pra-GA dari Persyaratan Layanan Google Cloud Platform. Eksperimen tidak dimaksudkan untuk penggunaan produksi atau tercakup dalam SLA, kewajiban dukungan, atau kebijakan penghentian layanan mana pun dan mungkin akan mengalami perubahan yang tidak kompatibel dengan versi sebelumnya.

Endpoint multi-region memungkinkan akses ketersediaan tinggi ke model partner sekaligus mempertahankan residensi data dalam geografi yang lebih luas, seperti Amerika Serikat atau Uni Eropa.

Pilih tab yang sesuai untuk multi-region yang ingin Anda gunakan:

AS

Untuk menggunakan endpoint multi-region AS, tetapkan URL endpoint ke aiplatform.us.rep.googleapis.com.

URL permintaan untuk perintah curl menggunakan format berikut: https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME

Uni Eropa

Untuk menggunakan endpoint multi-region Uni Eropa, tetapkan URL endpoint ke aiplatform.eu.rep.googleapis.com.

URL permintaan untuk perintah curl menggunakan format berikut: https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME

Untuk mengetahui informasi selengkapnya tentang format MODEL_NAME, lihat dokumentasi Anthropic.

Model yang didukung untuk endpoint multi-region:

Model berikut didukung. Gunakan ID Model lengkap termasuk tanggal versi jika berlaku.

Model ID model API
claude-opus-4-7 claude-opus-4-7

Contoh Permintaan:

Berikut cara memanggil endpoint multi-region menggunakan curl:

export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7

# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"

# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"

export MODEL_ID="claude-opus-4-7"

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
  -d '{
    "max_tokens": 300,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Why is the sky blue?"
          }
        ]
      }
    ],
    "anthropic_version": "vertex-2023-10-16"
  }'

Kuota multi-region:

Kuota multi-region khusus diterapkan. Anda dapat melihat dan meminta penambahan untuk nilai kuota default ini di konsol Google Cloud .

  • Contoh Kuota AS:

    • UsOnlinePredictionInputTokensPerMinutePerBaseModel
    • UsOnlinePredictionOutputTokensPerMinutePerBaseModel
    • UsOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • UsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
  • Contoh Kuota Uni Eropa:

    • EuOnlinePredictionInputTokensPerMinutePerBaseModel
    • EuOnlinePredictionOutputTokensPerMinutePerBaseModel
    • EuOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • EuOnlinePredictionWebSearchRequestsPerProjectPerPublisher

Memberikan akses pengguna ke model partner

Agar Anda dapat mengaktifkan model partner dan membuat permintaan perintah, administrator Google Cloud harus menetapkan izin yang diperlukan dan memverifikasi bahwa kebijakan organisasi mengizinkan penggunaan API yang diperlukan.

Menetapkan izin yang diperlukan untuk menggunakan model partner

Peran dan izin berikut diperlukan untuk menggunakan model partner:

  • Anda harus memiliki peran Identity and Access Management (IAM) Consumer Procurement Entitlement Manager. Siapa pun yang telah diberi peran ini dapat mengaktifkan model partner di Model Garden.

  • Anda harus memiliki izin aiplatform.endpoints.predict. Izin ini disertakan dalam peran IAM Vertex AI User. Untuk mengetahui informasi selengkapnya, lihat Pengguna Vertex AI dan Kontrol akses.

Konsol

  1. Untuk memberikan peran IAM Consumer Procurement Entitlement Manager kepada pengguna, buka halaman IAM.

    Buka IAM

  2. Di kolom Principal, temukan principal pengguna yang ingin Anda izinkan akses ke model partner, lalu klik Edit principal di baris tersebut.

  3. Di panel Edit akses, klik Tambahkan peran lain.

  4. Di Select a role, pilih Consumer Procurement Entitlement Manager.

  5. Di panel Edit akses, klik Tambahkan peran lain.

  6. Di Select a role, pilih Vertex AI User.

  7. Klik Simpan.

gcloud

  1. Di konsol Google Cloud , aktifkan Cloud Shell.

    Aktifkan Cloud Shell

  2. Berikan peran Consumer Procurement Entitlement Manager yang diperlukan untuk mengaktifkan model partner di Model Garden

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. Berikan peran Vertex AI User yang mencakup izin aiplatform.endpoints.predict yang diperlukan untuk membuat permintaan perintah:

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    Ganti PRINCIPAL dengan ID untuk principal. ID menggunakan format user|group|serviceAccount:email atau domain:domain—misalnya, user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com, atau domain:example.domain.com.

    Outputnya adalah daftar binding kebijakan yang mencakup hal berikut:

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    Untuk mengetahui informasi selengkapnya, lihat Memberikan satu peran dan gcloud projects add-iam-policy-binding.

Menetapkan kebijakan organisasi untuk akses model partner

Untuk mengaktifkan model partner, kebijakan organisasi Anda harus mengizinkan API berikut: Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com

Jika organisasi Anda menetapkan kebijakan organisasi untuk membatasi penggunaan layanan, administrator organisasi harus memverifikasi bahwa cloudcommerceconsumerprocurement.googleapis.com diizinkan dengan menetapkan kebijakan organisasi.

Selain itu, jika Anda memiliki kebijakan organisasi yang membatasi penggunaan model di Model Garden, kebijakan tersebut harus mengizinkan akses ke model partner. Untuk mengetahui informasi selengkapnya, lihat Mengontrol akses model.

Kepatuhan terhadap peraturan model partner

Sertifikasi untuk AI Generatif di Vertex AI terus berlaku saat model partner digunakan sebagai API terkelola menggunakan Vertex AI. Jika Anda memerlukan detail tentang model itu sendiri, informasi tambahan dapat ditemukan di Kartu Model masing-masing, atau Anda dapat menghubungi penerbit model yang bersangkutan.

Data Anda disimpan dalam penyimpanan di dalam region atau multi-region yang dipilih untuk model partner di Vertex AI, tetapi regionalisasi pemrosesan data dapat bervariasi. Untuk mengetahui daftar mendetail komitmen pemrosesan data model partner, lihat Residensi data untuk model partner.

Perintah pelanggan dan respons model tidak dibagikan kepada pihak ketiga saat menggunakan Vertex AI API, termasuk model partner. Google hanya memproses Data Pelanggan sesuai dengan petunjuk Pelanggan, yang dijelaskan lebih lanjut dalam Adendum Pemrosesan Data Cloud kami.