Model Llama yang terkelola sepenuhnya


Model Llama tersedia untuk digunakan sebagai API terkelola dan model yang di-deploy sendiri di Vertex AI. Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Model Llama yang dikelola

Model Llama menawarkan model serverless dan terkelola sepenuhnya sebagai API. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Saat menggunakan model Llama sebagai API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.

Model berikut tersedia dari Llama untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu model Model Garden-nya.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E adalah model Llama 4 terbesar dan paling mumpuni yang menawarkan kemampuan pengkodean, penalaran, dan gambar. Model ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan 17 miliar parameter aktif dari total 400 miliar parameter dan 128 pakar. Llama 4 Maverick 17B-128E menggunakan lapisan MoE dan padat yang bergantian, dengan setiap token mengaktifkan pakar bersama dan salah satu dari 128 pakar yang dirutekan. Model ini telah dilatih sebelumnya dengan 200 bahasa dan dioptimalkan untuk interaksi chat berkualitas tinggi melalui pipeline pasca-pelatihan yang disempurnakan.

Llama 4 Maverick 17B-128E bersifat multimodal dan cocok untuk pembuatan teks gambar tingkat lanjut, analisis, pemahaman gambar yang presisi, pertanyaan dan jawaban visual, pembuatan teks kreatif, asisten AI serbaguna, dan chatbot canggih yang memerlukan kecerdasan dan pemahaman gambar tingkat atas.

Pertimbangan

  • Anda dapat menyertakan maksimal tiga gambar per permintaan.
  • Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
  • Prediksi batch tidak didukung.

Buka kartu model Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E memberikan hasil terbaik untuk kelas ukurannya yang mengungguli generasi Llama sebelumnya dan model terbuka serta berpemilik lainnya pada beberapa tolok ukur. Model ini menampilkan arsitektur MoE dengan 17 miliar parameter aktif dari total 109 miliar parameter dan 16 pakar.

Llama 4 Scout 17B-16E cocok untuk tugas pengambilan dalam konteks panjang dan tugas yang memerlukan penalaran atas sejumlah besar informasi, seperti meringkas beberapa dokumen besar, menganalisis log interaksi pengguna yang ekstensif untuk personalisasi, dan melakukan penalaran di seluruh codebase besar.

Buka kartu model Llama 4

Pertimbangan

  • Anda dapat menyertakan maksimal tiga gambar per permintaan.
  • Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
  • Prediksi batch tidak didukung.

Buka kartu model Llama 4

Llama 3.3

Llama 3.3 adalah model yang disesuaikan untuk perintah 70B khusus teks yang memberikan peningkatan performa dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks.

Buka kartu model Llama 3.3 70B

Menggunakan model Llama

Untuk model terkelola, Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut. Untuk mempelajari cara melakukan panggilan streaming dan non-streaming ke model Llama, lihat Memanggil API model terbuka.

Untuk menggunakan model Vertex AI yang di-deploy sendiri:

  1. Buka konsol Model Garden.
  2. Temukan model Vertex AI yang relevan.
  3. Klik Aktifkan dan isi formulir yang disediakan untuk mendapatkan lisensi penggunaan komersial yang diperlukan.

Untuk mengetahui informasi selengkapnya tentang men-deploy dan menggunakan model partner, lihat Men-deploy model partner dan membuat permintaan prediksi.

Langkah berikutnya

Pelajari cara menggunakan model Llama.