Model Llama yang terkelola sepenuhnya


Model Llama di Vertex AI menawarkan model sebagai API yang terkelola sepenuhnya dan tanpa server. Untuk menggunakan model Llama di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Llama menggunakan API terkelola, Anda tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Model Llama yang tersedia

Model Llama berikut tersedia dari Meta untuk digunakan di Vertex AI. Untuk mengakses model Llama, buka kartu model Model Garden-nya.

Model yang berada dalam Pratinjau juga memiliki opsi deployment mandiri. Jika Anda memerlukan layanan yang siap produksi, gunakan model Llama yang di-deploy sendiri.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E adalah model Llama 4 terbesar dan paling mumpuni yang menawarkan kemampuan pengkodean, penalaran, dan gambar. Model ini menampilkan arsitektur Mixture-of-Experts (MoE) dengan 17 miliar parameter aktif dari total 400 miliar parameter dan 128 pakar. Llama 4 Maverick 17B-128E menggunakan lapisan MoE dan padat yang bergantian, di mana setiap token mengaktifkan pakar bersama dan salah satu dari 128 pakar yang dirutekan. Model ini telah dilatih awal dengan 200 bahasa dan dioptimalkan untuk interaksi chat berkualitas tinggi melalui pipeline pasca-pelatihan yang disempurnakan.

Llama 4 Maverick 17B-128E bersifat multimodal dan cocok untuk pembuatan teks gambar tingkat lanjut, analisis, pemahaman gambar yang presisi, pertanyaan dan jawaban visual, pembuatan teks kreatif, asisten AI serbaguna, dan chatbot canggih yang memerlukan kecerdasan dan pemahaman gambar tingkat atas.

Pertimbangan

  • Anda dapat menyertakan maksimal tiga gambar per permintaan.
  • Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
  • Prediksi batch tidak didukung.

Buka kartu model Llama 4

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E memberikan hasil terbaik untuk kelas ukurannya yang mengungguli generasi Llama sebelumnya dan model terbuka serta berpemilik lainnya pada beberapa tolok ukur. Model ini menampilkan arsitektur MoE dengan 17 miliar parameter aktif dari total 109 miliar parameter dan 16 pakar.

Llama 4 Scout 17B-16E cocok untuk tugas pengambilan dalam konteks panjang dan tugas yang memerlukan penalaran atas sejumlah besar informasi, seperti meringkas beberapa dokumen besar, menganalisis log interaksi pengguna yang ekstensif untuk personalisasi, dan melakukan penalaran di seluruh codebase besar.

Buka kartu model Llama 4

Pertimbangan

  • Anda dapat menyertakan maksimal tiga gambar per permintaan.
  • Endpoint MaaS tidak menggunakan Llama Guard, tidak seperti versi sebelumnya. Untuk menggunakan Llama Guard, deploy Llama Guard dari Model Garden, lalu kirim prompt dan respons ke endpoint tersebut. Namun, dibandingkan dengan Llama 4, LlamaGuard memiliki konteks yang lebih terbatas (128.000) dan hanya dapat memproses permintaan dengan satu gambar di awal perintah.
  • Prediksi batch tidak didukung.

Buka kartu model Llama 4

Llama 3.3

Llama 3.3 adalah model yang disesuaikan untuk perintah 70B khusus teks yang memberikan peningkatan performa dibandingkan Llama 3.1 70B dan Llama 3.2 90B saat digunakan untuk aplikasi khusus teks.

Buka kartu model Llama 3.3 70B

Langkah berikutnya

Pelajari cara menggunakan model Llama.