Platform Agen Gemini Enterprise menawarkan beberapa opsi untuk mendapatkan dan menggunakan resource komputasi saat menggunakan model generatif. Opsi penggunaan ini dirancang untuk memenuhi kebutuhan workload apa pun, mulai dari pembuatan prototipe awal hingga deployment produksi. Memilih opsi yang tepat sangat penting untuk menyeimbangkan performa, keandalan, dan biaya.
Panduan ini menjelaskan opsi penggunaan yang tersedia, membantu Anda memetakannya ke persyaratan workload spesifik, dan memberikan strategi untuk mengoptimalkan latensi, ketersediaan, dan biaya.
Opsi pemakaian
Platform Agen Gemini Enterprise menyediakan lima opsi penggunaan yang disesuaikan dengan pola traffic dan kebutuhan bisnis yang berbeda:
| Opsi pemakaian | Deskripsi | Ideal untuk | Harga | |
|---|---|---|---|---|
| Throughput yang Disediakan | Memberikan throughput yang dijamin untuk periode komitmen | Beban kerja penting, stabil, selalu aktif yang memerlukan SLA | Berbasis komitmen (tersedia dalam paket 1 minggu, 1 bulan, 3 bulan, dan 1 tahun) | |
| PayGo | Standar | Opsi fleksibel, bayar per penggunaan tanpa komitmen di awal | Opsi default untuk kasus penggunaan sehari-hari dengan fleksibilitas untuk permintaan traffic yang bervariasi | Per token (tarif standar) |
| Prioritas | Memberikan keandalan yang lebih tinggi melalui pemrosesan prioritas sekaligus mempertahankan fleksibilitas PayGo | Workload penting yang memerlukan keandalan dan batas yang lebih tinggi daripada PayGo standar | Per token (tarif premium) | |
| Flex | Opsi hemat biaya untuk beban kerja yang toleran terhadap latensi | Tugas yang dapat mentoleransi waktu respons yang lebih lambat dan pembatasan yang lebih tinggi sebagai imbalan atas harga yang lebih rendah | Per token (tarif diskon) | |
| Inferensi batch | Dioptimalkan untuk biaya pemrosesan asinkron bervolume tinggi | Tugas skala besar yang memerlukan hasil dalam jangka waktu yang lebih lama | Per token (tarif diskon) | |
Untuk mengetahui informasi tentang harga, lihat halaman harga.
Pilih opsi yang tepat untuk workload Anda
Bagian berikut memberikan panduan tentang cara memilih opsi pemakaian yang paling sesuai berdasarkan persyaratan dan karakteristik spesifik workload Anda.
Workload yang sensitif terhadap latensi
Organisasi sering kali harus membuat kompromi antara keandalan dan biaya saat memilih model konsumsi yang tepat. Meskipun Throughput yang Disediakan menawarkan keandalan tertinggi, throughput ini dapat menyebabkan kurangnya pemanfaatan jika traffic Anda mengalami lonjakan. Demikian pula, PayGo mungkin menawarkan fleksibilitas maksimum, tetapi tidak dapat menjamin kualitas layanan. Bagian berikut menjelaskan cara menggabungkan mekanisme ini dengan sebaik-baiknya untuk mencapai hasil yang optimal:
- Mencakup traffic dasar dengan Throughput yang Disediakan. Hal ini meningkatkan pemanfaatan kapasitas yang dicadangkan, sehingga lebih ekonomis sekaligus memberikan keandalan yang terjamin untuk inti traffic Anda. Untuk melakukannya, lakukan hal berikut:
- Analisis pola traffic tingkat menit atau detik Anda.
- Tentukan jumlah traffic yang akan dicakup oleh Throughput yang Disediakan. Hal ini harus mencakup traffic dengan prioritas tertinggi Anda.
- Mengelola traffic spillover dengan Standard atau Priority PayGo: Secara default, traffic yang melebihi dasar Throughput yang Disediakan (disebut traffic spillover) ditangani oleh Standard PayGo. Jika Anda mengamati varians yang lebih tinggi dalam performa untuk permintaan di atas batas TPM, Anda dapat mengurangi varians tersebut melalui pengoptimalan. Priority PayGo memberi Anda opsi untuk mencapai performa yang andal dengan harga premium, yang tunduk pada batas peningkatan.
Workload asinkron bervolume tinggi
Jika Anda memiliki backlog permintaan yang besar (misalnya, jika Anda memiliki jutaan dokumen yang perlu diringkas), dan latensi langsung tidak menjadi masalah, Anda harus mengirimkan tugas batch dengan merumuskan permintaan ke dalam file JSON atau spreadsheet. Hal ini berguna untuk kasus penggunaan seperti pemberian label gambar, pemrosesan dokumen massal, atau analisis sentimen pada data historis.
Opsi ini adalah opsi yang paling hemat biaya untuk inferensi volume tinggi.
Beban kerja yang toleran terhadap latensi dan sensitif terhadap biaya
Jika Anda perlu memproses permintaan yang dapat menunggu respons aplikasi, tetapi pengurangan biaya menjadi prioritas, Anda harus menggunakan Flex PayGo. Flex PayGo menawarkan harga per token yang lebih rendah untuk permintaan yang tidak memerlukan eksekusi langsung. Opsi ini berguna untuk kasus penggunaan seperti analisis offline, anotasi data, pembuatan katalog produk, atau terjemahan.
Strategi pengoptimalan
Setelah memilih model pemakaian, gunakan strategi berikut untuk mengoptimalkan lebih lanjut latensi, ketersediaan, dan biaya.
Latensi
Saat Anda membuat aplikasi interaktif, latensi memainkan peran penting dalam pengalaman pengguna. Latensi mengacu pada waktu yang dibutuhkan model untuk memproses perintah input Anda dan menghasilkan respons output yang sesuai. Saat memeriksa latensi dengan model, pertimbangkan hal berikut:
- Waktu hingga token pertama (TTFT): Waktu yang diperlukan model untuk menghasilkan token pertama respons setelah menerima perintah. TTFT sangat relevan untuk aplikasi streaming, yang memerlukan pemberian respons langsung.
- Time to last token (TTLT): Total waktu yang dibutuhkan model untuk memproses perintah dan menghasilkan respons.
Untuk mengoptimalkan latensi:
- Pilih model yang tepat untuk kasus penggunaan Anda: Gemini Enterprise Agent Platform menyediakan berbagai model dengan kemampuan dan karakteristik performa yang berbeda-beda. Evaluasi dengan cermat persyaratan Anda terkait kecepatan dan kualitas output untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk daftar model yang tersedia, lihat Model Garden.
- Kurangi ukuran perintah: Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan maksud Anda tanpa detail atau redundansi yang tidak perlu. Perintah yang lebih pendek akan mengurangi waktu untuk mendapatkan token pertama.
- Batasi token output:
- Gunakan petunjuk sistem untuk mengontrol panjang respons. Instruksikan model untuk memberikan jawaban yang ringkas atau membatasi output ke jumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu Anda untuk mendapatkan token terakhir.
- Membatasi output dengan menetapkan batas. Gunakan parameter
max_output_tokensuntuk menetapkan batas maksimum pada panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Latensi berbanding lurus dengan jumlah token yang dihasilkan; menghasilkan lebih sedikit token akan menghasilkan respons yang lebih cepat. Namun, berhati-hatilah karena hal ini dapat memotong respons di tengah kalimat.
- Gunakan Throughput yang Disediakan: Untuk performa yang paling konsisten, gunakan Throughput yang Disediakan. Hal ini menghilangkan variabilitas yang disebabkan oleh "cold start" atau antrean yang terkadang terjadi dalam model PayGo selama traffic tinggi.
- Batasi anggaran penalaran: Jika Anda menggunakan model yang mendukung Penalaran, Anda dapat mengurangi latensi dengan mengurangi anggaran penalaran. Dengan membatasi token penalaran internal yang dihasilkan model sebelum menjawab, Anda dapat mengurangi keseluruhan waktu pemrosesan. Namun, Anda harus memastikan anggaran tetap mencukupi untuk kompleksitas tugas guna menghindari penurunan kualitas jawaban.
- Menggunakan streaming untuk respons Anda: Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif. Dengan streaming, model mulai mengirimkan responsnya sebelum membuat output lengkap. Hal ini memungkinkan pemrosesan output secara real-time, sehingga Anda dapat langsung memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya.
Ketersediaan
Untuk mengoptimalkan ketersediaan:
- Terapkan logika coba lagi: Terapkan backoff eksponensial untuk error 429, terutama saat menggunakan Standard PayGo.
- Gunakan penerapan hybrid: Seperti yang dijelaskan dalam Memilih opsi yang tepat untuk workload Anda, jangan hanya mengandalkan PayGo untuk aplikasi produksi penting. Menggabungkan Throughput yang Disediakan dan PayGo memberikan jaminan tertinggi terhadap kehabisan resource (error 429).
- Mengelola kuota Throughput yang Disediakan: Pantau konsumsi TPM Anda secara rutin dan tingkatkan GSU PT sebelum peristiwa traffic yang diantisipasi (seperti peluncuran produk). Anda dapat menggunakan kebijakan pemberitahuan untuk mengotomatiskan pemantauan.
- Gunakan endpoint global: Gunakan endpoint global untuk memanfaatkan kumpulan kapasitas global Google guna meminimalkan pembatasan karena batasan kapasitas regional.
- Haluskan traffic untuk mengurangi lonjakan jika memungkinkan: Tarif traffic Bayar Sesuai Penggunaan (TPM) yang lebih tinggi cenderung terkait dengan rasio throttling yang lebih tinggi.
- Mengalihkan traffic ke jam tidak sibuk: Penggunaan model secara keseluruhan umumnya mengikuti pola diurnalis. Mengubah waktu workload ke jam di luar jam sibuk atau akhir pekan dapat meningkatkan ketersediaan secara signifikan.
Biaya
Untuk mengoptimalkan biaya:
- Tentukan ukuran Throughput yang Disediakan dengan tepat: Anda umumnya tidak perlu menyediakan PT untuk memenuhi permintaan puncak. Penyediaan untuk permintaan puncak mengurangi pemanfaatan secara keseluruhan dan meningkatkan biaya. Tentukan persentil tertentu dari traffic Anda, bergantung pada toleransi risiko Anda, dan biarkan Standard PayGo dan Priority PayGo menangani sisanya.
- Beli Throughput yang Disediakan jangka panjang: Komitmen PT 1 tahun dihargai dengan diskon 26% dibandingkan dengan PT 1 bulan, sehingga menghasilkan penghematan biaya yang signifikan. Anda dapat mengubah model yang terkait dengan GSU Throughput yang Disediakan yang Anda beli kapan saja untuk memanfaatkan kemampuan model terbaru kami.
- Gunakan Flex PayGo: Identifikasi bagian pipeline yang tidak sensitif terhadap latensi (misalnya, ringkasan di latar belakang, ekstraksi data) dan pindahkan ke Flex PayGo untuk memangkas biaya hingga ~50%.
- Gunakan batch processing: Untuk tugas asinkron seperti memproses set data besar, batch processing jauh lebih murah (50%) daripada memproses permintaan secara berurutan menggunakan Standard PayGo.
- Menggunakan context caching: Context caching membantu mengurangi biaya dan latensi permintaan yang berisi konten berulang. Tingkatkan rasio hit cache dengan menempatkan konten besar dan umum di awal perintah Anda, dan mengirim permintaan dengan awalan yang serupa dalam waktu singkat.
- Pilih model dengan harga lebih rendah: Jika kasus penggunaan Anda memungkinkan, gunakan salah satu model kami yang lebih kecil seperti Flash-Lite, yang memiliki titik harga per token yang lebih rendah daripada model kami yang berat dan berfitur lengkap.