Platform Agen Gemini Enterprise menawarkan beberapa opsi untuk mendapatkan dan menggunakan resource komputasi saat menggunakan model generatif. Opsi penggunaan ini dirancang untuk memenuhi kebutuhan workload apa pun, mulai dari pembuatan prototipe awal hingga deployment produksi. Memilih opsi yang tepat sangat penting untuk menyeimbangkan performa, keandalan, dan biaya.
Panduan ini menjelaskan opsi penggunaan yang tersedia, membantu Anda memetakannya ke persyaratan workload spesifik Anda, dan memberikan strategi untuk mengoptimalkan latensi, ketersediaan, dan biaya.
Opsi penggunaan
Platform Agen Gemini Enterprise menyediakan lima opsi penggunaan yang disesuaikan dengan pola traffic dan kebutuhan bisnis yang berbeda:
| Opsi penggunaan | Deskripsi | Ideal untuk | Harga | |
|---|---|---|---|---|
| Throughput yang Disediakan | Menyediakan throughput yang dijamin untuk periode komitmen | Workload penting, stabil, dan selalu aktif yang memerlukan SLA | Berbasis komitmen (tersedia dalam paket 1 minggu, 1 bulan, 3 bulan, dan 1 tahun) | |
| PayGo | Standar | Opsi fleksibel, bayar sesuai penggunaan tanpa komitmen di awal | Opsi default untuk kasus penggunaan sehari-hari dengan fleksibilitas untuk permintaan traffic variabel | Per token (tarif standar) |
| Prioritas | Menghasilkan keandalan yang lebih tinggi melalui pemrosesan prioritas sambil mempertahankan fleksibilitas PayGo | Workload penting yang memerlukan keandalan dan batas yang lebih tinggi daripada PayGo standar | Per token (tarif premium) | |
| Fleksibel | Opsi hemat biaya untuk workload yang toleran terhadap latensi | Tugas yang dapat mentoleransi waktu respons yang lebih lambat dan throttling yang lebih tinggi dengan imbalan harga yang lebih rendah | Per token (tarif diskon) | |
| Inferensi batch | Dioptimalkan untuk biaya pemrosesan asinkron bervolume tinggi | Tugas skala besar yang hasilnya diperlukan dalam jangka waktu yang lebih lama | Per token (tarif diskon) | |
Untuk mengetahui informasi selengkapnya tentang harga, lihat halaman harga.
Memilih opsi yang tepat untuk workload Anda
Bagian berikut memberikan panduan untuk memilih opsi penggunaan yang paling sesuai berdasarkan persyaratan dan karakteristik spesifik workload Anda.
Workload yang sensitif terhadap latensi
Organisasi sering kali harus membuat kompromi antara keandalan dan biaya saat memilih model penggunaan yang tepat. Meskipun Throughput yang Disediakan menawarkan keandalan tertinggi, hal ini dapat menyebabkan pemanfaatan yang kurang jika traffic Anda mengalami lonjakan. Demikian pula, PayGo mungkin menawarkan fleksibilitas maksimum, tetapi tidak dapat menjamin kualitas layanan. Bagian berikut menjelaskan cara terbaik untuk menggabungkan mekanisme ini guna mencapai hasil yang optimal:
- Cakupan traffic dasar dengan Throughput yang Disediakan. Hal ini meningkatkan pemanfaatan kapasitas yang Anda pesan, sehingga lebih ekonomis sekaligus memberikan keandalan yang dijamin untuk inti traffic Anda. Untuk mencapainya, lakukan hal berikut:
- Analisis pola traffic tingkat menit atau detik Anda.
- Tentukan jumlah traffic yang akan dicakup oleh Throughput yang Disediakan. Traffic ini harus mencakup traffic prioritas tertinggi Anda.
- Kelola traffic limpahan dengan PayGo Standar atau Prioritas: Secara default, traffic yang melebihi dasar Throughput yang Disediakan (disebut traffic limpahan) ditangani oleh PayGo Standar. Jika Anda mengamati varians performa yang lebih tinggi untuk permintaan di atas batas TPM, Anda dapat mengurangi varians tersebut melalui pengoptimalan. PayGo Prioritas memberi Anda opsi untuk mencapai performa yang andal dengan harga premium, yang tunduk pada batas ramp.
Workload asinkron bervolume tinggi
Jika Anda memiliki backlog permintaan yang besar (misalnya, jika Anda memiliki jutaan dokumen untuk diringkas), dan latensi langsung bukan masalah, Anda harus mengirimkan tugas batch dengan merumuskan permintaan ke dalam file JSON atau spreadsheet. Hal ini berguna untuk kasus penggunaan seperti pelabelan gambar, pemrosesan dokumen massal, atau analisis sentimen pada data historis.
Ini adalah opsi yang paling hemat biaya untuk inferensi bervolume tinggi.
Workload yang toleran terhadap latensi dan sensitif terhadap biaya
Jika Anda perlu memproses permintaan yang dapat menunggu respons aplikasi, tetapi pengurangan biaya adalah prioritas, Anda harus menggunakan PayGo Fleksibel. PayGo Fleksibel menawarkan harga per token yang lebih rendah untuk permintaan yang tidak memerlukan eksekusi langsung. Opsi ini berguna untuk kasus penggunaan seperti analisis offline, anotasi data, pembuatan katalog produk, atau terjemahan.
Strategi pengoptimalan
Setelah memilih model penggunaan, gunakan strategi berikut untuk lebih mengoptimalkan latensi, ketersediaan, dan biaya.
Latensi
Saat Anda membuat aplikasi interaktif, latensi memainkan peran penting dalam pengalaman pengguna. Latensi mengacu pada waktu yang dibutuhkan model untuk memproses perintah input Anda dan menghasilkan respons output yang sesuai. Saat memeriksa latensi dengan model, pertimbangkan hal berikut:
- _Waktu hingga token pertama (TTFT)_: Waktu yang dibutuhkan model untuk menghasilkan token pertama respons setelah menerima perintah. TTFT sangat relevan untuk aplikasi streaming, yang memberikan masukan langsung sangat penting.
- Waktu hingga token terakhir (TTLT): Total waktu yang dibutuhkan model untuk memproses perintah dan menghasilkan respons.
Untuk mengoptimalkan latensi:
- Pilih model yang tepat untuk kasus penggunaan Anda: Platform Agen Gemini Enterprise menyediakan berbagai model dengan kemampuan dan karakteristik performa yang bervariasi. Evaluasi dengan cermat persyaratan Anda terkait kecepatan dan kualitas output untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk mengetahui daftar model yang tersedia, lihat Model Garden.
- Kurangi ukuran perintah: Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan maksud Anda tanpa detail atau redundansi yang tidak perlu. Perintah yang lebih pendek akan mengurangi waktu hingga token pertama.
- Batas token output:
- Gunakan petunjuk sistem untuk mengontrol panjang respons. Instruksikan model untuk memberikan jawaban yang ringkas atau batasi output ke jumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu hingga token terakhir.
- Batasi output dengan menetapkan batas. Gunakan parameter
max_output_tokensuntuk menetapkan batas maksimum panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Latensi berbanding lurus dengan jumlah token yang dihasilkan; menghasilkan lebih sedikit token akan menghasilkan respons yang lebih cepat. Namun, berhati-hatilah karena hal ini dapat memotong respons di tengah kalimat.
- Gunakan Throughput yang Disediakan: Untuk performa yang paling konsisten, gunakan Throughput yang Disediakan. Hal ini menghilangkan variabilitas yang disebabkan oleh "cold start" atau antrean yang terkadang dapat terjadi dalam model PayGo selama traffic tinggi.
- Batasi anggaran penalaran: Jika Anda menggunakan model yang mendukung Penalaran, Anda dapat mengurangi latensi dengan mengurangi anggaran penalaran. Dengan membatasi token penalaran internal yang dihasilkan model sebelum menjawab, Anda mengurangi waktu pemrosesan secara keseluruhan. Namun, Anda harus memastikan anggaran tetap cukup untuk kompleksitas tugas guna menghindari penurunan kualitas jawaban.
- Gunakan streaming untuk respons Anda: Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif. Dengan streaming, model mulai mengirimkan respons sebelum menghasilkan output lengkap. Hal ini memungkinkan pemrosesan output secara real time, sehingga Anda dapat segera memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya.
Ketersediaan
Untuk mengoptimalkan ketersediaan:
- Terapkan logika coba lagi: Terapkan backoff eksponensial untuk error 429, terutama saat menggunakan PayGo Standar.
- Gunakan implementasi hybrid: Seperti yang dijelaskan dalam Memilih opsi yang tepat untuk workload Anda, jangan hanya mengandalkan PayGo untuk aplikasi produksi penting. Menggabungkan Throughput yang Disediakan dan PayGo memberikan jaminan tertinggi terhadap kehabisan resource (error 429).
- Kelola kuota Throughput yang Disediakan: Pantau penggunaan TPM Anda secara rutin dan tingkatkan GSU PT sebelum peristiwa traffic yang diantisipasi (seperti peluncuran produk). Anda dapat menggunakan kebijakan pemberitahuan untuk mengotomatiskan pemantauan.
- Gunakan endpoint global: Gunakan endpoint global untuk memanfaatkan kumpulan kapasitas global Google guna meminimalkan throttling karena batasan kapasitas regional.
- Haluskan traffic Anda untuk mengurangi lonjakan jika memungkinkan: Tarif traffic PayGo yang lebih tinggi (TPM) cenderung dikaitkan dengan tarif throttling yang lebih tinggi.
- Pindahkan traffic ke luar jam sibuk: Penggunaan model secara agregat umumnya mengikuti pola diurnal. Mengubah waktu workload Anda ke luar jam sibuk atau akhir pekan dapat meningkatkan ketersediaan secara signifikan.
Biaya
Untuk mengoptimalkan biaya:
- Tentukan ukuran Throughput yang Disediakan dengan tepat: Anda umumnya tidak perlu menyediakan PT untuk memenuhi permintaan puncak. Penyediaan untuk permintaan puncak mengurangi pemanfaatan secara keseluruhan dan meningkatkan biaya. Usahakan untuk mencakup persentil tertentu dari traffic Anda, bergantung pada toleransi risiko Anda, dan biarkan PayGo Standar dan PayGo Prioritas menangani sisanya.
- Beli Throughput yang Disediakan jangka panjang: Komitmen PT 1 tahun dihargai dengan diskon 26% dibandingkan dengan PT 1 bulan, sehingga menghasilkan penghematan biaya yang signifikan. Anda dapat selalu mengubah model yang terkait dengan GSU Throughput yang Disediakan yang Anda beli untuk memanfaatkan kemampuan model terbaru kami.
- Gunakan PayGo Fleksibel: Identifikasi bagian pipeline Anda yang tidak sensitif terhadap latensi (misalnya, ringkasan latar belakang, ekstraksi data) dan pindahkan ke PayGo Fleksibel untuk mengurangi biaya hingga ~50%.
- Gunakan pemrosesan batch: Untuk tugas asinkron seperti memproses set data besar, pemrosesan batch jauh lebih murah (50%) daripada memproses permintaan secara berurutan menggunakan PayGo Standar.
- Gunakan context caching: Context caching membantu mengurangi biaya dan latensi permintaan yang berisi konten berulang. Tingkatkan rasio hit cache dengan menempatkan konten besar dan umum di awal perintah Anda, dan mengirim permintaan dengan awalan yang serupa dalam waktu singkat.
- Pilih model dengan harga lebih rendah: Jika kasus penggunaan Anda memungkinkan, gunakan salah satu model kami yang lebih kecil seperti Flash-Lite, yang memiliki titik harga per token yang lebih rendah daripada model kami yang berat dan berfitur lengkap.