Vertex AI menawarkan beberapa opsi untuk mendapatkan dan menggunakan resource komputasi saat menggunakan model generatif. Opsi penggunaan ini dirancang untuk memenuhi kebutuhan workload apa pun, mulai dari pembuatan prototipe awal hingga deployment produksi. Memilih opsi yang tepat sangat penting untuk menyeimbangkan performa, keandalan, dan biaya.
Panduan ini menjelaskan opsi penggunaan yang tersedia, membantu Anda memetakannya ke persyaratan workload spesifik, dan memberikan strategi untuk mengoptimalkan latensi, ketersediaan, dan biaya.
Opsi pemakaian
Vertex AI menyediakan lima opsi penggunaan yang disesuaikan dengan berbagai pola traffic dan kebutuhan bisnis:
| Opsi pemakaian | Deskripsi | Ideal Untuk | Harga | |
|---|---|---|---|---|
| Throughput yang Disediakan | Menyediakan throughput yang dijamin untuk periode komitmen | Beban kerja penting, stabil, selalu aktif yang memerlukan SLA | Berbasis komitmen (tersedia dalam paket 1 minggu, 1 bulan, 3 bulan, dan 1 tahun) | |
| PayGo | Standar | Opsi fleksibel, bayar per penggunaan tanpa komitmen di awal | Opsi default untuk kasus penggunaan sehari-hari dengan fleksibilitas untuk permintaan traffic yang bervariasi | Per token (tarif premium) |
| Prioritas | Memberikan keandalan yang lebih tinggi melalui pemrosesan prioritas sekaligus mempertahankan fleksibilitas PayGo | Workload penting yang memerlukan keandalan dan batas yang lebih tinggi daripada PayGo standar | Per token (tarif standar) | |
| Flex | Opsi hemat biaya untuk beban kerja yang toleran terhadap latensi | Tugas yang dapat mentoleransi waktu respons yang lebih lambat dan pembatasan yang lebih tinggi, menawarkan harga yang lebih rendah | Per token (tarif diskon) | |
| Inferensi batch | Dioptimalkan untuk pemrosesan asinkron bervolume tinggi dan hemat biaya | Tugas skala besar yang memerlukan hasil dalam jangka waktu yang lebih lama | Per token (tarif diskon) | |
Untuk mengetahui informasi tentang harga, lihat halaman harga.
Pilih opsi yang tepat untuk workload Anda
Workload yang sensitif terhadap latensi
Organisasi sering kali harus membuat kompromi antara keandalan dan biaya saat memilih model konsumsi yang tepat. Meskipun Throughput yang Disediakan menawarkan keandalan tertinggi, hal ini dapat menyebabkan kurangnya pemanfaatan jika traffic Anda mengalami lonjakan. Demikian pula, PayGo mungkin menawarkan fleksibilitas maksimum, tetapi tidak dapat menjamin kualitas layanan. Bagian berikut menjelaskan cara terbaik untuk menggabungkan mekanisme ini guna mencapai hasil yang optimal:
- Mencakup traffic dasar dengan Throughput yang Disediakan. Hal ini meningkatkan pemanfaatan kapasitas yang dicadangkan, sehingga lebih ekonomis sekaligus memberikan keandalan yang terjamin untuk inti traffic Anda. Untuk melakukannya, lakukan hal berikut:
- Analisis pola traffic tingkat menit atau detik Anda.
- Tentukan jumlah traffic yang akan dicakup oleh Throughput yang Disediakan. Hal ini harus mencakup traffic dengan prioritas tertinggi Anda.
- Mengelola traffic spillover dengan PayGo Standar atau Prioritas: Secara default, traffic yang melebihi dasar Performa yang Disediakan (disebut traffic spillover) ditangani oleh PayGo Standar. Jika Anda mengamati varians yang lebih tinggi dalam performa untuk permintaan di atas batas TPM, Anda dapat memitigasinya melalui pengoptimalan. PayGo Prioritas memberi Anda opsi untuk mencapai performa yang andal dengan harga premium, yang tunduk pada batas peningkatan.
Workload asinkron bervolume tinggi
Jika Anda memiliki backlog permintaan yang besar (misalnya, jika Anda memiliki jutaan dokumen yang akan diringkas), dan latensi langsung tidak menjadi masalah, Anda harus mengirimkan tugas batch dengan merumuskan permintaan ke dalam file JSON atau spreadsheet. Hal ini berguna untuk kasus penggunaan seperti pemberian label gambar, pemrosesan dokumen massal, atau analisis sentimen pada data historis.
Opsi ini adalah opsi yang paling hemat biaya untuk inferensi volume tinggi.
Workload yang toleran terhadap latensi dan sensitif terhadap biaya
Jika Anda perlu memproses permintaan (seperti anotasi data atau pembuatan katalog), di mana aplikasi dapat menunggu respons, tetapi pengurangan biaya menjadi prioritas, Anda harus menggunakan Flex PayGo. Flex PayGo menawarkan harga per token yang lebih rendah untuk permintaan yang tidak memerlukan eksekusi langsung. Opsi ini berguna untuk kasus penggunaan seperti analisis offline, anotasi data, pembuatan katalog produk, atau terjemahan.
Strategi pengoptimalan
Setelah memilih model konsumsi, gunakan strategi berikut untuk mengoptimalkan lebih lanjut latensi, ketersediaan, dan biaya.
Latensi
Untuk mengoptimalkan latensi:
- Pilih model yang tepat untuk kasus penggunaan Anda: Vertex AI menyediakan berbagai model dengan kemampuan dan karakteristik performa yang berbeda-beda. Evaluasi dengan cermat persyaratan Anda terkait kecepatan dan kualitas output untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk daftar model yang tersedia, lihat Model Garden.
- Kurangi ukuran perintah: Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan maksud Anda tanpa detail atau pengulangan yang tidak perlu. Perintah yang lebih pendek akan mengurangi waktu untuk mendapatkan token pertama.
- Batasi token output:
- Gunakan petunjuk sistem untuk mengontrol panjang respons. Instruksikan model untuk memberikan jawaban yang ringkas atau membatasi output ke jumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu Anda untuk mendapatkan token terakhir.
- Batasi output dengan menetapkan batas. Gunakan parameter
max_output_tokensuntuk menetapkan batas maksimum pada panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Latensi berbanding lurus dengan jumlah token yang dihasilkan; menghasilkan lebih sedikit token akan menghasilkan respons yang lebih cepat. Namun, berhati-hatilah karena hal ini dapat memotong respons di tengah kalimat.
- Gunakan Throughput yang Disediakan: Untuk performa yang paling konsisten, gunakan Throughput yang Disediakan. Hal ini menghilangkan variabilitas yang disebabkan oleh "cold start" atau antrean yang terkadang terjadi dalam model PayGo selama traffic tinggi.
- Batasi anggaran penalaran: Jika Anda menggunakan model yang mendukung Penalaran, Anda dapat mengurangi latensi dengan mengurangi anggaran penalaran. Dengan membatasi token penalaran internal yang dihasilkan model sebelum menjawab, Anda dapat mengurangi total waktu pemrosesan. Namun, Anda harus memastikan anggaran tetap mencukupi untuk kompleksitas tugas agar tidak menurunkan kualitas jawaban.
Ketersediaan
Untuk mengoptimalkan ketersediaan:
- Terapkan logika coba lagi: Terapkan backoff eksponensial untuk error 429, terutama saat menggunakan Standard PayGo.
- Gunakan implementasi hybrid: Seperti yang dijelaskan di bagian sebelumnya, jangan hanya mengandalkan PayGo untuk aplikasi produksi penting. Menggabungkan Throughput yang Disediakan dan PayGo memberikan jaminan tertinggi terhadap kehabisan resource (error 429).
- Mengelola kuota Throughput yang Disediakan: Pantau konsumsi TPM Anda secara rutin dan tingkatkan GSU PT sebelum peristiwa traffic yang diantisipasi (seperti peluncuran produk). Anda dapat menggunakan kebijakan pemberitahuan untuk mengotomatiskan pemantauan.
- Gunakan endpoint global: Gunakan endpoint global untuk memanfaatkan kumpulan kapasitas global Google guna meminimalkan pembatasan karena batasan kapasitas regional.
- Perlancar traffic untuk mengurangi lonjakan jika memungkinkan: Rasio traffic PayGo (TPM) yang lebih tinggi cenderung dikaitkan dengan rasio throttling yang lebih tinggi.
- Alihkan traffic ke jam tidak sibuk: Penggunaan model secara keseluruhan umumnya mengikuti pola diurnus. Mengubah waktu workload Anda ke jam di luar jam sibuk atau akhir pekan dapat meningkatkan ketersediaan secara signifikan.
Biaya
Untuk mengoptimalkan biaya:
- Gunakan penyesuaian ukuran yang tepat untuk Throughput yang Disediakan: Anda umumnya tidak perlu menyediakan PT pada puncak penggunaan, yang mengurangi pemanfaatan PT secara keseluruhan dan meningkatkan total biaya. Targetkan persentil tertentu dari traffic, bergantung pada toleransi risiko Anda, dan biarkan Standard PayGo dan Priority PayGo menangani sisanya.
- Beli Throughput yang Disediakan dengan jangka waktu lebih lama: PT 1 tahun dihargai dengan diskon 26% dari PT 1 bulan, sehingga menghasilkan penghematan biaya yang signifikan. Anda selalu dapat mengalihkan GSU Throughput yang Dibeli di berbagai model untuk memanfaatkan kemampuan model terbaru kami.
- Gunakan Flex PayGo: Identifikasi bagian pipeline yang tidak sensitif terhadap latensi (misalnya, ringkasan di latar belakang, ekstraksi data) dan pindahkan ke Flex untuk memangkas biaya hingga ~50%.
- Gunakan batch processing: Untuk tugas asinkron seperti memproses set data besar, batch processing jauh lebih murah (50%) daripada memproses permintaan secara berurutan menggunakan Standard PayGo.
- Menggunakan context caching: Context caching membantu mengurangi biaya dan latensi permintaan yang berisi konten berulang. Tingkatkan rasio hit cache dengan menempatkan konten besar dan umum di awal perintah Anda, dan mengirim permintaan dengan awalan yang serupa dalam waktu singkat.
- Pilih model dengan harga lebih rendah: Jika kasus penggunaan Anda memungkinkan, gunakan salah satu model kami yang lebih kecil seperti Flash-Lite, yang memiliki titik harga per token yang lebih rendah daripada model kami yang berat dan berfitur lengkap.