Memilih opsi penayangan model terbuka

Vertex AI menawarkan beberapa cara untuk menayangkan model bahasa besar terbuka, termasuk Llama, DeepSeek, Mistral, dan Qwen, di Google Cloud. Dokumen ini memberikan ringkasan penawaran Vertex AI untuk penayangan model terbuka dan membantu Anda memilih opsi yang tepat untuk kasus penggunaan Anda.

Opsi penayangan

Vertex AI menawarkan opsi berikut untuk menayangkan model terbuka. Setiap opsi ini memberikan ketersediaan tinggi dan menyertakan praktik terbaik keamanan secara default: Google Cloud

Kapan harus menggunakan MaaS

Pertimbangkan untuk menggunakan MaaS dalam skenario berikut:

  • Pengembangan dan pembuatan prototipe yang cepat: MaaS membantu Anda mengintegrasikan kemampuan LLM ke dalam aplikasi dengan cepat. Hal ini sangat berguna untuk eksplorasi awal, pembuatan prototipe cepat, dan saat waktu pemasaran yang cepat adalah tujuan utama.
  • Meminimalkan beban operasional: Pilih MaaS jika tim Anda ingin berfokus pada logika aplikasi, bukan pengelolaan infrastruktur. Google menangani semua penyediaan, penskalaan, dan pemeliharaan GPU/TPU, yang menguntungkan tim yang berfokus pada pengembangan aplikasi, bukan MLOps atau DevOps.
  • Traffic variabel: Model bayar sesuai penggunaan mendukung beban kerja atau aplikasi eksperimental dengan pola traffic yang tidak dapat diprediksi dan bergejolak.
  • Penggunaan siap pakai: Gunakan API terkelola untuk aplikasi yang memerlukan performa yang konsisten, tetapi tidak memerlukan penyesuaian mendalam pada model atau stack penayangan yang mendasarinya.
  • Keamanan dan kepatuhan: MaaS memungkinkan perusahaan menggunakan fitur keamanan dan kepatuhan tingkat perusahaan bawaan Google Cloud;.
  • Penggunaan model standar: Gunakan MaaS saat model dasar standar yang tidak disesuaikan memenuhi kebutuhan Anda.

Kapan harus menggunakan model yang di-deploy sendiri di Model Garden

Opsi deployment mandiri mencakup deployment dari Model Garden menggunakan container bawaan atau kustom. Pertimbangkan penerapan mandiri dalam skenario utama berikut:

  • Bobot kustom dan model yang di-fine-tune: Deployment mandiri adalah pilihan terbaik jika aplikasi Anda memerlukan penggunaan bobot kustom atau versi model yang di-fine-tune, sehingga menawarkan fleksibilitas yang lebih besar untuk men-deploy model yang disesuaikan dengan kebutuhan spesifik Anda. Anda juga dapat membuat dan men-deploy container penayangan kustom Anda sendiri. Misalnya, gunakan opsi ini saat model memerlukan logika pra-pemrosesan atau pasca-pemrosesan yang unik.
  • Beban kerja bervolume tinggi yang dapat diprediksi: Deployment mandiri adalah opsi yang strategis dan hemat biaya untuk aplikasi produksi dengan traffic bervolume tinggi yang dapat diprediksi. Meskipun memerlukan investasi teknik di muka yang lebih besar, hal ini dapat menghasilkan total biaya kepemilikan (TCO) yang lebih rendah selama masa pakai aplikasi karena biaya per token yang dioptimalkan dalam skala besar.
  • Kontrol terperinci atas infrastruktur: Gunakan deployment mandiri saat Anda perlu menyempurnakan performa dan anggaran dengan memilih konfigurasi hardware tertentu. Hal ini mencakup pemilihan jenis mesin, GPU (misalnya, NVIDIA L4 atau H100) atau TPU, dan framework penayangan yang dioptimalkan.
  • Keamanan dan kepatuhan yang ketat: Pendekatan ini mendukung aplikasi yang harus mematuhi kebijakan residensi data tertentu atau peraturan ketat yang melarang penggunaan layanan terkelola multi-tenant. Dengan demikian, Anda dapat men-deploy model secara aman dalam project dan jaringan Virtual Private Cloud Anda sendiri, sehingga memberikan kontrol penuh atas jalur data. Google Cloud
  • Kontrol terperinci atas lokasi: Endpoint khusus memungkinkan Anda men-deploy pada akselerator Compute Engine mana pun di Google Cloud semua region.

Kapan harus menggunakan container bawaan

Sebaiknya gunakan container bawaan Vertex AI dalam skenario berikut:

  • Performa yang dioptimalkan: Vertex AI mengoptimalkan dan menyesuaikan container bawaan untuk framework seperti vLLM guna meningkatkan performa, keandalan, dan integrasi yang lancar dalam Google Cloud.
  • Kemudahan penggunaan: Sajikan model menggunakan framework penyajian populer seperti vLLM, Hex-LLM, SGLang, TGI, atau TensorRT-LLM tanpa membuat dan memelihara image container Anda sendiri.

Kapan harus menggunakan container vLLM kustom

Pertimbangkan untuk membuat dan menggunakan container kustom Anda sendiri dalam skenario berikut:

  • Fleksibilitas maksimum: Jika opsi penayangan dan container bawaan yang ada tidak cukup untuk memenuhi kebutuhan Anda, dan Anda memerlukan kontrol penuh atas image container, termasuk dependensi dan konfigurasi.
  • Logika penayangan kustom: Jika model Anda memerlukan langkah-langkah pra-pemrosesan atau pasca-pemrosesan unik yang tidak didukung oleh container bawaan.

Langkah berikutnya