Prediksi batch memungkinkan Anda mengirim beberapa perintah khusus teks yang tidak sensitif terhadap latensi ke model secara efisien. Dibandingkan dengan prediksi online, yang hanya dapat dilakukan pada satu perintah input untuk setiap permintaan, Anda dapat melakukan batch sejumlah besar perintah input dalam satu permintaan.
Model yang didukung
Vertex AI mendukung prediksi batch untuk model berikut.
Llama:
- Llama 4 Maverick 17B-128E
- Llama 4 Scout 17B-16E
- Llama 3.3 70B
- Llama 3.1 405B (Pratinjau)
- Llama 3.1 70B (Pratinjau)
- Llama 3.1 8B (Pratinjau)
gpt-oss OpenAI:
Qwen:
DeepSeek:
Model embedding:
Menyiapkan input
Sebelum memulai, siapkan input Anda dalam tabel BigQuery atau sebagai file JSONL di Cloud Storage. Input untuk kedua sumber harus mengikuti format JSONL skema OpenAI API, seperti yang ditunjukkan dalam contoh berikut.
Model bahasa besar:
{"custom_id": "test-request-0", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "MODEL_ID", "messages": [{"role": "user", "content": "Give me a recipe for banana bread"}], "max_tokens": 1000}}
Model penyematan:
{"custom_id": "test-request-0", "method": "POST", "url": "/v1/embeddings", "body": {"model": "MODEL_ID", "input": "Hello World"}}
BigQuery
Tabel input BigQuery Anda harus mematuhi skema berikut:
Nama kolom | Deskripsi |
---|---|
custom_id | ID untuk setiap permintaan guna mencocokkan input dengan output. |
metode | Metode permintaan. |
url | Endpoint permintaan. |
body(JSON) | Perintah input Anda. |
- Tabel input Anda dapat memiliki kolom lain, yang diabaikan oleh tugas batch dan diteruskan langsung ke tabel output.
- Tugas prediksi batch mencadangkan dua nama kolom untuk output prediksi batch: response(JSON) dan id. Jangan gunakan kolom ini dalam tabel input.
- Kolom method dan url dihapus dan tidak disertakan dalam tabel output.
Cloud Storage
Untuk Cloud Storage, file input harus berupa file JSONL yang berada di bucket Cloud Storage.
Meminta prediksi batch
Buat prediksi batch terhadap model menggunakan input dari BigQuery atau Cloud Storage. Anda dapat memilih secara terpisah untuk menghasilkan prediksi ke tabel BigQuery atau file JSONL di bucket Cloud Storage.
BigQuery
Tentukan tabel input, model, dan lokasi output BigQuery Anda. Tugas prediksi batch dan tabel Anda harus berada di region yang sama.
REST
Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model.
- PROJECT_ID: Project ID Anda.
- MODEL: Nama model yang akan disesuaikan.
- INPUT_URI: Tabel
BigQuery tempat input prediksi batch Anda berada
seperti
myproject.mydataset.input_table
. - OUTPUT_FORMAT: Untuk menghasilkan output ke
tabel BigQuery, tentukan
bigquery
. Untuk menghasilkan output ke bucket Cloud Storage, tentukanjsonl
. - DESTINATION: Untuk
BigQuery, tentukan
bigqueryDestination
. Untuk Cloud Storage, tentukangcsDestination
. - OUTPUT_URI_FIELD_NAME:
Untuk BigQuery, tentukan
outputUri
. Untuk Cloud Storage, tentukanoutputUriPrefix
. - OUTPUT_URI: Untuk
BigQuery, tentukan lokasi tabel seperti
myproject.mydataset.output_result
. Untuk Cloud Storage, tentukan lokasi bucket dan folder sepertigs://mybucket/path/to/outputfile
.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs
Isi JSON permintaan:
'{ "displayName": "JOB_NAME", "model": "publishers/PUBLISHER/models/MODEL_ID", "inputConfig": { "instancesFormat":"bigquery", "bigquerySource":{ "inputUri" : "INPUT_URI" } }, "outputConfig": { "predictionsFormat":"OUTPUT_FORMAT", "DESTINATION":{ "OUTPUT_URI_FIELD_NAME": "OUTPUT_URI" } } }'
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Cloud Storage
Tentukan lokasi Cloud Storage, model, dan lokasi output file JSONL Anda.
REST
Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- LOCATION: Region yang mendukung model.
- PROJECT_ID: Project ID Anda.
- MODEL: Nama model yang akan disesuaikan.
- INPUT_URI: Lokasi Cloud Storage input prediksi batch JSONL Anda, seperti
gs://bucketname/path/to/jsonl
. - OUTPUT_FORMAT: Untuk menghasilkan output ke
tabel BigQuery, tentukan
bigquery
. Untuk menghasilkan output ke bucket Cloud Storage, tentukanjsonl
. - DESTINATION: Untuk
BigQuery, tentukan
bigqueryDestination
. Untuk Cloud Storage, tentukangcsDestination
. - OUTPUT_URI_FIELD_NAME:
Untuk BigQuery, tentukan
outputUri
. Untuk Cloud Storage, tentukanoutputUriPrefix
. - OUTPUT_URI: Untuk
BigQuery, tentukan lokasi tabel seperti
myproject.mydataset.output_result
. Untuk Cloud Storage, tentukan lokasi bucket dan folder sepertigs://mybucket/path/to/outputfile
.
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs
Isi JSON permintaan:
'{ "displayName": "JOB_NAME", "model": "publishers/PUBLISHER/models/MODEL_ID", "inputConfig": { "instancesFormat":"jsonl", "gcsDestination":{ "uris" : "INPUT_URI" } }, "outputConfig": { "predictionsFormat":"OUTPUT_FORMAT", "DESTINATION":{ "OUTPUT_URI_FIELD_NAME": "OUTPUT_URI" } } }'
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Mendapatkan status tugas prediksi batch
Dapatkan status tugas prediksi batch Anda untuk memeriksa apakah tugas telah berhasil diselesaikan. Durasi tugas bergantung pada jumlah item input yang Anda kirimkan.
REST
Setelah Anda menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
- PROJECT_ID: Project ID Anda.
- LOCATION: Region tempat tugas batch Anda berada.
- JOB_ID: ID tugas batch yang ditampilkan saat Anda membuat tugas.
Metode HTTP dan URL:
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Jalankan perintah berikut:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID"
PowerShell
Jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID" | Select-Object -Expand Content
Anda akan menerima respons JSON yang mirip dengan berikut ini.
Mengambil output
Setelah tugas prediksi batch selesai, ambil output dari lokasi yang Anda tentukan. Untuk BigQuery, outputnya ada di kolom response(JSON) pada tabel BigQuery tujuan Anda. Untuk Cloud Storage, output disimpan sebagai file JSONL di lokasi Cloud Storage output.
Langkah berikutnya
- Pelajari cara Memanggil MaaS API untuk model terbuka untuk kasus penggunaan streaming dan non-streaming.