Puoi valutare le prestazioni dei modelli di base e dei modelli di AI generativa ottimizzati sulla piattaforma agentica Gemini Enterprise. I modelli vengono valutati utilizzando un insieme di metriche rispetto a un set di dati di valutazione che fornisci. Questa pagina spiega come funziona la valutazione del modello basata su calcolo tramite il servizio di pipeline di valutazione , come creare e formattare il set di dati di valutazione e come eseguire la valutazione utilizzando la Google Cloud console, l'API della piattaforma agentica o l' SDK della piattaforma agentica per Python.
Come funziona la valutazione del modello basata su calcolo
Per valutare le prestazioni di un modello, devi prima creare un set di dati di valutazione che contenga coppie di prompt e dati di fatto. Per ogni coppia, il prompt è l'input che vuoi valutare e i dati di fatto sono la risposta ideale per quel prompt. Durante la valutazione, il prompt in ogni coppia del set di dati di valutazione viene passato al modello per produrre un output. L'output generato dal modello e i dati di fatto del set di dati di valutazione vengono utilizzati per calcolare le metriche di valutazione.
Il tipo di metriche utilizzate per la valutazione dipende dall'attività che stai valutando. La tabella seguente mostra le attività supportate e le metriche utilizzate per valutare ogni attività:
| Attività | Metrica |
|---|---|
| Classificazione | Micro F1, Macro F1, F1 per classe |
| Riassunto | ROUGE-L |
| Question answering | Corrispondenza esatta |
| Generazione di testo | BLEU, ROUGE-L |
Modelli supportati
La valutazione del modello è supportata per i seguenti modelli:
text-bison: versioni di base e ottimizzate.Gemini: tutte le attività tranne la classificazione.
Preparare il set di dati di valutazione
Il set di dati di valutazione utilizzato per la valutazione del modello include coppie di prompt e dati di fatto in linea con l'attività che vuoi valutare. Il set di dati deve includere un minimo di una coppia di prompt e dati di fatto e almeno 10 coppie per metriche significative. Più esempi fornisci, più significativi saranno i risultati.
Formato del set di dati
Il set di dati di valutazione deve essere in formato JSON Lines (JSONL)
in cui ogni riga contiene una singola coppia di prompt e dati di fatto specificata
rispettivamente nei campi input_text e output_text. Il campo input_text contiene il prompt che vuoi valutare, mentre il campo output_text contiene la risposta ideale per il prompt.
La lunghezza massima dei token per input_text è 8192 e la lunghezza massima dei token per output_text è 1024.
Caricare il set di dati di valutazione in Cloud Storage
Puoi creare un nuovo bucket Cloud Storage o utilizzarne uno esistente per archiviare il file del set di dati. Il bucket deve trovarsi nella stessa regione del modello.
Quando il bucket è pronto, carica il file del set di dati nel bucket.
Eseguire la valutazione del modello
Puoi valutare i modelli utilizzando l'API REST o la Google Cloud console.
REST
Per creare un job di valutazione del modello, invia una richiesta POST utilizzando il
pipelineJobs metodo.
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- PROJECT_ID: il Google Cloud progetto che esegue i componenti della pipeline.
- PIPELINEJOB_DISPLAYNAME: un nome visualizzato per pipelineJob.
- LOCATION: la regione in cui eseguire i componenti della pipeline.
Al momento è supportata solo
us-central1. - DATASET_URI: l'URI Cloud Storage del set di dati di riferimento. Puoi specificare uno o più URI. Questo parametro supporta i caratteri jolly. Per saperne di più su questo parametro, consulta InputConfig.
- OUTPUT_DIR: l'URI Cloud Storage in cui archiviare l'output della valutazione.
- MODEL_NAME: specifica una risorsa modello del publisher o un modello ottimizzato come segue:
- Modello del publisher:
publishers/google/models/MODEL@MODEL_VERSIONEsempio:
publishers/google/models/text-bison@002 - Modello ottimizzato:
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_IDEsempio:
projects/123456789012/locations/us-central1/models/1234567890123456789
Il job di valutazione non influisce sui deployment esistenti del modello o sulle relative risorse.
- Modello del publisher:
- EVALUATION_TASK: l'attività su cui vuoi
valutare il modello. Il job di valutazione calcola un insieme di metriche pertinenti a quella specifica
task. I valori accettabili includono:
summarizationquestion-answeringtext-generationclassification
- INSTANCES_FORMAT: il formato del set di dati.
Al momento è supportato solo
jsonl. Per saperne di più su questo parametro, consulta InputConfig. - PREDICTIONS_FORMAT: il formato dell'output della valutazione. Al momento è supportato solo
jsonl. Per saperne di più su questo parametro, consulta InputConfig. - MACHINE_TYPE: (facoltativo) il tipo di macchina per
l'esecuzione del job di valutazione. Il valore predefinito è
e2-highmem-16. Per un elenco dei tipi di macchina supportati, vedi Tipi di macchina. - SERVICE_ACCOUNT: (facoltativo) il account di servizio da utilizzare per l'esecuzione del job di valutazione. Per scoprire come creare un account di servizio personalizzato, consulta Configurare un account di servizio con autorizzazioni granulari. Se non viene specificato, viene utilizzato il service agent del codice personalizzato della piattaforma agentica Gemini Enterprise.
- NETWORK: (facoltativo) il nome completo della rete Compute Engine a cui eseguire il peering del job di valutazione. Il formato del nome della rete è
projects/PROJECT_NUMBER/global/networks/NETWORK_NAME. Se specifichi questo campo, devi avere un VPC peering di rete per la piattaforma agentica Gemini Enterprise. Se non viene specificato, il job di valutazione non viene sottoposto a peering con alcuna rete. - KEY_NAME: (facoltativo) il nome della chiave di crittografia gestita dal cliente (CMEK). Se configurate, le risorse create
dal job di valutazione vengono criptate utilizzando la chiave di crittografia fornita. Il
formato del nome della chiave è
projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY. La chiave deve trovarsi nella stessa regione del job di valutazione.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
Corpo JSON della richiesta:
{
"displayName": "PIPELINEJOB_DISPLAYNAME",
"runtimeConfig": {
"gcsOutputDirectory": "gs://OUTPUT_DIR",
"parameterValues": {
"project": "PROJECT_ID",
"location": "LOCATION",
"batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
"batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
"model_name": "MODEL_NAME",
"evaluation_task": "EVALUATION_TASK",
"batch_predict_instances_format": "INSTANCES_FORMAT",
"batch_predict_predictions_format: "PREDICTIONS_FORMAT",
"machine_type": "MACHINE_TYPE",
"service_account": "SERVICE_ACCOUNT",
"network": "NETWORK",
"encryption_spec_key_name": "KEY_NAME"
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"
PowerShell
Salva il corpo della richiesta in un file denominato request.json,
e quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente. Tieni presente che pipelineSpec
è stato troncato per risparmiare spazio.
Comando curl di esempio
PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
"displayName": "evaluation-llm-text-generation-pipeline",
"runtimeConfig": {
"gcsOutputDirectory": "'${OUTPUT_DIR}'",
"parameterValues": {
"project": "'${PROJECT_ID}'",
"location": "'${REGION}'",
"batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
"batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
"model_name": "'${MODEL_NAME}'",
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per ulteriori informazioni, consulta la Python documentazione di riferimento dell'API.
Console
Per creare un job di valutazione del modello utilizzando la Google Cloud console, segui questi passaggi:
- Nella Google Cloud console, vai alla pagina Registro modelli della piattaforma agentica Gemini Enterprise.
Vai al registro modelli della piattaforma agentica Gemini Enterprise
- Fai clic sul nome del modello che vuoi valutare.
- Nella scheda Valuta, fai clic su Crea valutazione e configura come segue:
- Obiettivo: seleziona l'attività che vuoi valutare.
- Colonna o campo di destinazione: (solo classificazione) inserisci la colonna di destinazione per la previsione. Esempio:
ground_truth. - Percorso di origine: inserisci o seleziona l'URI del set di dati di valutazione.
- Formato di output: inserisci il formato dell'output della valutazione.
Al momento è supportato solo
jsonl. - Percorso Cloud Storage: inserisci o seleziona l'URI in cui archiviare l'output della valutazione.
- Nomi delle classi: (solo classificazione) inserisci l'elenco dei possibili nomi delle classi.
- Numero di nodi di computing: inserisci il numero di nodi di computing per l'esecuzione del job di valutazione.
- Tipo di macchina: seleziona un tipo di macchina da utilizzare per l'esecuzione del job di valutazione.
- Fai clic su Inizia valutazione.
Visualizzare i risultati di una valutazione
Puoi trovare i risultati della valutazione nella directory di output di Cloud Storage che hai specificato durante la creazione del job di valutazione. Il file si chiama evaluation_metrics.json.
Per i modelli ottimizzati, puoi anche visualizzare i risultati della valutazione nella Google Cloud console:
Nella sezione Piattaforma agentica della Google Cloud console, vai a the Registro modelli della piattaforma agentica Gemini Enterprise page.
Vai al registro modelli della piattaforma agentica Gemini Enterprise
Fai clic sul nome del modello per visualizzarne le metriche di valutazione.
Nella scheda Valuta, fai clic sul nome dell'esecuzione della valutazione che vuoi visualizzare.
Passaggi successivi
- Scopri di più sulla valutazione dell'AI generativa.
- Scopri come ottimizzare un modello di base.