Esegui una pipeline di valutazione basata su calcolo

Puoi valutare le prestazioni dei modelli di base e dei modelli di AI generativa ottimizzati sulla piattaforma agentica Gemini Enterprise. I modelli vengono valutati utilizzando un insieme di metriche rispetto a un set di dati di valutazione che fornisci. Questa pagina spiega come funziona la valutazione del modello basata su calcolo tramite il servizio di pipeline di valutazione , come creare e formattare il set di dati di valutazione e come eseguire la valutazione utilizzando la Google Cloud console, l'API della piattaforma agentica o l' SDK della piattaforma agentica per Python.

Come funziona la valutazione del modello basata su calcolo

Per valutare le prestazioni di un modello, devi prima creare un set di dati di valutazione che contenga coppie di prompt e dati di fatto. Per ogni coppia, il prompt è l'input che vuoi valutare e i dati di fatto sono la risposta ideale per quel prompt. Durante la valutazione, il prompt in ogni coppia del set di dati di valutazione viene passato al modello per produrre un output. L'output generato dal modello e i dati di fatto del set di dati di valutazione vengono utilizzati per calcolare le metriche di valutazione.

Il tipo di metriche utilizzate per la valutazione dipende dall'attività che stai valutando. La tabella seguente mostra le attività supportate e le metriche utilizzate per valutare ogni attività:

Attività	Metrica
Classificazione	Micro F1, Macro F1, F1 per classe
Riassunto	ROUGE-L
Question answering	Corrispondenza esatta
Generazione di testo	BLEU, ROUGE-L

Modelli supportati

La valutazione del modello è supportata per i seguenti modelli:

text-bison: versioni di base e ottimizzate.
Gemini: tutte le attività tranne la classificazione.

Preparare il set di dati di valutazione

Il set di dati di valutazione utilizzato per la valutazione del modello include coppie di prompt e dati di fatto in linea con l'attività che vuoi valutare. Il set di dati deve includere un minimo di una coppia di prompt e dati di fatto e almeno 10 coppie per metriche significative. Più esempi fornisci, più significativi saranno i risultati.

Formato del set di dati

Il set di dati di valutazione deve essere in formato JSON Lines (JSONL) in cui ogni riga contiene una singola coppia di prompt e dati di fatto specificata rispettivamente nei campi input_text e output_text. Il campo input_text contiene il prompt che vuoi valutare, mentre il campo output_text contiene la risposta ideale per il prompt.

La lunghezza massima dei token per input_text è 8192 e la lunghezza massima dei token per output_text è 1024.

Caricare il set di dati di valutazione in Cloud Storage

Puoi creare un nuovo bucket Cloud Storage o utilizzarne uno esistente per archiviare il file del set di dati. Il bucket deve trovarsi nella stessa regione del modello.

Quando il bucket è pronto, carica il file del set di dati nel bucket.

Eseguire la valutazione del modello

Puoi valutare i modelli utilizzando l'API REST o la Google Cloud console.

Autorizzazioni richieste per questa attività

Per eseguire questa attività, devi concedere i ruoli Identity and Access Management (IAM) a ciascuno dei seguenti service account:

Service account	Entità predefinita	Descrizione	Ruoli
Agent Platform Service Agent	`service-PROJECT_NUMBER@gcp-sa-aiplatform.iam.gserviceaccount.com`	Il service agent della piattaforma agentica viene sottoposto automaticamente al provisioning per il tuo progetto e gli viene concesso un ruolo predefinito. Tuttavia, se un criterio dell'organizzazione modifica le autorizzazioni predefinite del service agent della piattaforma agentica, devi concedere manualmente il ruolo al service agent.	Service agent della piattaforma agentica (`roles/aiplatform.serviceAgent`)
Service account delle pipeline della piattaforma agentica	`PROJECT_NUMBER-compute@developer.gserviceaccount.com`	Il account di servizio che esegue la pipeline. Il account di servizio predefinito utilizzato è il service account predefinito di Compute Engine. Facoltativamente, puoi utilizzare un account di servizio personalizzato anziché quello predefinito.	Utente della piattaforma agentica (`roles/aiplatform.user`) Utente degli oggetti Storage (`roles/storage.objectUser`)

A seconda delle origini dati di input e output, potresti anche dover concedere al service account delle pipeline della piattaforma agentica ruoli aggiuntivi:

Origine dati	Ruolo	Dove concedere il ruolo
Tabella BigQuery standard	Editor dati BigQuery	Progetto che esegue la pipeline
Tabella BigQuery standard	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella
Visualizzazione BigQuery di una tabella BigQuery standard	Editor dati BigQuery	Progetto che esegue la pipeline
	Visualizzatore dati BigQuery	Progetto a cui appartiene la visualizzazione
	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella
Tabella esterna BigQuery con un file Cloud Storage di origine	Editor dati BigQuery	Progetto che esegue la pipeline
	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella esterna
	Storage Object Viewer	Progetto a cui appartiene il file di origine
Visualizzazione BigQuery di una tabella esterna BigQuery con un file Cloud Storage di origine	Editor dati BigQuery	Progetto che esegue la pipeline
	Visualizzatore dati BigQuery	Progetto a cui appartiene la visualizzazione
	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella esterna
	Storage Object Viewer	Progetto a cui appartiene il file di origine
File Cloud Storage	Visualizzatore dati BigQuery	Progetto che esegue la pipeline

REST

Per creare un job di valutazione del modello, invia una richiesta POST utilizzando il pipelineJobs metodo.

Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:

PROJECT_ID: il Google Cloud progetto che esegue i componenti della pipeline.
PIPELINEJOB_DISPLAYNAME: un nome visualizzato per pipelineJob.
LOCATION: la regione in cui eseguire i componenti della pipeline. Al momento è supportata solo us-central1.
DATASET_URI: l'URI Cloud Storage del set di dati di riferimento. Puoi specificare uno o più URI. Questo parametro supporta i caratteri jolly. Per saperne di più su questo parametro, consulta InputConfig.
OUTPUT_DIR: l'URI Cloud Storage in cui archiviare l'output della valutazione.
MODEL_NAME: specifica una risorsa modello del publisher o un modello ottimizzato come segue:
- Modello del publisher: publishers/google/models/MODEL@MODEL_VERSION
  Esempio: publishers/google/models/text-bison@002
- Modello ottimizzato: projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
  Esempio: projects/123456789012/locations/us-central1/models/1234567890123456789
Il job di valutazione non influisce sui deployment esistenti del modello o sulle relative risorse.
EVALUATION_TASK: l'attività su cui vuoi valutare il modello. Il job di valutazione calcola un insieme di metriche pertinenti a quella specifica task. I valori accettabili includono:
- summarization
- question-answering
- text-generation
- classification
INSTANCES_FORMAT: il formato del set di dati. Al momento è supportato solo jsonl. Per saperne di più su questo parametro, consulta InputConfig.
PREDICTIONS_FORMAT: il formato dell'output della valutazione. Al momento è supportato solo jsonl. Per saperne di più su questo parametro, consulta InputConfig.
MACHINE_TYPE: (facoltativo) il tipo di macchina per l'esecuzione del job di valutazione. Il valore predefinito è e2-highmem-16. Per un elenco dei tipi di macchina supportati, vedi Tipi di macchina.
SERVICE_ACCOUNT: (facoltativo) il account di servizio da utilizzare per l'esecuzione del job di valutazione. Per scoprire come creare un account di servizio personalizzato, consulta Configurare un account di servizio con autorizzazioni granulari. Se non viene specificato, viene utilizzato il service agent del codice personalizzato della piattaforma agentica Gemini Enterprise.
NETWORK: (facoltativo) il nome completo della rete Compute Engine a cui eseguire il peering del job di valutazione. Il formato del nome della rete è projects/PROJECT_NUMBER/global/networks/NETWORK_NAME. Se specifichi questo campo, devi avere un VPC peering di rete per la piattaforma agentica Gemini Enterprise. Se non viene specificato, il job di valutazione non viene sottoposto a peering con alcuna rete.
KEY_NAME: (facoltativo) il nome della chiave di crittografia gestita dal cliente (CMEK). Se configurate, le risorse create dal job di valutazione vengono criptate utilizzando la chiave di crittografia fornita. Il formato del nome della chiave è projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY. La chiave deve trovarsi nella stessa regione del job di valutazione.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs

Corpo JSON della richiesta:

{
  "displayName": "PIPELINEJOB_DISPLAYNAME",
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://OUTPUT_DIR",
    "parameterValues": {
      "project": "PROJECT_ID",
      "location": "LOCATION",
      "batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
      "batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
      "model_name": "MODEL_NAME",
      "evaluation_task": "EVALUATION_TASK",
      "batch_predict_instances_format": "INSTANCES_FORMAT",
      "batch_predict_predictions_format: "PREDICTIONS_FORMAT",
      "machine_type": "MACHINE_TYPE",
      "service_account": "SERVICE_ACCOUNT",
      "network": "NETWORK",
      "encryption_spec_key_name": "KEY_NAME"
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, e quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente. Tieni presente che pipelineSpec è stato troncato per risparmiare spazio.

Risposta

......
.....
 "state": "PIPELINE_STATE_PENDING",
  "labels": {
    "vertex-ai-pipelines-run-billing-id": "1234567890123456789"
  },
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://my-evaluation-bucket/output",
    "parameterValues": {
      "project": "my-project",
      "location": "us-central1",
      "batch_predict_gcs_source_uris": [
        "gs://my-evaluation-bucket/reference-datasets/eval_data.jsonl"
      ],
      "batch_predict_gcs_destination_output_uri": "gs://my-evaluation-bucket/output",
      "model_name": "publishers/google/models/text-bison@002"
    }
  },
  "serviceAccount": "123456789012-compute@developer.gserviceaccount.com",
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1",
  "templateMetadata": {
    "version": "sha256:d4c0d665533f6b360eb474111aa5e00f000fb8eac298d367e831f3520b21cb1a"
  }
}

Comando curl di esempio

PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
  "displayName": "evaluation-llm-text-generation-pipeline",
  "runtimeConfig": {
    "gcsOutputDirectory": "'${OUTPUT_DIR}'",
    "parameterValues": {
      "project": "'${PROJECT_ID}'",
      "location": "'${REGION}'",
      "batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
      "batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
      "model_name": "'${MODEL_NAME}'",
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'

Python

Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per ulteriori informazioni, consulta la Python documentazione di riferimento dell'API.

import os

from google.auth import default

import vertexai
from vertexai.preview.language_models import (
    EvaluationTextClassificationSpec,
    TextGenerationModel,
)

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")


def evaluate_model() -> object:
    """Evaluate the performance of a generative AI model."""

    # Set credentials for the pipeline components used in the evaluation task
    credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])

    vertexai.init(project=PROJECT_ID, location="us-central1", credentials=credentials)

    # Create a reference to a generative AI model
    model = TextGenerationModel.from_pretrained("text-bison@002")

    # Define the evaluation specification for a text classification task
    task_spec = EvaluationTextClassificationSpec(
        ground_truth_data=[
            "gs://cloud-samples-data/ai-platform/generative_ai/llm_classification_bp_input_prompts_with_ground_truth.jsonl"
        ],
        class_names=["nature", "news", "sports", "health", "startups"],
        target_column_name="ground_truth",
    )

    # Evaluate the model
    eval_metrics = model.evaluate(task_spec=task_spec)
    print(eval_metrics)
    # Example response:
    # ...
    # PipelineJob run completed.
    # Resource name: projects/123456789/locations/us-central1/pipelineJobs/evaluation-llm-classification-...
    # EvaluationClassificationMetric(label_name=None, auPrc=0.53833705, auRoc=0.8...

    return eval_metrics

Console

Per creare un job di valutazione del modello utilizzando la Google Cloud console, segui questi passaggi:

Nella Google Cloud console, vai alla pagina Registro modelli della piattaforma agentica Gemini Enterprise.
Vai al registro modelli della piattaforma agentica Gemini Enterprise
Fai clic sul nome del modello che vuoi valutare.
Nella scheda Valuta, fai clic su Crea valutazione e configura come segue:

Obiettivo: seleziona l'attività che vuoi valutare.
Colonna o campo di destinazione: (solo classificazione) inserisci la colonna di destinazione per la previsione. Esempio: ground_truth.
Percorso di origine: inserisci o seleziona l'URI del set di dati di valutazione.
Formato di output: inserisci il formato dell'output della valutazione. Al momento è supportato solo jsonl.
Percorso Cloud Storage: inserisci o seleziona l'URI in cui archiviare l'output della valutazione.
Nomi delle classi: (solo classificazione) inserisci l'elenco dei possibili nomi delle classi.
Numero di nodi di computing: inserisci il numero di nodi di computing per l'esecuzione del job di valutazione.
Tipo di macchina: seleziona un tipo di macchina da utilizzare per l'esecuzione del job di valutazione.

Fai clic su Inizia valutazione.

Visualizzare i risultati di una valutazione

Puoi trovare i risultati della valutazione nella directory di output di Cloud Storage che hai specificato durante la creazione del job di valutazione. Il file si chiama evaluation_metrics.json.

Per i modelli ottimizzati, puoi anche visualizzare i risultati della valutazione nella Google Cloud console:

Nella sezione Piattaforma agentica della Google Cloud console, vai a the Registro modelli della piattaforma agentica Gemini Enterprise page.

Vai al registro modelli della piattaforma agentica Gemini Enterprise
Fai clic sul nome del modello per visualizzarne le metriche di valutazione.
Nella scheda Valuta, fai clic sul nome dell'esecuzione della valutazione che vuoi visualizzare.

Passaggi successivi

Scopri di più sulla valutazione dell'AI generativa.
Scopri come ottimizzare un modello di base.

Esegui una pipeline di valutazione basata su calcolo Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Come funziona la valutazione del modello basata su calcolo

Modelli supportati

Preparare il set di dati di valutazione

Formato del set di dati

Caricare il set di dati di valutazione in Cloud Storage

Eseguire la valutazione del modello

Autorizzazioni richieste per questa attività

REST

curl

PowerShell

Risposta

Comando curl di esempio

Python

Console

Visualizzare i risultati di una valutazione

Passaggi successivi

Esegui una pipeline di valutazione basata su calcolo