O serviço de avaliação de IA gen permite-lhe avaliar os seus modelos de linguagem (conteúdo extenso) (MDLs/CEs) em várias métricas com os seus próprios critérios. Pode fornecer entradas no momento da inferência, respostas do MDG e parâmetros adicionais, e o serviço de avaliação de IA gen devolve métricas específicas da tarefa de avaliação.
As métricas incluem métricas baseadas em modelos, como PointwiseMetric
e PairwiseMetric
, e métricas calculadas na memória, como rouge
, bleu
e métricas de chamadas de funções de ferramentas.
PointwiseMetric
e PairwiseMetric
são métricas genéricas baseadas em modelos que pode personalizar com os seus próprios critérios.
Uma vez que o serviço usa os resultados da previsão diretamente dos modelos como entrada, o serviço de avaliação pode realizar a inferência e a avaliação subsequente em todos os modelos suportados pelo Vertex AI.
Para mais informações sobre a avaliação de um modelo, consulte o artigo Vista geral do serviço de avaliação de IA gen.
Limitações
Seguem-se as limitações do serviço de avaliação:
- O serviço de avaliação pode ter um atraso na propagação na sua primeira chamada.
- A maioria das métricas baseadas em modelos consomem a quota do gemini-2.0-flash porque o serviço de avaliação de IA gen tira partido do
gemini-2.0-flash
como o modelo de avaliação subjacente para calcular estas métricas baseadas em modelos. - Algumas métricas baseadas em modelos, como a MetricX e a COMET, usam diferentes modelos de aprendizagem automática, pelo que não consomem a quota do gemini-2.0-flash.
Sintaxe de exemplo
Sintaxe para enviar uma chamada de avaliação.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \ -d '{ "pointwise_metric_input" : { "metric_spec" : { ... }, "instance": { ... }, } }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
Lista de parâmetros
Parâmetros | |
---|---|
|
Opcional: Introdução para avaliar se a previsão corresponde exatamente à referência. |
|
Opcional: Entrada para calcular a pontuação BLEU comparando a previsão com a referência. |
|
Opcional: Entrada para calcular as pontuações |
|
Opcional: Entrada para avaliar o domínio do idioma de uma única resposta. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta fornecer uma resposta coerente e fácil de seguir. |
|
Opcional: Entrada para avaliar o nível de segurança de uma única resposta. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta fornecer ou fazer referência a informações incluídas apenas no texto de entrada. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta para cumprir completamente as instruções. |
|
Opcional: Entrada para avaliar a capacidade geral de resumir texto de uma única resposta. |
|
Opcional: Entrada para comparar a qualidade geral do resumo de duas respostas. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta fornecer um resumo, que contém os detalhes necessários para substituir o texto original. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta fornecer um resumo conciso. |
|
Opcional: Entrada para avaliar a capacidade geral de uma única resposta para responder a perguntas, dado um corpo de texto para referência. |
|
Opcional: Entrada para comparar a capacidade geral de duas respostas para responder a perguntas, dado um corpo de texto para referência. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta de responder com informações relevantes quando lhe é feita uma pergunta. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta fornecer detalhes importantes ao responder a uma pergunta. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta responder corretamente a uma pergunta. |
|
Opcional: Entrada para uma avaliação genérica ponto a ponto. |
|
Opcional: Entrada para uma avaliação genérica aos pares. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta prever uma chamada de ferramenta válida. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta prever uma chamada de ferramenta com o nome da ferramenta correto. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta prever uma chamada de ferramenta com nomes de parâmetros corretos. |
|
Opcional: Entrada para avaliar a capacidade de uma única resposta prever uma chamada de ferramenta com nomes e valores de parâmetros corretos |
|
Opcional: Entrada a avaliar com COMET. |
|
Opcional: Entrada para avaliação com MetricX. |
ExactMatchInput
{ "exact_match_input": { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Resposta do MDG de ouro para referência. |
ExactMatchResults
{ "exact_match_results": { "exact_match_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
Resultados da avaliação por entrada de instância. |
|
Uma das seguintes opções:
|
BleuInput
{ "bleu_input": { "metric_spec": { "use_effective_order": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Se deve ter em conta as ordens de n-gramas sem correspondência. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Resposta do MDG de ouro para referência. |
BleuResults
{ "bleu_results": { "bleu_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
Resultados da avaliação por entrada de instância. |
|
|
RougeInput
{ "rouge_input": { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Valores aceitáveis:
|
|
Opcional: Se o Porter stemmer deve ser usado para remover sufixos de palavras para melhorar a correspondência. |
|
Opcional: Se devem ser adicionadas novas linhas entre frases para o rougeLsum. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Resposta do MDG de ouro para referência. |
RougeResults
{ "rouge_results": { "rouge_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
Resultados da avaliação por entrada de instância. |
|
|
FluencyInput
{ "fluency_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta do MDI/CE. |
|
Opcional: Resposta do MDI/CE. |
FluencyResult
{ "fluency_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
CoherenceInput
{ "coherence_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta do MDI/CE. |
|
Opcional: Resposta do MDI/CE. |
CoherenceResult
{ "coherence_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
SafetyInput
{ "safety_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta do MDI/CE. |
|
Opcional: Resposta do MDI/CE. |
SafetyResult
{ "safety_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
GroundednessInput
{ "groundedness_input": { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
Parâmetro |
Descrição |
|
Opcional: GroundednessSpec Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: GroundednessInstance Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
GroundednessResult
{ "groundedness_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
FulfillmentInput
{ "fulfillment_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
FulfillmentResult
{ "fulfillment_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
SummarizationQualityInput
{ "summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
SummarizationQualityResult
{ "summarization_quality_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do GML do modelo de base. |
|
Opcional: Resposta do GML do modelo candidato. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
SummarizationVerbosityInput
{ "summarization_verbosity_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
SummarizationVerbosityResult
{ "summarization_verbosity_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
QuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
QuestionAnsweringQualityResult
{ "question_answering_quality_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
PairwiseQuestionAnsweringQualityInput
{ "pairwise_question_answering_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do GML do modelo de base. |
|
Opcional: Resposta do GML do modelo candidato. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input": { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Se a referência é usada ou não na avaliação. |
|
Opcional: Entrada de avaliação, que consiste em entradas de inferência e na resposta correspondente. |
|
Opcional: Resposta do MDI/CE. |
|
Opcional: Resposta do MDG de ouro para referência. |
|
Opcional: Instrução usada no momento da inferência. |
|
Opcional: Texto no momento da inferência que contém todas as informações, que podem ser usadas na resposta do MDG. |
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result": { "score": float, "explanation": string, "confidence": float } }
Resultado | |
---|---|
|
|
|
|
|
|
PointwiseMetricInput
{ "pointwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parâmetros | |
---|---|
|
Obrigatório: Especificação da métrica, que define o comportamento da métrica. |
|
Obrigatório: Um modelo de comando que define a métrica. É renderizado pelos pares de chave-valor em instance.json_instance |
|
Obrigatório: Entrada de avaliação, que consiste em json_instance. |
|
Opcional: Os pares de chave-valor no formato JSON. Por exemplo, {"key_1": "value_1", "key_2": "value_2"}. É usado para renderizar metric_spec.metric_prompt_template. |
PointwiseMetricResult
{ "pointwise_metric_result": { "score": float, "explanation": string, } }
Resultado | |
---|---|
|
|
|
|
PairwiseMetricInput
{ "pairwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parâmetros | |
---|---|
|
Obrigatório: Especificação da métrica, que define o comportamento da métrica. |
|
Obrigatório: Um modelo de comando que define a métrica. É renderizado pelos pares de chave-valor em instance.json_instance |
|
Obrigatório: Entrada de avaliação, que consiste em json_instance. |
|
Opcional: Os pares de chave-valor no formato JSON. Por exemplo, {"key_1": "value_1", "key_2": "value_2"}. É usado para renderizar metric_spec.metric_prompt_template. |
PairwiseMetricResult
{ "pairwise_metric_result": { "score": float, "explanation": string, } }
Resultado | |
---|---|
|
|
|
|
ToolCallValidInput
{ "tool_call_valid_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDG candidato, que é uma string serializada JSON que contém as chaves { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] } |
|
Opcional: Resultado do modelo de referência no mesmo formato que a previsão. |
ToolCallValidResults
{ "tool_call_valid_results": { "tool_call_valid_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
repeated |
|
|
ToolNameMatchInput
{ "tool_name_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDG candidato, que é uma string serializada JSON que contém as chaves |
|
Opcional: Resultado do modelo de referência no mesmo formato que a previsão. |
ToolNameMatchResults
{ "tool_name_match_results": { "tool_name_match_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
repeated |
|
|
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDG candidato, que é uma string serializada JSON que contém as chaves |
|
Opcional: Resultado do modelo de referência no mesmo formato que a previsão. |
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results": { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
repeated |
|
|
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional: Entrada de avaliação, que consiste na resposta e na referência do MDI/CE. |
|
Opcional: Resposta do MDG candidato, que é uma string serializada JSON que contém as chaves |
|
Opcional: Resultado do modelo de referência no mesmo formato que a previsão. |
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results": { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
Resultado | |
---|---|
|
repeated |
|
|
CometInput
{ "comet_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica, que define o comportamento da métrica. |
|
Opcional:
|
|
Opcional: Idioma de origem no formato BCP-47. Por exemplo, "es". |
|
Opcional: Idioma de destino no formato BCP-47. Por exemplo, "es" |
|
Opcional: Entrada de avaliação, constituída pela resposta do MDI/CE e pela referência. Os campos exatos usados para a avaliação dependem da versão do COMET. |
|
Opcional: Resposta do GML do modelo candidato. Esta é a saída do MDG que está a ser avaliada. |
|
Opcional: Texto de origem. Este é o idioma original a partir do qual a previsão foi traduzida. |
|
Opcional: Facto observável usado para comparar com a previsão. Está no mesmo idioma que a previsão. |
CometResult
{ "comet_result" : { "score": float } }
Resultado | |
---|---|
|
|
MetricxInput
{ "metricx_input" : { "metric_spec" : { "version": string }, "instance": { "prediction": string, "source": string, "reference": string, }, } }
Parâmetros | |
---|---|
|
Opcional: Especificação da métrica que define o comportamento da métrica. |
|
Opcional:
Uma das seguintes opções:
|
|
Opcional: Idioma de origem no formato BCP-47. Por exemplo, "es". |
|
Opcional: Idioma de destino no formato BCP-47. Por exemplo, "es". |
|
Opcional: Entrada de avaliação, constituída pela resposta do MDI/CE e pela referência. Os campos exatos usados para a avaliação dependem da versão do MetricX. |
|
Opcional: Resposta do GML do modelo candidato. Esta é a saída do MDG que está a ser avaliada. |
|
Opcional: Texto de origem no idioma original a partir do qual a previsão foi traduzida. |
|
Opcional: Facto observável usado para comparar com a previsão. Está no mesmo idioma que a previsão. |
MetricxResult
{ "metricx_result" : { "score": float } }
Resultado | |
---|---|
|
|
Exemplos
Avalie um resultado
O exemplo seguinte demonstra como chamar a API Gen AI Evaluation para avaliar o resultado de um MDI/CE através de várias métricas de avaliação, incluindo as seguintes:
summarization_quality
groundedness
fulfillment
summarization_helpfulness
summarization_verbosity
Python
Go
Avalie um resultado: qualidade da sumarização aos pares
O exemplo seguinte demonstra como chamar a API do serviço de avaliação de IA gen para avaliar a saída de um MDG usando uma comparação de qualidade de resumo aos pares.
REST
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
- PROJECT_ID: .
- LOCATION: a região para processar o pedido.
- PREDICTION: resposta do MDI/CE.
- BASELINE_PREDICTION: resposta do GML do modelo de base.
- INSTRUCTION: a instrução usada no momento da inferência.
- CONTEXT: texto no momento da inferência que contém todas as informações relevantes e que pode ser usado na resposta do GML.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \
Corpo JSON do pedido:
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": "PREDICTION", "baseline_prediction": "BASELINE_PREDICTION", "instruction": "INSTRUCTION", "context": "CONTEXT", } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
Go
Go
Antes de experimentar este exemplo, siga as Goinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Go Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Obtenha a pontuação ROUGE
O exemplo seguinte chama a API do serviço de avaliação de IA gen para obter a pontuação ROUGE de uma previsão gerada por vários inputs. As entradas ROUGE usam
metric_spec
, que determina o comportamento da métrica.
REST
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
- PROJECT_ID: .
- LOCATION: a região para processar o pedido.
- PREDICTION: resposta do MDI/CE.
- REFERENCE: resposta do MDI/CE de referência.
- ROUGE_TYPE: o cálculo usado para determinar a pontuação de rouge. Consulte
metric_spec.rouge_type
para ver os valores aceitáveis. - USE_STEMMER: determina se o Porter stemmer é usado para remover sufixos de palavras para melhorar a correspondência. Para ver os valores aceitáveis, consulte
metric_spec.use_stemmer
. - SPLIT_SUMMARIES: determina se são adicionadas novas linhas entre frases
rougeLsum
. Para ver os valores aceitáveis, consultemetric_spec.split_summaries
.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \
Corpo JSON do pedido:
{ "rouge_input": { "instances": { "prediction": "PREDICTION", "reference": "REFERENCE.", }, "metric_spec": { "rouge_type": "ROUGE_TYPE", "use_stemmer": USE_STEMMER, "split_summaries": SPLIT_SUMMARIES, } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
Go
Go
Antes de experimentar este exemplo, siga as Goinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Go Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
O que se segue?
- Para ver documentação detalhada, consulte o artigo Execute uma avaliação.