Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Serviço de destilação do Gemini

O Serviço de destilação do Gemini (destilação) permite que os usuários treinem um modelo "estudante" menor e mais eficiente que usa os resultados e padrões de raciocínio de um modelo "professor" maior e mais capaz. Embora os modelos de fronteira definam a vanguarda da IA, eles podem ser provisionados em excesso para casos de uso empresariais específicos. A destilação preenche essa lacuna, permitindo eficiência de nível de produção (menor latência e custo) e modelos menores para alcançar um nível mais profundo de raciocínio.

Ao contrário do ajuste supervisionado (SFT) padrão, que usa apenas a saída de texto final, a destilação aproveita:

Respostas do professor: a saída textual final.
Raciocínios brutos: os caminhos de raciocínio internos gerados pelo modelo professor.

Modelos compatíveis

Os seguintes modelos são compatíveis com a destilação durante o acesso antecipado:

Modelo de professor: gemini-3.1-pro
Modelo do estudante: gemini-2.5-flash

Fig. 1. Ilustração do sistema de como o Gemini Distillation Service funciona.

Casos de uso adequados

A destilação é recomendada em vez de comandos padrão ou ajuste refinado supervisionado (SFT, na sigla em inglês) nos seguintes cenários:

Aplicativos de alto volume e sensíveis à latência: quando seu aplicativo exige os recursos de raciocínio de um modelo do nível Pro, mas precisa atender a SLAs de latência ou restrições de orçamento rigorosas que exigem um modelo do nível Flash.
Falta de dados de informações empíricas (SFT inviável): quando você tem um grande conjunto de dados de comandos ou consultas do usuário, mas não tem recursos para rotular ou gerar manualmente respostas de informações empíricas de alta qualidade necessárias para a SFT padrão.
Tarefas de raciocínio complexo: tarefas que envolvem lógica de várias etapas, resumo de documentos altamente técnicos ou tarefas de programação complexas em que o modelo Flash básico tem dificuldades, mas o modelo Pro é bem-sucedido.
Lacunas significativas de desempenho: quando o modelo professor supera substancialmente o modelo estudante de base na sua tarefa específica, oferecendo uma margem clara de conhecimento para transferência durante a destilação.

Pré-requisitos e configuração do projeto

Antes de iniciar um job de destilação, verifique se o ambiente Google Cloud está configurado corretamente:

Solicite acesso à lista de permissões: verifique se o ID do projeto Google Cloud foi adicionado à lista de permissões para o acesso antecipado ao serviço de destilação do Gemini. Entre em contato com seu representante de vendas do Google para adicionar o projeto à lista de permissões.
Ative a API: ative a API Agent Platform no seu projeto Google Cloud .
Definir permissões de função do IAM: você precisa ter a função de administrador da plataforma de agentes (roles/aiplatform.admin) do IAM.
Defina a região: os jobs de destilação precisam ser executados na região us-central1.

Preparação do conjunto de dados

Um dos principais recursos desse serviço é o uso de conjuntos de dados somente de comandos. Como o modelo professor gera as saídas de destino durante o processo de destilação, não é necessário fornecer as respostas esperadas.

Requisitos do conjunto de dados

Os conjuntos de dados precisam estar no formato JSON Lines (JSONL) e armazenados em um bucket do Cloud Storage. Cada entrada precisa seguir o formato do conjunto de dados de ajuste do Gemini, além do seguinte:

Instruções do sistema: é possível incluir um campo systemInstruction opcional (com uma função "system") para definir comandos do sistema.
Entrada: o campo "conteúdo" (com a função "usuário") é obrigatório para a entrada principal.
Comandos de várias rodadas: você pode alternar entre as funções "usuário" e "modelo", desde que a entrada final na sequência seja "usuário".

Observação: os exemplos de várias rodadas têm verificações de qualidade limitadas. Use com cuidado.

Confira abaixo dois exemplos de arquivos dataset.jsonl:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "You're the artist here. Choose as many strands of thread as you like, as long as you're using three or more. Go for color combinations that you think would make a pretty pattern. Get creative! If you only use one color of thread, you won't be able to create a pattern.\n\nProvide a summary of the article in two or three sentences:\n\n"
        }
      ]
    }
  ]
},

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "You're the artist here. Choose as many strands of thread as you like, as long as you're using three or more. Go for color combinations that you think would make a pretty pattern. Get creative! If you only use one color of thread, you won't be able to create a pattern.\n\nProvide a summary of the article in two or three sentences:\n\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Choose several strands of embroidery thread in a variety of colors."
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "You will need one egg (raw or hard boiled but hard boiled is best) and one spoon for each person participating in the race. You might even like to use dyed Easter eggs as something special for Easter. It's best to have this race on grass or some other soft surface, to give dropped eggs a chance!"
        }
      ]
    }
  ]
}

Práticas recomendadas

Siga estas diretrizes ao criar seu conjunto de dados:

Tamanho: é recomendável ter pelo menos 1.000 exemplos para uma melhoria notável na qualidade.
Diversidade: verifique se seus comandos abrangem os casos extremos e os comprimentos variados esperados no tráfego de produção.

Configurar a solicitação de destilação

Um job de destilação requer a configuração do comportamento de geração do professor e dos hiperparâmetros de treinamento do estudante.

Configurar o comportamento de geração do modelo de professor

Você precisa definir como o modelo de professor responde ao seu conjunto de dados. A qualidade do modelo estudante depende diretamente da qualidade da resposta do professor. Para configurar o comportamento de geração do modelo de professor, defina o candidateCount:

candidateCount: o número de variações de resposta a serem geradas. Exemplo: 4. Intervalo [1, 5]. Se não for especificado na solicitação, um valor padrão de 4 será usado.

Definir os hiperparâmetros de destilação

Os hiperparâmetros de destilação controlam o processo de treinamento do modelo de estudante. Para mais informações sobre hiperparâmetros na plataforma de agentes do Gemini Enterprise, consulte a seção "Criar um job de ajuste" do guia de ajuste supervisionado.

Os seguintes hiperparâmetros precisam ser definidos ao criar um job de destilação:

epochCount: o número de vezes que o modelo do estudante vai iterar no conjunto de dados. Exemplo: 20. Intervalo [1, 100]. Se não for especificado, um valor padrão de 4 será usado.
learningRateMultiplier: modifica a taxa de aprendizado básica do modelo do estudante. Exemplo: 2.0. Intervalo [0.25, 4]. Se não for especificado, um valor padrão de 1 será usado.

Iniciar o job de destilação

Durante o período de acesso antecipado, é possível enviar e monitorar jobs de destilação usando a versão REST da API Agent Platform. É possível iniciar um novo trabalho de destilação ou fazer ajuste contínuo em um ponto de verificação de modelo já destilado.

Criar um job de destilação

Crie um arquivo JSON chamado request.json com a configuração do seu job. No exemplo a seguir, a configuração de geração do professor está aninhada no campo hyperParameters:

{
    "description": "Distillation testing job.",
    "baseModel": "gemini-2.5-flash",
    "tunedModelDisplayName": "flash-distillation-run-1",
    "distillationSpec": {
        "promptDatasetUri": "gs://your-bucket/path/to/prompt_dataset.jsonl",
        "validationDatasetUri": "",
        "base_teacher_model": "gemini-3.1-pro-preview",
        "hyperParameters": {
            "epochCount": "20",
            "learningRateMultiplier": 2.0,
            "generation_config": {
              "candidateCount": 5
            }
        }
    }
}

Envie o job usando curl:

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  https://us-central1-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/us-central1/tuningJobs \
  -d @request.json

Fazer ajustes contínuos

Se quiser retomar o ajuste de um checkpoint de modelo destilado anteriormente, inclua o bloco preTunedModel no arquivo request.json. O ajuste contínuo só é compatível com pontos de verificação de modelos destilados anteriormente, com o mesmo modelo de estudante de base. Não há suporte para checkpoints de modelos ajustados supervisionados anteriormente, mesmo com o mesmo modelo de estudante de base.

Confira um exemplo de como configurar o ajuste contínuo para um ponto de verificação de modelo destilado anteriormente:

{
    "description": "Continuous distillation testing job.",
    "preTunedModel": {
      "tunedModelName": "projects/YOUR_PROJECT_ID/locations/us-central1/models/PRETUNED_MODEL_ID@1",
      "checkpointId": "1",
      "baseModel": "gemini-2.5-flash"
    },
    "tunedModelDisplayName": "flash-distillation-continuous",
    "distillationSpec": {
        "promptDatasetUri": "gs://your-bucket/path/to/prompt_dataset.jsonl",
        "validationDatasetUri": "",
        "base_teacher_model": "gemini-3.1-pro-preview",
        "hyperParameters": {
            "epochCount": "20",
            "learningRateMultiplier": 2.0,
            "generation_config": {
              "candidateCount": 5,
            }
        }
    }
}

Envie o payload usando curl:

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  https://us-central1-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/us-central1/tuningJobs \
  -d @request.json

Monitorar o job de destilação

A resposta do envio vai retornar um nome de job que contém seu JOB_ID. Para verificar o status do seu job (state, erros e hiperparâmetros finais), envie uma solicitação GET:

curl -X GET \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  https://us-central1-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/us-central1/tuningJobs/JOB_ID

Também é possível monitorar o progresso visualmente no console do Google Cloud . Para isso, acesse Plataforma do agente > Ajuste e escolha a região us-central1.

Nesta versão de acesso antecipado, a interface do console da plataforma do agente tem as seguintes limitações conhecidas:

Progresso da amostragem de professores: não há um widget de progresso para o processo de amostragem do modelo de professor. Embora o status possa mostrar "Executando a preparação para ajuste", o job está sendo executado normalmente em segundo plano.
Gráficos de ajuste do estudante: durante a etapa de ajuste do modelo estudante, a UI fornece gráficos para a curva de perda e o total de tokens de texto de treinamento.
Tabela de checkpoints: a interface mostra uma tabela de checkpoints intermediários e links para o endpoint de previsão da Agent Platform gerado para avaliação. A coluna "Época" nesta tabela mostra "0" devido a um problema conhecido.

Cancele o job de destilação

Para cancelar um job de destilação em andamento, faça o seguinte:

Use o console Google Cloud , mudando o seguinte URL:

https://console.cloud.google.com/agent-platform/tuning/managed?project=YOUR_PROJECT_ID&vertex_ai_region=us-central1

Substitua YOUR_PROJECT_ID pela ID do seu projeto.

Use curl para enviar uma solicitação POST e cancelar o job:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT_ID/locations/us-central1/tuningJobs/YOUR_JOB_ID:cancel

Substitua:

YOUR_PROJECT_ID pelo código do projeto;
YOUR_JOB_ID pelo ID do job.

Como avaliar o resultado

Depois que o job de destilação é concluído, o novo modelo estudante é registrado automaticamente no Gemini Enterprise Agent Platform Model Registry, e um ou mais endpoints dedicados são criados para disponibilizar previsões. Para avaliar o resultado, localize o endpoint, envie uma solicitação de previsão e, por fim, avalie.

Para avaliar o resultado, faça o seguinte:

Envie a seguinte solicitação GET para conferir o status do job de ajuste.

curl -X GET \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT_ID/locations/us-central1/tuningJobs/YOUR_JOB_ID

Substitua:

YOUR_PROJECT_ID pelo código do projeto;
YOUR_JOB_ID pelo ID do job.

Os jobs concluídos mostram um campo endpoint aninhado dentro do objeto tunedModel. Extraia o ENDPOINT_ID do final da string de caminho retornada (por exemplo, projects/.../endpoints/YOUR_ENDPOINT_ID). Anote o ID do endpoint.

Confira se o job de ajuste foi concluído com sucesso, porque o endpoint não fica disponível enquanto o job de ajuste ainda está em execução ou falhou. Se o campo endpoint estiver faltando, depure o job de ajuste visualizando as chaves state ou error dele.

Crie uma solicitação de payload JSON chamada generate_content_request.json que contenha seu comando:

{
  "contents": {
    "role": "user",
    "parts": [
      {
        "text": "hi, say something"
      }
    ]
  }
}

Use o exemplo de POST a seguir para enviar uma solicitação de previsão:

curl -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  https://us-central1-aiplatform.googleapis.com/v1beta1/projects/YOUR_PROJECT_ID/locations/us-central1/endpoints/YOUR_ENDPOINT_ID:generateContent \
  -d @generate_content_request.json

Substitua:

YOUR_PROJECT_ID: o ID do projeto.
YOUR_JOB_ID: o ID do job.
ENDPOINT_ID: o ID do endpoint.

Para avaliar os resultados, faça o seguinte:
1. Execute um conjunto de teste de validação cruzada usando comandos não incluídos nos dados de treinamento com o modelo recém-destilado.
2. Compare as saídas com o modelo gemini-2.5-flash de base para medir as melhorias na qualidade.
3. Compare as respostas com o modelo gemini-3.1-pro para determinar o quanto o estudante se aproxima do raciocínio do professor.

Limitações

A tabela a seguir descreve as limitações da destilação:

A destilação está sujeita às seguintes limitações:

Limitações do modelo:
- Consulte os modelos compatíveis.
Restrições de conjuntos de dados:
- Limites de volume:
  - A capacidade máxima do conjunto de treinamento é de 50.000 exemplos.
  - O tamanho do arquivo JSONL de origem não pode exceder 1 GB.
- Especificações da janela de contexto:
  - O serviço acomoda um máximo de 8.000 tokens de entrada por entrada. Os jobs de destilação são encerrados se mais de 10% das entradas fornecidas excederem esse limite estabelecido.
  - A amostragem do modelo professor é limitada a uma saída máxima de 24.000 tokens. Quando o modelo do professor gera mais de 24.000 tokens, o conteúdo é truncado nesse limite, o que pode afetar o desempenho do modelo do estudante.
- Modalidade: limitada a dados baseados em texto. Não há suporte para entradas multimodais, incluindo vídeo, imagens ou chamadas de função.
Limitações de configuração e hiperparâmetros
- Siga estas restrições ao definir o distillationSpec e os hiperparâmetros associados:
  - Criptografia: a CMEK não está disponível para tarefas de destilação que envolvem modelos próprios do Google.
  - epochCount: restrito a um valor inteiro entre 1 e 100.
  - learningRateMultiplier: os valores precisam estar no intervalo de usar pontos flutuantes de 0.25 a 4.0.
Destilação em uma etapa: a amostragem do modelo professor e o ajuste do modelo estudante são executados em uma única chamada de API. Se você tiver uma grande quantidade de dados para amostragem, os mesmos dados precisarão ser amostrados novamente no ajuste a seguir.

Acesso

Se quiser testar o serviço de destilação do Gemini, entre em contato com nossa equipe do serviço de ajuste em cloud-ai-tuning-service-support@google.com para solicitar acesso e inclusão de projetos na lista de permissões.

Para garantir o desempenho ideal e o gerenciamento de recursos, recomendamos criar um projeto Google Cloud dedicado para suas tarefas de destilação. Ao entrar em contato com nossa equipe, forneça o ID do projeto ou o número do projeto para acelerar o processo de inclusão na lista de permissões.

Políticas de cota e acesso

As seguintes políticas de cota e acesso estão em vigor:

Capacidade: os projetos adicionados recentemente à nossa lista de permissões são provisionados com uma cota simultânea padrão de 4. Para evitar disputas de recursos, recomendamos usar um projeto separado em vez de um que já esteja executando outros jobs de ajuste do Gemini.
Período de acesso: o acesso é concedido por um período inicial de 30 dias.

Serviço de destilação do Gemini Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos compatíveis

Casos de uso adequados

Pré-requisitos e configuração do projeto

Preparação do conjunto de dados

Requisitos do conjunto de dados

Práticas recomendadas

Configurar a solicitação de destilação

Configurar o comportamento de geração do modelo de professor

Definir os hiperparâmetros de destilação

Iniciar o job de destilação

Criar um job de destilação

Fazer ajustes contínuos

Monitorar o job de destilação

Cancele o job de destilação

Como avaliar o resultado

Limitações

Acesso

Políticas de cota e acesso

Serviço de destilação do Gemini