O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Solução de problemas com serviços de machine learning

Nesta página, descrevemos as etapas de solução de problemas que podem ser úteis se você tiver problemas ao usar serviços de aprendizado de máquina na plataforma de agente do Gemini Enterprise.

Para filtrar o conteúdo desta página, clique em um tópico:

Solução de problemas com o Cloud Assist Investigations

Ao conectar a Agent Platform com outros produtos Google Cloud , as investigações do Cloud Assist podem ser úteis para resolver problemas complexos de integração.

Ative e configure a API Cloud Assist Investigations.
Determine quais dos produtos de que o nome da sua carga de trabalho depende aparecem na lista de produtos compatíveis.
Crie uma investigação e descreva os sintomas em detalhes. Não se esqueça de mencionar todos os recursos de que o pipeline depende.
À medida que você digita, a caixa de diálogo sugere recursos para adicionar à investigação. Revise essa lista e adicione os recursos relevantes antes de executar a investigação.

Modelos de AutoML

Nesta seção, descrevemos as etapas de solução de problemas que podem ser úteis se você tiver problemas com o AutoML.

Faltam rótulos no conjunto de teste, validação ou treinamento

Problema

Ao usar a divisão de dados padrão ao treinar um modelo de classificação do AutoML, a Agent Platform pode atribuir poucas instâncias de uma classe a um conjunto específico (teste, validação ou treinamento), o que causa um erro durante o treinamento. Esse problema ocorre com mais frequência quando você tem classes desequilibradas ou uma pequena quantidade de dados de treinamento.

Solução

Para resolver esse problema, adicione mais dados de treinamento, divida manualmente os dados para atribuir classes suficientes a cada conjunto ou remova os rótulos menos frequentes do conjunto de dados. Para mais informações, consulte Sobre divisões de dados para modelos do AutoML.

Vertex AI Studio

Ao trabalhar com o Vertex AI Studio, você pode receber os seguintes erros:

A tentativa de ajustar um modelo retorna `Internal error encountered`.

Problema

Você vai encontrar um erro Internal error encountered ao tentar ajustar um modelo.

Solução

Execute o comando cURL a seguir para criar um conjunto de dados vazio da Plataforma de Agentes do Gemini Enterprise. Verifique se você configurou o ID do projeto no comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Após a conclusão do comando, aguarde cinco minutos e tente ajustar o modelo novamente.

Código do erro: 429

Problema

Você vai encontrar o seguinte erro:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Solução

Tente novamente mais tarde com espera. Se ainda houver erros, entre em contato com o suporte da Gemini Enterprise Agent Platform.

Código do erro: 410

Problema

Você vai encontrar o seguinte erro:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Solução

Consulte a Visão geral da autenticação para saber mais.

Código do erro: 403

Problema

Você vai encontrar o seguinte erro:

403: Permission denied.

Solução

Verifique se a conta que acessa a API tem as permissões corretas.

Pipelines da Agent Platform

Nesta seção, descrevemos etapas de solução de problemas que podem ser úteis se você tiver problemas com os pipelines do Agent Platform.

Você não tem permissão para atuar como conta de serviço

Problema

Ao executar o fluxo de trabalho dos pipelines da Gemini Enterprise Agent Platform, talvez você encontre a seguinte mensagem de erro:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Solução

Esse erro significa que a conta de serviço que executa o fluxo de trabalho não tem acesso aos recursos necessários.

Para resolver esse problema, conceda ao usuário a permissão iam.serviceAccounts.actAs na conta de serviço.

Erro: hashes de pacotes Python não correspondem no componente Pipelines da Gemini Enterprise Agent Platform

Problema

Ao executar o fluxo de trabalho dos pipelines da Gemini Enterprise Agent Platform, talvez você encontre o seguinte erro:

ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.

Isso é causado por conflitos de versão entre as bibliotecas Python na imagem de base para o componente de pipelines da Gemini Enterprise Agent Platform e aquelas que o pipeline tenta instalar.

Solução

Crie todas as dependências listadas com esta mensagem na imagem usada pelo componente "Pipelines da Gemini Enterprise Agent Platform".

Error `Internal error happened`

Problema

Se o pipeline falhar com uma mensagem Internal error happened, verifique a Análise de registros e pesquise o nome do pipeline. Você receberá este erro:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Isso significa que o peering de VPC para a Agent Platform inclui um intervalo de IP que foi excluído.

Solução

Para resolver esse problema, atualize o peering de VPC usando o comando update e inclua intervalos de IP válidos.

O escopo do OAuth ou o público-alvo do token de ID é inválido

Problema

Ao executar o fluxo de trabalho dos pipelines da Gemini Enterprise Agent Platform, você encontra a seguinte mensagem de erro:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Solução

Isso significa que você não forneceu credenciais em um dos componentes do pipeline ou não usou ai_platform.init() para definir credenciais.

Para resolver esse problema, defina as credenciais do componente de pipeline relevante ou defina as credenciais do ambiente e use ai_platform.init() no início do código.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Os componentes do Agent Platform Pipelines exigem mais espaço em disco do que 100 GB

Problema

O espaço em disco padrão alocado para componentes do Agent Platform Pipelines é de 100 GB, e não é possível aumentar o espaço em disco. Consulte o Issue Tracker público para saber mais sobre esse problema.

Solução

Para que um componente use mais de 100 GB de espaço em disco, converta-o em um job personalizado usando o método components. Com esse operador, é possível atribuir o tipo de máquina e o tamanho do disco que o componente usa.

Para conferir um exemplo de como usar esse operador, consulte Pipelines do Agent Platform: treinamento personalizado com componentes de Google Cloud pipeline pré-criados, na seção Converter o componente em um job personalizado do Agent Platform.

Problemas de rede da Agent Platform

Esta seção descreve etapas de solução de problemas que podem ser úteis se você tiver problemas com redes na Agent Platform.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

As cargas de trabalho não podem acessar endpoints na sua rede VPC ao usar intervalos de IP públicos de uso privado para a Gemini Enterprise Agent Platform

Problema

Os intervalos de IP públicos usados de modo privado não são importados por padrão.

Solução

Para usar intervalos de IP públicos de uso particular, ative a importação deles.

`com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project`

Problema

Você recebe erros do tipo com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project ao executar cargas de trabalho ou implantar endpoints.

Isso acontece quando você muda as reservas de acesso a serviços particulares para suas cargas de trabalho. Os intervalos excluídos podem não ter sido registrados com a API Agent Platform.

Solução

Execute gcloud services vpc-peerings update para servicenetworking depois de atualizar as alocações de acesso a serviços particulares.

O pipeline ou o job não pode acessar endpoints na rede VPC com peering

Problema

O pipeline da Gemini Enterprise Agent Platform expira quando tenta se conectar a recursos na rede VPC.

Solução

Para resolver o problema, faça o seguinte:

Verifique se você concluiu todas as etapas em Configurar o peering de rede VPC.
Revise a configuração da sua rede VPC com peering. Verifique se a rede importa rotas do intervalo de rede de serviço correto enquanto o job está em execução.

Acessar o peering de rede VPC
Verifique se você tem uma regra de firewall que permite conexões desse intervalo com o destino na sua rede.
Se a conexão de peering não importar nenhuma rota enquanto o job estiver em execução, isso significa que a configuração de rede de serviço não está sendo usada. Isso ocorre provavelmente porque você concluiu a configuração de peering com uma rede diferente da rede padrão. Se esse for o caso, especifique sua rede ao iniciar um job. Use o nome de rede totalmente qualificado no seguinte formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

Para mais informações, consulte Visão geral de rotas.

O pipeline ou o job não pode acessar para alcançar endpoints em outras redes além da sua rede

Problema

O pipeline ou o job não consegue acessar endpoints em redes fora da rede.

Solução

Por padrão, sua configuração de peering exporta apenas rotas para as sub-redes locais na VPC.

Além disso, o peering transitivo não é aceito e apenas redes com peering direto podem se comunicar.

Para permitir que a Gemini Enterprise Agent Platform se conecte pela sua rede e alcance endpoints em outras redes, exporte as rotas de rede para a conexão de peering. Edite a configuração da rede VPC com peering e ative Export custom routes.

Acessar o peering de rede VPC

Como o peering transitivo não é compatível, a plataforma de agentes do Gemini Enterprise não aprende rotas para outras redes e serviços com peering, mesmo com Export Custom Routes ativado. Para informações sobre soluções alternativas, consulte Como ampliar a acessibilidade da rede dos pipelines do Agent Platform.

`No route to host` sem conflitos de rota evidentes no console do Google Cloud

Problema

As únicas rotas que podem ser vistas no console do Google Cloud são aquelas conhecidas pela sua própria VPC, bem como os intervalos reservados quando você conclui a configuração de peering de rede VPC.

Em raras ocasiões, um job da Gemini Enterprise Agent Platform pode gerar uma reclamação no route to host ao tentar acessar um endereço IP que sua VPC está exportando para a rede da Gemini Enterprise Agent Platform.

Isso pode ter acontecido porque os jobs da Gemini Enterprise Agent Platform são executados em um namespace de rede em um cluster do GKE gerenciado com um intervalo de IP em conflito com o IP de destino. Consulte Princípios básicos de rede do GKE para mais detalhes.

Nessas condições, a carga de trabalho tenta se conectar ao IP no próprio namespace de rede e gera um erro se não conseguir alcançá-lo.

Solução

Crie a carga de trabalho para retornar os endereços IP de namespace local dela e confirme se não há conflito com as rotas que você está exportando pela conexão de peering. Se houver um conflito, transmita uma lista de reservedIpRanges[] nos parâmetros do job que não se sobreponham a nenhum intervalo na rede VPC. O job usa esses intervalos para os endereços IP internos da carga de trabalho.

`RANGES_EXHAUSTED`, `RANGES_NOT_RESERVED`

Problema

Os erros na forma RANGES_EXHAUSTED e RANGES_NOT_RESERVED e RANGES_DELETED_LATER indicam um problema com a configuração de peering da rede VPC subjacente. Esses são erros de rede, não do serviço da Agent Platform.

Solução

Ao se deparar com um erro RANGES_EXHAUSTED, primeiro considere se a reclamação é válida.

Consulte a tabela Recomendações de sub-rede para garantir que a reserva de IP para o acesso a serviços particulares seja ampla o suficiente para acomodar sua carga de trabalho.
Acesse o Network Analyzer no console do Cloud e procure insights do tipo "Resumo da alocação de endereços IP" na rede VPC. Se esses valores indicarem que a alocação está em 100% ou perto disso, siga uma destas etapas:
- Adicione um novo período à reserva ou estenda o período atual. Todos os intervalos precisam ser contíguos.
- Se você tiver intervalos de IP não contíguos alocados, mas não consumidos, inicie novas cargas de trabalho da Gemini Enterprise Agent Platform em uma região diferente.
Considere também o número máximo de jobs paralelos que podem ser executados com uma reserva de um determinado tamanho.

Para mais informações, consulte Erros de validação da infraestrutura de serviços.

Se o erro continuar, entre em contato com a equipe de suporte.

`Router status is temporarily unavailable`

Problema

Ao iniciar o Agent Platform Pipelines, você recebe uma mensagem de erro semelhante a esta:

Router status is temporarily unavailable. Please try again later

Solução

A mensagem de erro indica que essa é uma condição temporária. Tente iniciar os pipelines do Agent Platform novamente.

Se o erro continuar, entre em contato com a equipe de suporte.

As cargas de trabalho não conseguem resolver os nomes de host para domínios DNS na sua VPC.

Problema

As cargas de trabalho da Gemini Enterprise Agent Platform não conseguem se conectar aos nomes de host configurados na sua VPC. Você já confirmou que esses nomes de host estão acessíveis para clientes na sua VPC.

Isso ocorre porque as cargas de trabalho são executadas em um projeto gerenciado pelo Google. A VPC nesse ambiente gerenciado precisa ser pareada com a sua para consumir qualquer um dos seus recursos de rede. Além disso, todas as zonas de DNS que essas cargas de trabalho precisam acessar precisam ser compartilhadas especificamente com a VPC gerenciada pelo Google.

Solução

Verifique se você configurou o peering de rede VPC para a Gemini Enterprise Agent Platform na sua rede VPC.
Conclua as etapas para compartilhar sua zona de DNS particular com a rede de produtores da Gemini Enterprise Agent Platform. O procedimento depende do seu caso de uso:
- Fazer peering de DNS com o Acesso privado do Google
- DNS de peering com o Private Service Connect
Verifique se as cargas de trabalho da Gemini Enterprise Agent Platform estão sendo iniciadas com a flag --network especificando sua rede VPC. Isso permite que eles sejam executados na rede gerenciada pelo Google e acessem as zonas DNS que você compartilhou.
Ative a geração de registros de DNS na política do servidor DNS, reproduza o problema e execute outro teste. Se a resposta de DNS da carga de trabalho for bem-sucedida, um filtro do Cloud Logging para resource.type="dns_query" vai mostrar entradas deste formulário:
```
"resource": {
  "type": "dns_query",
  "labels": {
    "location": REGION,
    "project_id": PROJECT_ID,
    "source_type": "peering-zone",
    "target_name": "QUERY_TARGET,
    "target_type": "forwarding-zone"
  }
}
```
Confirme se uma consulta DNS de uma instância na mesma sub-rede pode resolver nomes de host usando seu servidor DNS.
Se o servidor DNS não estiver em Google Cloud, verifique se as regras de firewall remoto permitem conexões de 35.199.192.0/19.
Execute um teste de conectividade da instância de teste para a porta 53/UDP no endereço IP do servidor DNS. Por exemplo, se o caminho levar a uma regra de encaminhamento, verifique o seguinte:
- Se for uma regra de encaminhamento regional, ela precisará estar na mesma região que o cliente.
- Ele aceita conexões em 53/UDP e as encaminha para o servidor DNS correto.

Problemas de conectividade causados por comportamentos do lado do cliente

Se você tiver problemas de conectividade ao tentar usar as APIs Google Cloud, a causa raiz pode estar no lado do cliente. Esta seção sugere soluções do lado do cliente que podem melhorar sua experiência.

Redefinições de conexão e pacotes descartados

Problema

Ao tentar usar as APIs Google Cloud , você vai notar redefinições de conexão e pacotes descartados.

Solução

Para resolver esse problema, considere o seguinte:

Para tráfego de alto volume de transações com requisitos de baixa latência, considere se algum problema conhecido com as placas de linha de clientes locais pode causar redefinição de conexões TCP ou descarte de pacotes.
Considere se algum serviço do lado do cliente no caminho da solicitação usa iptables. Eles podem incluir clusters do Kubernetes ou alguns firewalls com estado e dispositivos NAT. Por padrão, o subsistema de rastreamento de conexão (conntrack) do Linux segue estritamente as especificações do protocolo TCP e, por exemplo, descarta pacotes TCP fora de sequência. Para desativar esse comportamento, ative o parâmetro do kernel do Linux net.netfilter.nf_conntrack_tcp_be_liberal ou o equivalente.

Conexões incompletas

Problema

Ao tentar usar as APIs Google Cloud , você terá conexões incompletas.

Solução

Para resolver esse problema, considere o seguinte:

Quando o caminho de encaminhamento tiver várias rotas de volta ao cliente, entenda o conceito de encaminhamento de caminho inverso. Desative esse comportamento se suspeitar que ele está bloqueando conexões.
Para conexões com balanceamento de carga, considere se as regras de firewall de entrada permitem pacotes de resposta para os dois balanceadores de carga.

Outros problemas de conexão não relacionados à API

Para ajudar a resolver problemas de conexão que não são de API, considere o seguinte:

Se houver proxies no caminho da solicitação, considere se eles podem causar algum dos problemas que você está enfrentando. Leia a documentação e resolva problemas com o proxy quando houver latência inexplicável, conexões interrompidas, substituições de DNS, bloqueios de origem cruzada e outros problemas semelhantes.
Principalmente ao processar respostas 429 de APIs Google Cloud , a lógica do lado do cliente que tenta novamente a conexão imediatamente pode piorar o problema. Entenda e implemente a espera exponencial ao implementar novas tentativas.

Inferência da Agent Platform

Nesta seção, descrevemos etapas de solução de problemas que podem ser úteis se você tiver problemas com a inferência do Agent Platform.

Erro de cota de lote excedida

Problema

Ao executar jobs de inferência em lote, você recebe um erro como o seguinte.

Quota exhausted. Please reach out to ai-platform-unified-feedback@google.com for
batch prediction quota increase.

Um job de previsão em lote da plataforma de agentes do Gemini Enterprise consome a cota do projeto de locatário de previsão em lote. Para mais informações sobre como solicitar um aumento de cota, consulte Cotas e limites da plataforma de agentes do Gemini Enterprise.

Erro de novas tentativas excedido

Problema

Ao executar jobs de inferência em lote, você recebe um erro como o seguinte indicando que a máquina que executa o modelo personalizado pode não ser capaz de concluir as inferências dentro do limite de tempo.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Isso pode acontecer quando o serviço de inferência do Agent Platform se registra no serviço do Google Front End, que encaminha as conexões do cliente para a API Inference do Agent Platform.

O serviço do Google Front End expira a conexão e retorna um código de resposta HTTP 500 ao cliente se não receber uma resposta da API em 10 minutos.

Solução

Para resolver esse problema, tente uma das seguintes opções:

Aumente os nós de computação ou mude o tipo de máquina.
Crie o contêiner de inferência para enviar códigos de resposta HTTP 102 periódicos. Isso reinicia o timer de 10 minutos no serviço do Google Front End.

O projeto já está vinculado à VPC

Problema

Ao implantar um endpoint, talvez você veja uma mensagem de erro como a seguinte, que indica que os endpoints do Agent Platform já usaram uma rede de nuvem privada virtual e os recursos não foram limpos adequadamente.

Currently only one VPC network per user project is supported. Your project is
already linked to
"projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Agent Platform deployment
resources, delete all endpoint resources, and then retry creating resources in
30 mins.

Solução

Para resolver esse problema, tente executar este comando no Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

Isso desconecta manualmente sua rede VPC antiga da VPC do Service Networking.

Falha inesperada na implantação ou exclusão do endpoint

Problema

Uma implantação de modelo falha inesperadamente, um endpoint é excluído ou um modelo implantado anteriormente é removido.

Sua conta de faturamento pode ser inválida. Se ela permanecer inválida por muito tempo, alguns recursos poderão ser removidos dos projetos associados a ela. Por exemplo, seus endpoints e modelos podem ser excluídos. Os recursos removidos não são recuperáveis.

Solução

Para resolver esse problema, tente o seguinte:

Verifique o status de faturamento dos seus projetos.
Entre em contato com o suporte do Cloud Billing para pedir ajuda com dúvidas sobre faturamento.

Para mais informações, consulte Perguntas sobre faturamento.

Problemas com a conta de serviço personalizada da Agent Platform

Esta seção descreve etapas de solução de problemas que podem ser úteis se você tiver problemas com contas de serviço.

A implantação do modelo falha com a conta de serviço `serviceAccountAdmin` erro

Problema

A implantação do modelo falha com um erro como este:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Solução

Esse erro significa que sua conta de serviço personalizada pode não ter sido configurada corretamente. Para criar uma conta de serviço personalizada com as permissões de IAM corretas, consulte Usar uma conta de serviço personalizada.

Não foi possível buscar o token de identidade ao usar a conta de serviço personalizada

Problema

Ao usar uma conta de serviço personalizada, os jobs de treinamento executados em uma única réplica não conseguem alcançar o serviço de metadados do Compute Engine necessário para recuperar um token.

Você verá um erro semelhante a este:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Solução

Para buscar o token de identidade com uma conta de serviço personalizada, use iamcredentials.googleapis.com.

Modelos treinados e personalizados

Nesta seção, descrevemos as etapas de solução de problemas que podem ser úteis se você tiver problemas com modelos treinados de maneira personalizada.

Problemas de treinamento personalizados

Os problemas a seguir podem ocorrer durante o treinamento personalizado. Os problemas se aplicam a recursos CustomJob e HyperparameterTuningJob, incluindo aqueles criados por recursos TrainingPipeline.

Código do erro: 400

Problema

Você vai encontrar o seguinte erro:

400 Machine type MACHINE_TYPE is not supported.

Essa mensagem de erro pode aparecer se o tipo de máquina selecionado não for compatível com o treinamento da Gemini Enterprise Agent Platform ou se um recurso específico não estiver disponível na região selecionada.

Solução

Use apenas os tipos de máquina disponíveis nas regiões adequadas.

A réplica saiu com um código de status diferente de zero

Problema

Durante o treinamento distribuído, um erro de qualquer worker provoca falha no treinamento.

Solução

Para verificar o stack trace do worker, visualize os registros de treinamento personalizados no Google Cloud console.

Veja os outros tópicos para solucionar problemas comuns e crie um novo recurso CustomJob, HyperparameterTuningJob ou TrainingPipeline. Em muitos casos, os códigos de erro são causados por problemas no código de treinamento, não pelo serviço da Agent Platform. Para determinar se esse é o caso, execute o código de treinamento na máquina local ou no Compute Engine.

A réplica está sem memória

Problema

Pode ocorrer um erro se uma instância de máquina virtual (VM) de treinamento ficar sem memória durante o treinamento.

Solução

Veja o uso da memória das suas VMs de treinamento no console Google Cloud .

Mesmo quando você receber esse erro, talvez não veja 100% do uso da memória na VM, porque os serviços além do aplicativo de treinamento em execução na VM também consomem recursos. Para tipos de máquinas com menos memória, outros serviços podem consumir uma porcentagem relativamente grande de memória. Por exemplo, em uma VM n1-standard-4, os serviços podem consumir até 40% da memória.

Otimize o consumo de memória do aplicativo de treinamento ou escolha um tipo de máquina maior com mais memória.

Recursos insuficientes em uma região

Problema

Você encontrou um problema de estoque esgotado em uma região.

Solução

A Agent Platform treina seus modelos usando recursos do Compute Engine. A Agent Platform não poderá programar sua carga de trabalho se o Compute Engine tiver capacidade para determinada CPU ou GPU em uma região. Esse problema não está relacionado à sua cota do projeto.

Ao alcançar a capacidade do Compute Engine, o Agent Platform tenta automaticamente o CustomJob ou o HyperparameterTuningJob até três vezes. O job falhará caso todas as novas tentativas falhem.

Uma descargas geralmente ocorre quando você usa GPUs. Se você encontrar esse erro ao usar GPUs, tente mudar para um tipo de GPU diferente. Se for possível usar outra região, faça o treinamento em uma região diferente.

Erro de permissão ao acessar outro serviço do Google Cloud

Se você encontrar um erro de permissão ao acessar outro serviço do Google Cloud pelo código de treinamento (por exemplo, google.api_core.exceptions.PermissionDenied: 403), talvez haja um dos seguintes problemas:

Problema

O agente de serviço ou a conta de serviço que executa o código (o agente de serviço de código personalizado da Gemini Enterprise Agent Platform do projeto ou uma conta de serviço personalizada) não tem a permissão necessária.

Solução

Saiba como conceder permissões ao agente de serviço de código personalizado da Gemini Enterprise Agent Platform ou configurar uma conta de serviço personalizada com as permissões necessárias.
Problema

O agente ou conta de serviço que executa o código tem a permissão necessária, mas o código está tentando acessar um recurso no projeto errado. É provável que esse seja o problema se a mensagem de erro referenciar um ID de projeto que termine com -tp.

Solução

Devido à maneira como a Agent Platform executa o código de treinamento, esse problema pode ocorrer inadvertidamente se você não especificar explicitamente um ID do projeto ou número de projeto no código.

Saiba como corrigir esse problema especificando um ID ou número de projeto.
Problema

Seu job do Vertex AI Training é executado com sucesso com dados locais, mas não com dados do Cloud Storage.

Solução

Adicione a permissão storage.buckets.create à sua função de agente de serviço de código personalizado da Gemini Enterprise Agent Platform para o projeto.

Saiba como corrigir esse problema adicionando papéis específicos aos agentes de serviço da plataforma de agentes.

Problemas de desempenho ao usar o Cloud Storage FUSE

Problema

Os jobs do Cloud Storage FUSE estão sendo executados lentamente.

Solução

Consulte "Diretrizes de otimização de performance" em Usar o Cloud Storage como um sistema de arquivos ativado.

`pip install` falha ao usar o KFP com o VPC Service Controls

Problema

Você vai encontrar o seguinte erro:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

Solução

O perímetro de serviço do VPC Service Controls bloqueia o acesso da Agent Platform a APIs e serviços de terceiros na Internet. Para instalar os pacotes, use packageUris para instalar as dependências dos buckets do Cloud Storage. Para uma discussão geral sobre o uso dessa técnica, consulte "Usar contêineres personalizados" em VPC Service Controls com a Agent Platform.

Erro interno

Problema

O treinamento falhou devido a um erro no sistema.

Solução

O problema pode ser temporário; tente reenviar CustomJob, HyperparameterTuningJob ou TrainingPipeline. Se o erro persistir, entre em contato com a equipe de suporte.

Código de erro 500 ao usar uma imagem de contêiner personalizada

Problema

Você vê um erro 500 nos registros.

Solução

Esse tipo de erro provavelmente é um problema com a imagem do contêiner personalizado e não um erro da Agent Platform.

A conta de serviço não pode acessar o bucket do Cloud Storage ao implantar em um endpoint

Problema

Quando você tenta implantar um modelo em um endpoint e sua conta de serviço não tem acesso storage.objects.list ao bucket do Cloud Storage relacionado, você poderá encontrar o seguinte erro:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

Por padrão, o contêiner personalizado que implanta seu modelo usa uma conta de serviço que não tem acesso ao seu bucket do Cloud Storage.

Solução

Para resolver isso, tente uma das seguintes opções:

Copie o arquivo que você está tentando acessar do contêiner em artefatos do modelo ao fazer upload do modelo. A Gemini Enterprise Agent Platform vai copiá-la para um local a que a conta de serviço padrão tenha acesso, semelhante a todos os outros artefatos de modelo.
Copie o arquivo no contêiner como parte do processo de criação dele.
Especifique uma conta de serviço personalizada.

Pesquisa de arquitetura neural da Agent Platform

Problemas conhecidos

Depois de cancelar o job NAS, o job principal (o pai) é interrompido, mas alguns testes filhos continuam mostrando um estado Running. Ignore o estado do teste filho que mostra Em execução nesse caso. Os testes foram interrompidos, mas a interface continua mostrando o estado Running. Enquanto o job principal tiver parado, você não vai receber cobranças extras.
Depois de relatar os prêmios no treinador, aguarde (em suspensão) por 10 minutos antes dos jobs de teste serem encerrados.
Ao usar o Cloud Shell para executar TensorBoard, o link de saída gerado pode não funcionar. Nesse caso, anote o número da porta, use a ferramenta Visualização da Web e selecione o número da porta correto para exibir os gráficos.

Como acessar a ferramenta Web Preview:
Se você vir mensagens de erro como as apresentadas a seguir nos registros do Trainer:
```
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
```
Use um computador com mais RAM, porque uma condição OOM está causando esse erro.
Se o treinador personalizado não conseguir encontrar a FLAG job-dir do diretório de jobs, importe job_dir com um sublinhado em vez de um hífen. Uma observação no tutorial-1 explica isso.
Erro de NaN durante o treinamento Pode haver erros de NaN no job de treinamento, como NaN : Tensor had NaN values. A taxa de aprendizado pode ser grande demais para a arquitetura sugerida. Para ver mais informações, consulte Erros relacionados a falta de memória (OOM) e taxa de aprendizado.
Erro de falta de memória durante o treinamento Pode haver erros de falta de memória (OOM, na sigla em inglês) no job de treinamento. O tamanho do lote pode ser muito grande para a memória do acelerador. Para ver mais informações, consulte Erros relacionados a falta de memória (OOM) e taxa de aprendizado.
Dados do job do controlador de seleção de modelos de tarefa de proxy No caso raro de o job do controlador de seleção de modelo de tarefa de proxy ser encerrado, retome o job seguindo estas etapas.
Dados do job do controlador de pesquisa de tarefa de proxy No caso raro de o job do controlador de pesquisa de tarefa de proxy ser encerrado, você pode retomar o job seguindo estas etapas. ,
A conta de serviço não tem permissão para acessar o Artifact Registry ou o bucket. Se você receber um erro como Agent Platform Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas ou um erro semelhante para acesso ao bucket, atribua a essa conta de serviço um papel de editor de armazenamento no projeto.

Feature Store da pesquisa de arquitetura neural da Agent Platform

Esta seção descreve etapas de solução de problemas que podem ser úteis se você tiver problemas com o Feature Store de pesquisa de arquitetura neural da Agent Platform.

Erro `Resource not found` ao enviar uma solicitação de ingestão de streaming ou de exibição on-line

Problema

Depois de configurar um featurestore, um tipo de entidade ou um recurso de recurso, há um atraso até que esses recursos sejam propagados para o serviço FeaturestoreOnlineServingService. Às vezes, essa propagação atrasada pode causar um erro resource not found quando você envia uma ingestão de streaming ou solicitação de exibição on-line imediatamente após criar um recurso.

Solução

Se você receber esse erro, aguarde alguns minutos e tente sua solicitação novamente.

Processamento em lote bem-sucedido para recursos recém-criados, mas a solicitação de exibição on-line retorna valores vazios

Problema

Somente para recursos recém-criados, há um atraso até que esses recursos sejam propagados para o serviço FeaturestoreOnlineServingService. Os recursos e os valores existem, mas levam algum tempo para serem propagados. Isso pode fazer com que sua solicitação de disponibilização on-line retorne valores vazios.

Solução

Se você encontrar essa inconsistência, aguarde alguns minutos e tente sua solicitação de exibição on-line novamente.

O uso da CPU é alto para um nó de exibição on-line

Problema

O uso da CPU para um nó de exibição on-line é alto.

Solução

Para atenuar esse problema, aumente o número de nós de exibição on-line aumentando manualmente a contagem de nós ou ativando o escalonamento automático. Mesmo que o escalonamento automático esteja ativado, o Vertex AI Feature Store precisa de tempo para reequilibrar os dados quando os nós são adicionados ou removidos. Para informações sobre como visualizar métricas de distribuição do valor do atributo ao longo do tempo, consulte Ver métricas do valor do atributo.

O uso da CPU é alto para o melhor nó de exibição on-line

Problema

Se a utilização da CPU for alta para o nó mais quente, aumente o número de nós de exibição ou altere o padrão de acesso da entidade para pseudoaleatório.

Solução

Definir o padrão de acesso à entidade como pseudoaleatório diminui a alta utilização da CPU resultante do acesso frequente de entidades localizadas próximas umas das outras no featurestore. Se nenhuma solução for eficaz, implemente um cache do lado do cliente para evitar acessar as mesmas entidades repetidamente.

A latência da exibição on-line é alta quando o QPS é baixo

Problema

O período de inatividade ou baixa atividade com QPS baixa pode resultar na expiração de alguns caches do lado do servidor. Isso pode resultar em alta latência quando o tráfego para nós de exibição on-line for retomado com QPS regular ou maior.

Solução

Para atenuar esse problema, você precisa manter a conexão ativa enviando tráfego artificial de pelo menos 5 QPS para o featurestore.

O job de ingestão em lote falha após seis horas

Problema

O job de ingestão em lote pode falhar porque a sessão de leitura expira após seis horas.

Solução

Para evitar o tempo limite, aumente o número de workers para concluir o job de ingestão dentro do limite de seis horas.

Erro `Resource exceeded` ao exportar valores de atributos

Problema

A exportação de um grande volume de dados pode falhar com um erro de recurso excedido se o job de exportação exceder a cota interna.

Solução

Para evitar esse erro, configure os parâmetros de intervalo de tempo, start_time e end_time, para processar quantidades menores de dados por vez. Consulte Exportação completa para mais informações.

Vizier da pesquisa de arquitetura neural da Agent Platform

Ao usar o Vizier da Pesquisa de arquitetura neural do Agent Platform, você pode ter os problemas a seguir.

Erro interno

Problema

O erro interno ocorre quando há um erro do sistema.

Solução

Pode ser transitório. Tente reenviar a solicitação e, se o erro persistir, entre em contato com o suporte.

Erros de permissões ao usar papéis de conta de serviço com a pesquisa de arquitetura neural do Agent Platform

Problema

Você recebe erros gerais de permissão ao usar papéis de conta de serviço com a pesquisa de arquitetura neural do Agent Platform.

Esses erros podem aparecer no Cloud Logging nos registros de componentes do produto ou de auditoria. Elas também podem aparecer em qualquer combinação dos projetos afetados.

Esses problemas podem ser causados por um ou ambos os motivos a seguir:

Uso da função Service Account Token Creator quando a função Service Account User deveria ter sido usada ou vice-versa. Esses papéis concedem permissões diferentes em uma conta de serviço e não são intercambiáveis. Para saber mais sobre as diferenças entre os papéis Service Account Token Creator e Service Account User, consulte Papéis da conta de serviço.
Você concedeu permissões de uma conta de serviço em vários projetos, o que não é permitido por padrão.

Solução

Para resolver o problema, tente uma ou mais das seguintes opções:

Determine se a função Service Account Token Creator ou Service Account User é necessária. Para saber mais, leia a documentação do IAM sobre os serviços da Pesquisa de arquitetura neural do Agent Platform que você está usando, bem como outras integrações de produtos.
Se você concedeu permissões a uma conta de serviço em vários projetos, ative a vinculação de contas de serviço entre projetos garantindo que iam.disableCrossProjectServiceAccountUsage. não é aplicada. Para garantir que iam.disableCrossProjectServiceAccountUsage não seja aplicado, execute o seguinte comando:
```
gcloud resource-manager org-policies disable-enforce \
  iam.disableCrossProjectServiceAccountUsage \
  --project=PROJECT_ID
```

Solução de problemas com serviços de machine learning Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Solução de problemas com o Cloud Assist Investigations

Modelos de AutoML

Faltam rótulos no conjunto de teste, validação ou treinamento

Vertex AI Studio

A tentativa de ajustar um modelo retorna Internal error encountered.

Código do erro: 429

Código do erro: 410

Código do erro: 403

Pipelines da Agent Platform

Você não tem permissão para atuar como conta de serviço

Erro: hashes de pacotes Python não correspondem no componente Pipelines da Gemini Enterprise Agent Platform

Error Internal error happened

O escopo do OAuth ou o público-alvo do token de ID é inválido

Os componentes do Agent Platform Pipelines exigem mais espaço em disco do que 100 GB

Problemas de rede da Agent Platform

As cargas de trabalho não podem acessar endpoints na sua rede VPC ao usar intervalos de IP públicos de uso privado para a Gemini Enterprise Agent Platform

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

O pipeline ou o job não pode acessar endpoints na rede VPC com peering

O pipeline ou o job não pode acessar para alcançar endpoints em outras redes além da sua rede

No route to host sem conflitos de rota evidentes no console do Google Cloud

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Router status is temporarily unavailable

As cargas de trabalho não conseguem resolver os nomes de host para domínios DNS na sua VPC.

Problemas de conectividade causados por comportamentos do lado do cliente

Redefinições de conexão e pacotes descartados

Conexões incompletas

Outros problemas de conexão não relacionados à API

Inferência da Agent Platform

Erro de cota de lote excedida

Erro de novas tentativas excedido

O projeto já está vinculado à VPC

Falha inesperada na implantação ou exclusão do endpoint

Problemas com a conta de serviço personalizada da Agent Platform

A implantação do modelo falha com a conta de serviço serviceAccountAdmin erro

Não foi possível buscar o token de identidade ao usar a conta de serviço personalizada

Modelos treinados e personalizados

Problemas de treinamento personalizados

Código do erro: 400

A réplica saiu com um código de status diferente de zero

A réplica está sem memória

Recursos insuficientes em uma região

Erro de permissão ao acessar outro serviço do Google Cloud

Problemas de desempenho ao usar o Cloud Storage FUSE

pip install falha ao usar o KFP com o VPC Service Controls

Erro interno

Código de erro 500 ao usar uma imagem de contêiner personalizada

A conta de serviço não pode acessar o bucket do Cloud Storage ao implantar em um endpoint

Pesquisa de arquitetura neural da Agent Platform

Problemas conhecidos

Feature Store da pesquisa de arquitetura neural da Agent Platform

Erro Resource not found ao enviar uma solicitação de ingestão de streaming ou de exibição on-line

Processamento em lote bem-sucedido para recursos recém-criados, mas a solicitação de exibição on-line retorna valores vazios

O uso da CPU é alto para um nó de exibição on-line

O uso da CPU é alto para o melhor nó de exibição on-line

A latência da exibição on-line é alta quando o QPS é baixo

O job de ingestão em lote falha após seis horas

Erro Resource exceeded ao exportar valores de atributos

Vizier da pesquisa de arquitetura neural da Agent Platform

Erro interno

Erros de permissões ao usar papéis de conta de serviço com a pesquisa de arquitetura neural do Agent Platform

Solução de problemas com serviços de machine learning

A tentativa de ajustar um modelo retorna `Internal error encountered`.

Error `Internal error happened`

`com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project`

`No route to host` sem conflitos de rota evidentes no console do Google Cloud

`RANGES_EXHAUSTED`, `RANGES_NOT_RESERVED`

`Router status is temporarily unavailable`

A implantação do modelo falha com a conta de serviço `serviceAccountAdmin` erro

`pip install` falha ao usar o KFP com o VPC Service Controls

Erro `Resource not found` ao enviar uma solicitação de ingestão de streaming ou de exibição on-line

Erro `Resource exceeded` ao exportar valores de atributos