Nesta página, descrevemos as etapas de solução de problemas que podem ser úteis se você tiver problemas ao usar serviços de aprendizado de máquina na plataforma de agente do Gemini Enterprise.
Para filtrar o conteúdo desta página, clique em um tópico:
Solução de problemas com o Cloud Assist Investigations
Ao conectar a Agent Platform com outros produtos Google Cloud , talvez você ache as Investigações do Cloud Assist úteis para resolver problemas complexos de integração.
- Ative e configure a API Cloud Assist Investigations.
- Determine quais dos produtos de que o nome da sua carga de trabalho depende aparecem na lista de produtos compatíveis.
- Crie uma investigação e descreva os sintomas em detalhes. Não se esqueça de mencionar todos os recursos de que o pipeline depende.
- À medida que você digita, a caixa de diálogo sugere recursos para adicionar à investigação. Revise essa lista e adicione os recursos relevantes antes de executar a investigação.
Modelos de AutoML
Nesta seção, descrevemos as etapas de solução de problemas que podem ser úteis se você tiver problemas com o AutoML.
Faltam rótulos no conjunto de teste, validação ou treinamento
Problema
Ao usar a divisão de dados padrão ao treinar um modelo de classificação do AutoML, a Agent Platform pode atribuir poucas instâncias de uma classe a um conjunto específico (teste, validação ou treinamento), o que causa um erro durante o treinamento. Esse problema ocorre com mais frequência quando você tem classes desequilibradas ou uma pequena quantidade de dados de treinamento.
Solução
Para resolver esse problema, adicione mais dados de treinamento, divida manualmente os dados para atribuir classes suficientes a cada conjunto ou remova os rótulos menos frequentes do conjunto de dados. Para mais informações, consulte Sobre divisões de dados para modelos do AutoML.
Vertex AI Studio
Ao trabalhar com o Vertex AI Studio, você pode receber os seguintes erros:
A tentativa de ajustar um modelo retorna Internal error encountered.
Problema
Você vai encontrar um erro Internal error encountered ao tentar ajustar um modelo.
Solução
Execute o comando cURL a seguir para criar um conjunto de dados vazio da Plataforma de Agentes do Gemini Enterprise. Verifique se você configurou o ID do projeto no comando.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Após a conclusão do comando, aguarde cinco minutos e tente ajustar o modelo novamente.
Código do erro: 429
Problema
Você vai encontrar o seguinte erro:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
Solução
Tente novamente mais tarde com espera. Se ainda houver erros, entre em contato com o suporte da Gemini Enterprise Agent Platform.
Código do erro: 410
Problema
Você vai encontrar o seguinte erro:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Solução
Consulte a Visão geral da autenticação para saber mais.
Código do erro: 403
Problema
Você vai encontrar o seguinte erro:
403: Permission denied.
Solução
Verifique se a conta que acessa a API tem as permissões corretas.
Pipelines da Agent Platform
Nesta seção, descrevemos etapas de solução de problemas que podem ser úteis se você tiver problemas com os pipelines do Agent Platform.
Você não tem permissão para atuar como conta de serviço
Problema
Ao executar o fluxo de trabalho do Gemini Enterprise Agent Platform Pipelines, talvez você encontre a seguinte mensagem de erro:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
Solução
Esse erro significa que a conta de serviço que executa o fluxo de trabalho não tem acesso aos recursos necessários.
Para resolver esse problema, conceda ao usuário a permissão iam.serviceAccounts.actAs na
conta de serviço.
Erro: os hashes de pacotes Python não correspondem no componente de pipelines da plataforma de agentes do Gemini Enterprise
Problema
Ao executar o fluxo de trabalho do Gemini Enterprise Agent Platform Pipelines, talvez você encontre o seguinte erro:
ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.
Isso é causado por conflitos de versão entre as bibliotecas Python na imagem de base para o componente de pipelines da plataforma de agentes do Gemini Enterprise e aquelas que o pipeline tenta instalar.
Solução
Crie todas as dependências listadas com esta mensagem na imagem usada pelo componente Pipelines da Gemini Enterprise Agent Platform.
Error Internal error happened
Problema
Se o pipeline falhar com uma mensagem Internal error happened, verifique a Análise de registros e pesquise o nome do pipeline. Você receberá este erro:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
Isso significa que o peering de VPC para a Agent Platform inclui um intervalo de IP que foi excluído.
Solução
Para resolver esse problema, atualize o peering de VPC usando o comando update e inclua intervalos de IP válidos.
O escopo do OAuth ou o público-alvo do token de ID é inválido
Problema
Ao executar o fluxo de trabalho do Gemini Enterprise Agent Platform Pipelines, você encontra a seguinte mensagem de erro:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Solução
Isso significa que você não forneceu credenciais em um dos componentes do pipeline
ou não usou ai_platform.init() para definir credenciais.
Para resolver esse problema, defina as credenciais do componente de pipeline
relevante ou defina as credenciais do ambiente e use ai_platform.init()
no início do código.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
Os componentes do Agent Platform Pipelines exigem mais espaço em disco do que 100 GB
Problema
O espaço em disco padrão alocado para componentes do Agent Platform Pipelines é de 100 GB, e não é possível aumentar o espaço em disco. Consulte o Issue Tracker público para saber mais sobre esse problema.
Solução
Para que um componente use mais de 100 GB de espaço em disco, converta-o em um job personalizado usando o método components. Com esse operador, é possível atribuir o tipo de máquina e o tamanho do disco que o componente usa.
Para conferir um exemplo de como usar esse operador, consulte Pipelines da Agent Platform: treinamento personalizado com componentes de Google Cloud pipeline pré-criados, na seção Converter o componente em um job personalizado da Agent Platform.
Problemas de rede da Agent Platform
Esta seção descreve etapas de solução de problemas que podem ser úteis se você tiver problemas com redes na Agent Platform.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
As cargas de trabalho não podem acessar endpoints na sua rede VPC ao usar intervalos de IP públicos de uso privado para a plataforma do Gemini Enterprise Agent
Problema
Os intervalos de IP públicos usados de modo privado não são importados por padrão.
Solução
Para usar intervalos de IP públicos de uso particular, ative a importação deles.
com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project
Problema
Você recebe erros do tipo com.google.api.tenant.error.TenantManagerException:
Reserved range: nnn not found for consumer project ao executar cargas de trabalho ou
implantar endpoints.
Isso ocorre quando você muda as reservas de acesso a serviços particulares para suas cargas de trabalho. Os intervalos excluídos podem não ter sido registrados na API Agent Platform.
Solução
Execute gcloud services vpc-peerings update
para servicenetworking depois de atualizar as alocações de acesso a serviços particulares.
O pipeline ou o job não pode acessar endpoints na rede VPC com peering
Problema
O pipeline da Gemini Enterprise Agent Platform expira quando tenta se conectar a recursos na rede VPC.
Solução
Para resolver o problema, faça o seguinte:
- Verifique se você concluiu todas as etapas em Configurar o peering de rede VPC.
Revise a configuração da sua rede VPC com peering. Verifique se a rede importa rotas do intervalo de rede de serviço correto enquanto o job está em execução.
Verifique se você tem uma regra de firewall que permite conexões desse intervalo com o destino na sua rede.
Se a conexão de peering não importar nenhuma rota enquanto o job estiver em execução, isso significa que a configuração de rede de serviço não está sendo usada. Isso ocorre provavelmente porque você concluiu a configuração de peering com uma rede diferente da rede padrão. Se esse for o caso, especifique sua rede ao iniciar um job. Use o nome de rede totalmente qualificado no seguinte formato:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME.Para mais informações, consulte Visão geral de rotas.
O pipeline ou o job não pode acessar para alcançar endpoints em outras redes além da sua rede
Problema
O pipeline ou o job não consegue acessar endpoints em redes fora da rede.
Solução
Por padrão, sua configuração de peering exporta apenas rotas para as sub-redes locais na VPC.
Além disso, o peering transitivo não é aceito e apenas redes com peering direto podem se comunicar.
- Para permitir que a Gemini Enterprise Agent Platform se conecte pela sua rede e alcance endpoints em outras redes, exporte as rotas de rede para a conexão de peering. Edite a configuração da rede VPC com peering e ative
Export custom routes.
Como o peering transitivo não é compatível, a plataforma de agentes do Gemini Enterprise não aprende rotas para outras redes e serviços com peering, mesmo com Export Custom Routes ativado. Para informações sobre soluções alternativas, consulte
Como ampliar a acessibilidade da rede dos pipelines do Agent Platform.
No route to host sem conflitos de rota evidentes no console do Google Cloud
Problema
As únicas rotas que podem ser vistas no console do Google Cloud são aquelas conhecidas pela sua própria VPC, bem como os intervalos reservados quando você conclui a configuração de peering de rede VPC.
Em raras ocasiões, um job da plataforma de agentes do Gemini Enterprise pode gerar uma reclamação no route to host
ao tentar acessar um endereço IP que sua VPC está exportando para a rede
da plataforma de agentes do Gemini Enterprise.
Isso pode ter acontecido porque os jobs da Gemini Enterprise Agent Platform são executados em um namespace de rede em um cluster do GKE gerenciado com um intervalo de IP em conflito com o IP de destino. Consulte Princípios básicos de rede do GKE para mais detalhes.
Nessas condições, a carga de trabalho tenta se conectar ao IP no próprio namespace de rede e gera um erro se não conseguir alcançá-lo.
Solução
Crie a carga de trabalho para retornar os endereços IP de namespace local dela e confirme se não há conflito com as rotas que você está exportando pela conexão de peering.
Se houver um conflito, transmita uma lista de reservedIpRanges[]
nos parâmetros do job que não se sobreponham a nenhum intervalo na rede VPC.
O job usa esses intervalos para os endereços IP internos da carga de trabalho.
RANGES_EXHAUSTED, RANGES_NOT_RESERVED
Problema
Os erros na forma RANGES_EXHAUSTED e RANGES_NOT_RESERVED e RANGES_DELETED_LATER indicam um problema com a configuração de peering da rede VPC subjacente. Esses são erros de rede,
não do serviço da Agent Platform.
Solução
Ao se deparar com um erro RANGES_EXHAUSTED, primeiro considere se a reclamação é válida.
Consulte a tabela Recomendações de sub-rede para garantir que a reserva de IP para o acesso a serviços particulares seja ampla o suficiente para acomodar sua carga de trabalho.
Acesse o Network Analyzer no console do Cloud e procure insights do tipo "Resumo da alocação de endereços IP" na rede VPC. Se esses valores indicarem que a alocação está em 100% ou perto disso, siga uma destas etapas:
- Adicione um novo período à reserva ou estenda o período atual. Todos os intervalos precisam ser contíguos.
- Se você tiver intervalos de IP não contíguos alocados, mas não consumidos, inicie novas cargas de trabalho da plataforma de agentes do Gemini Enterprise em uma região diferente.
Considere também o número máximo de jobs paralelos que podem ser executados com uma reserva de um determinado tamanho.
Para mais informações, consulte Erros de validação da infraestrutura de serviços.
Se o erro continuar, entre em contato com a equipe de suporte.
Router status is temporarily unavailable
Problema
Ao iniciar o Agent Platform Pipelines, você recebe uma mensagem de erro semelhante a esta:
Router status is temporarily unavailable. Please try again later
Solução
A mensagem de erro indica que essa é uma condição temporária. Tente iniciar os pipelines do Agent Platform novamente.
Se o erro continuar, entre em contato com a equipe de suporte.
As cargas de trabalho não conseguem resolver os nomes de host para domínios DNS na sua VPC.
Problema
As cargas de trabalho da plataforma de agentes do Gemini Enterprise não conseguem se conectar aos nomes de host configurados na sua VPC. Você já confirmou que esses nomes de host estão acessíveis para clientes na sua VPC.
Isso ocorre porque as cargas de trabalho são executadas em um projeto gerenciado pelo Google. A VPC nesse ambiente gerenciado precisa ser pareada com a sua para consumir qualquer um dos seus recursos de rede. Além disso, todas as zonas de DNS que essas cargas de trabalho precisam acessar precisam ser compartilhadas especificamente com a VPC gerenciada pelo Google.
Solução
- Verifique se você configurou o peering de rede VPC para a Gemini Enterprise Agent Platform na sua rede VPC.
Conclua as etapas para compartilhar sua zona de DNS particular com a rede de produtores da Gemini Enterprise Agent Platform. O procedimento depende do seu caso de uso:
Verifique se as cargas de trabalho da plataforma de agentes do Gemini Enterprise estão sendo iniciadas com a flag
--network, que especifica sua rede VPC. Isso permite que elas sejam executadas na rede gerenciada pelo Google e acessem as zonas de DNS compartilhadas.Ative o registro em log do DNS na política do servidor DNS, reproduza o problema e execute outro teste. Se a resposta DNS da carga de trabalho for bem-sucedida, um filtro do Cloud Logging para
resource.type="dns_query"vai mostrar entradas deste formulário:"resource": { "type": "dns_query", "labels": { "location": REGION, "project_id": PROJECT_ID, "source_type": "peering-zone", "target_name": "QUERY_TARGET, "target_type": "forwarding-zone" } }Confirme se uma consulta DNS de uma instância na mesma sub-rede pode resolver nomes de host usando seu servidor DNS.
Se o servidor DNS não estiver em Google Cloud, verifique se as regras de firewall remoto permitem conexões de
35.199.192.0/19.Execute um teste de conectividade da instância de teste para a porta
53/UDPno endereço IP do servidor DNS. Por exemplo, se o caminho levar a uma regra de encaminhamento, verifique o seguinte:- Se for uma regra de encaminhamento regional, ela precisará estar na mesma região que o cliente.
- Ele aceita conexões em
53/UDPe as encaminha para o servidor DNS correto.
Problemas de conectividade causados por comportamentos do lado do cliente
Se você tiver problemas de conectividade ao tentar usar as APIs Google Cloud, a causa raiz pode estar no lado do cliente. Esta seção sugere soluções do lado do cliente que podem melhorar sua experiência.
Redefinições de conexão e pacotes descartados
Problema
Ao tentar usar as APIs Google Cloud , você vai notar redefinições de conexão e pacotes descartados.
Solução
Para resolver esse problema, considere o seguinte:
- Para tráfego de alto volume de transações com requisitos de baixa latência, considere se algum problema conhecido com as placas de linha de clientes locais pode causar redefinição de conexões TCP ou pacotes descartados.
- Considere se algum serviço do lado do cliente no caminho da solicitação usa iptables. Isso pode incluir clusters do Kubernetes ou alguns firewalls com estado e dispositivos NAT. Por padrão, o subsistema de rastreamento de conexão (conntrack) do Linux segue estritamente as especificações do protocolo TCP e, por exemplo, descarta pacotes TCP fora de sequência. Para desativar esse comportamento, ative o parâmetro do kernel do Linux
net.netfilter.nf_conntrack_tcp_be_liberalou equivalente.
Conexões incompletas
Problema
Ao tentar usar as APIs Google Cloud , você terá conexões incompletas.
Solução
Para resolver esse problema, considere o seguinte:
- Quando o caminho de encaminhamento tiver várias rotas de volta ao cliente, entenda o conceito de encaminhamento de caminho inverso. Desative esse comportamento se suspeitar que ele está bloqueando conexões.
- Para conexões com balanceamento de carga, considere se as regras de firewall de entrada permitem pacotes de resposta para os dois balanceadores de carga.
Outros problemas de conexão não relacionados à API
Para ajudar a resolver problemas de conexão que não são de API, considere o seguinte:
- Se houver proxies no caminho da solicitação, considere se eles podem causar algum dos problemas que você está enfrentando. Consulte a documentação e solucione problemas do proxy quando enfrentar problemas como latência inexplicável, conexões descartadas, substituições de DNS, bloqueios de origem cruzada e outros problemas semelhantes.
- Principalmente ao processar
respostas
429de APIs Google Cloud , a lógica do lado do cliente que tenta novamente a conexão imediatamente pode piorar o problema. Entenda e implemente a espera exponencial ao implementar repetições.
Inferência da Agent Platform
Nesta seção, descrevemos etapas de solução de problemas que podem ser úteis se você tiver problemas com a inferência do Agent Platform.
Erro de cota de lote excedida
Problema
Ao executar jobs de inferência em lote, você recebe um erro como o seguinte.
Quota exhausted. Please reach out to ai-platform-unified-feedback@google.com for
batch prediction quota increase.
Um job de previsão em lote da plataforma de agentes do Gemini Enterprise consome a cota do projeto locatário de previsão em lote. Para mais informações sobre como solicitar um aumento de cota, consulte Cotas e limites da plataforma de agentes do Gemini Enterprise.
Erro de novas tentativas excedido
Problema
Ao executar jobs de inferência em lote, você recebe um erro como o seguinte indicando que a máquina que executa o modelo personalizado pode não ser capaz de concluir as inferências dentro do limite de tempo.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Isso pode acontecer quando o serviço de inferência da plataforma de agentes se registra no serviço do Google Front End, que encaminha as conexões do cliente para a API Inference da plataforma de agentes.
O serviço do Google Front End expira a conexão e retorna um código de resposta HTTP 500 ao cliente se não receber uma resposta da API em 10 minutos.
Solução
Para resolver esse problema, tente uma das seguintes opções:
- Aumente os nós de computação ou mude o tipo de máquina.
- Crie o contêiner de inferência para enviar códigos de resposta HTTP 102 periódicos. Isso reinicia o timer de 10 minutos no serviço do Google Front End.
O projeto já está vinculado à VPC
Problema
Ao implantar um endpoint, talvez você veja uma mensagem de erro como a seguinte, que indica que os endpoints do Agent Platform já usaram uma rede de nuvem privada virtual e os recursos não foram limpos adequadamente.
Currently only one VPC network per user project is supported. Your project is
already linked to
"projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Agent Platform deployment
resources, delete all endpoint resources, and then retry creating resources in
30 mins.
Solução
Para resolver esse problema, tente executar este comando no Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
Isso desconecta manualmente sua rede VPC antiga da VPC do Service Networking.
Falha inesperada na implantação ou exclusão do endpoint
Problema
Uma implantação de modelo falha inesperadamente, um endpoint é excluído ou um modelo implantado anteriormente é removido.
Sua conta de faturamento pode ser inválida. Se ela permanecer inválida por muito tempo, alguns recursos poderão ser removidos dos projetos associados a ela. Por exemplo, seus endpoints e modelos podem ser excluídos. Os recursos removidos não são recuperáveis.
Solução
Para resolver esse problema, tente o seguinte:
- Verifique o status de faturamento dos seus projetos.
- Entre em contato com o suporte do Cloud Billing para pedir ajuda com dúvidas sobre faturamento.
Para mais informações, consulte Perguntas sobre faturamento.
Problemas com a conta de serviço personalizada da Agent Platform
Esta seção descreve etapas de solução de problemas que podem ser úteis se você tiver problemas com contas de serviço.
A implantação do modelo falha com a conta de serviço serviceAccountAdmin erro
Problema
A implantação do modelo falha com um erro como este:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Solução
Esse erro significa que sua conta de serviço personalizada pode não ter sido configurada corretamente. Para criar uma conta de serviço personalizada com as permissões de IAM corretas, consulte Usar uma conta de serviço personalizada.
Não foi possível buscar o token de identidade ao usar a conta de serviço personalizada
Problema
Ao usar uma conta de serviço personalizada, os jobs de treinamento executados em uma única réplica não conseguem alcançar o serviço de metadados do Compute Engine necessário para recuperar um token.
Você verá um erro semelhante a este:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Solução
Para buscar o token de identidade com uma conta de serviço personalizada, use iamcredentials.googleapis.com.
Modelos treinados e personalizados
Nesta seção, descrevemos as etapas de solução de problemas que podem ser úteis se você tiver problemas com modelos treinados de maneira personalizada.
Problemas de treinamento personalizados
Os problemas a seguir podem ocorrer durante o treinamento personalizado. Os problemas se aplicam a recursos CustomJob e HyperparameterTuningJob, incluindo aqueles criados por recursos TrainingPipeline.
Código do erro: 400
Problema
Você vai encontrar o seguinte erro:
400 Machine type MACHINE_TYPE is not supported.
Essa mensagem de erro pode aparecer se o tipo de máquina selecionado não for compatível com o treinamento da Gemini Enterprise Agent Platform ou se um recurso específico não estiver disponível na região selecionada.
Solução
Use apenas os tipos de máquina disponíveis nas regiões adequadas.
A réplica saiu com um código de status diferente de zero
Problema
Durante o treinamento distribuído, um erro de qualquer worker provoca falha no treinamento.
Solução
Para verificar o stack trace do worker, visualize os registros de treinamento personalizados no Google Cloud console.
Veja os outros tópicos para solucionar problemas comuns e crie um novo recurso CustomJob, HyperparameterTuningJob ou TrainingPipeline. Em muitos casos, os códigos de erro são causados por problemas no código de treinamento, não pelo serviço da Agent Platform. Para determinar se esse é o caso, execute o código de treinamento na máquina local ou no Compute Engine.
A réplica está sem memória
Problema
Pode ocorrer um erro se uma instância de máquina virtual (VM) de treinamento ficar sem memória durante o treinamento.
Solução
Veja o uso da memória das suas VMs de treinamento no console Google Cloud .
Mesmo quando você receber esse erro, talvez não veja 100% do uso da memória na VM, porque os serviços além do aplicativo de treinamento em execução na VM também consomem recursos. Para tipos de máquinas com menos memória, outros serviços podem consumir uma porcentagem relativamente grande de memória.
Por exemplo, em uma VM n1-standard-4, os serviços podem consumir até 40% da memória.
Otimize o consumo de memória do aplicativo de treinamento ou escolha um tipo de máquina maior com mais memória.
Recursos insuficientes em uma região
Problema
Você encontrou um problema de estoque esgotado em uma região.
Solução
A Agent Platform treina seus modelos usando recursos do Compute Engine. A Agent Platform não poderá escalonar sua carga de trabalho se o Compute Engine tiver capacidade para determinada CPU ou GPU em uma região. Esse problema não está relacionado à sua cota do projeto.
Ao alcançar a capacidade do Compute Engine, o Agent Platform tenta automaticamente o CustomJob ou o HyperparameterTuningJob até três vezes. O job falhará caso todas as novas tentativas falhem.
Uma descargas geralmente ocorre quando você usa GPUs. Se você encontrar esse erro ao usar GPUs, tente mudar para um tipo de GPU diferente. Se for possível usar outra região, faça o treinamento em uma região diferente.
Erro de permissão ao acessar outro serviço do Google Cloud
Se você encontrar um erro de permissão ao acessar outro serviço do Google Cloud
pelo código de treinamento (por exemplo,
google.api_core.exceptions.PermissionDenied: 403), talvez haja um dos
seguintes problemas:
-
Problema
O agente de serviço ou a conta de serviço que executa o código (o agente de serviço de código personalizado da Gemini Enterprise Agent Platform do projeto ou uma conta de serviço personalizada) não tem a permissão necessária.
Solução
Saiba como conceder permissões ao agente de serviço de código personalizado da Gemini Enterprise Agent Platform ou configurar uma conta de serviço personalizada com as permissões necessárias.
-
Problema
O agente ou conta de serviço que executa o código tem a permissão necessária, mas o código está tentando acessar um recurso no projeto errado. É provável que esse seja o problema se a mensagem de erro referenciar um ID de projeto que termine com
-tp.Solução
Devido à maneira como a Agent Platform executa o código de treinamento, esse problema pode ocorrer inadvertidamente se você não especificar explicitamente um ID do projeto ou número de projeto no código.
Saiba como corrigir esse problema especificando um ID ou número de projeto.
-
Problema
Seu job do Vertex AI Training é executado com sucesso com dados locais, mas não com dados do Cloud Storage.
Solução
Adicione a permissão
storage.buckets.createà sua função de agente de serviços de código personalizado da Gemini Enterprise Agent Platform para o projeto.Saiba como corrigir esse problema adicionando papéis específicos aos agentes de serviço da plataforma de agentes.
Problemas de desempenho ao usar o Cloud Storage FUSE
Problema
Os jobs do Cloud Storage FUSE estão sendo executados lentamente.
Solução
Consulte "Diretrizes de otimização de performance" em Usar o Cloud Storage como um sistema de arquivos ativado.
pip install falha ao usar o KFP com o VPC Service Controls
Problema
Você vai encontrar o seguinte erro:
ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10>, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/
Solução
O perímetro de serviço do VPC Service Controls bloqueia o acesso da Agent Platform a APIs e serviços de terceiros na Internet. Para instalar os pacotes, use packageUris para instalar as dependências dos buckets do Cloud Storage. Para uma discussão geral sobre o uso dessa técnica, consulte "Usar contêineres personalizados" em VPC Service Controls com a Agent Platform.
Erro interno
Problema
O treinamento falhou devido a um erro no sistema.
Solução
O problema pode ser temporário; tente reenviar CustomJob, HyperparameterTuningJob ou TrainingPipeline. Se o erro persistir, entre em contato com a equipe de suporte.
Código de erro 500 ao usar uma imagem de contêiner personalizada
Problema
Você vê um erro 500 nos registros.
Solução
Esse tipo de erro provavelmente é um problema com a imagem do contêiner personalizado e não um erro da Agent Platform.
A conta de serviço não pode acessar o bucket do Cloud Storage ao implantar em um endpoint
Problema
Quando você tenta implantar um modelo em um endpoint e sua conta de serviço
não tem acesso
storage.objects.list
ao bucket do Cloud Storage relacionado,
você poderá encontrar o seguinte erro:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
Por padrão, o contêiner personalizado que implanta seu modelo usa uma conta de serviço que não tem acesso ao seu bucket do Cloud Storage.
Solução
Para resolver isso, tente uma das seguintes opções:
Copie o arquivo que você está tentando acessar do contêiner em artefatos do modelo ao fazer upload do modelo. A Gemini Enterprise Agent Platform vai copiá-la para um local a que a conta de serviço padrão tenha acesso, semelhante a todos os outros artefatos de modelo.
Copie o arquivo no contêiner como parte do processo de criação dele.
Especifique uma conta de serviço personalizada.
Pesquisa de arquitetura neural da Agent Platform
Problemas conhecidos
- Depois de cancelar o job NAS, o job principal (o pai) é interrompido, mas alguns testes filhos continuam mostrando um estado Running. Ignore o estado do teste filho que mostra Em execução nesse caso. Os testes foram interrompidos, mas a interface continua mostrando o estado Running. Enquanto o job principal tiver parado, você não vai receber cobranças extras.
- Depois de relatar os prêmios no treinador, aguarde (em suspensão) por 10 minutos antes dos jobs de teste serem encerrados.
Ao usar o Cloud Shell para executar
TensorBoard, o link de saída gerado pode não funcionar. Nesse caso, anote o número da porta, use a ferramenta Visualização da Web e selecione o número da porta correto para exibir os gráficos.Como acessar a ferramenta
Web Preview:
Se você vir mensagens de erro como as apresentadas a seguir nos registros do Trainer:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]Use um computador com mais RAM, porque uma condição OOM está causando esse erro.
Se o treinador personalizado não conseguir encontrar a FLAG
job-dirdo diretório de jobs, importejob_dircom um sublinhado em vez de um hífen. Uma observação no tutorial-1 explica isso.Erro de NaN durante o treinamento Pode haver erros de NaN no job de treinamento, como
NaN : Tensor had NaN values. A taxa de aprendizado pode ser grande demais para a arquitetura sugerida. Para ver mais informações, consulte Erros relacionados a falta de memória (OOM) e taxa de aprendizado.Erro de falta de memória durante o treinamento Pode haver erros de falta de memória (OOM, na sigla em inglês) no job de treinamento. O tamanho do lote pode ser muito grande para a memória do acelerador. Para ver mais informações, consulte Erros relacionados a falta de memória (OOM) e taxa de aprendizado.
Dados do job do controlador de seleção de modelos de tarefa de proxy No caso raro de o job do controlador de seleção de modelo de tarefa de proxy ser encerrado, retome o job seguindo estas etapas.
Dados do job do controlador de pesquisa de tarefa de proxy No caso raro de o job do controlador de pesquisa de tarefa de proxy ser encerrado, você pode retomar o job seguindo estas etapas. ,
A conta de serviço não tem permissão para acessar o Artifact Registry ou o bucket. Se você receber um erro como
Agent Platform Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nasou um erro semelhante para acesso ao bucket, atribua a essa conta de serviço um papel de editor de armazenamento no projeto.
Vertex AI Feature Store
Esta seção descreve etapas de solução de problemas que podem ser úteis se você tiver dificuldades com o Vertex AI Feature Store.
Erro Resource not found ao enviar uma solicitação de ingestão de streaming ou de exibição on-line
Problema
Depois de configurar um featurestore, um tipo de entidade ou um recurso de recurso, há um
atraso até que esses recursos sejam propagados para o
serviço FeaturestoreOnlineServingService. Às vezes, essa propagação atrasada
pode causar um erro resource not found quando você envia uma ingestão de streaming
ou solicitação de exibição on-line imediatamente após criar um recurso.
Solução
Se você receber esse erro, aguarde alguns minutos e tente sua solicitação novamente.
Processamento em lote bem-sucedido para recursos recém-criados, mas a solicitação de exibição on-line retorna valores vazios
Problema
Somente para recursos recém-criados, há um atraso até que esses recursos sejam
propagados para o serviço FeaturestoreOnlineServingService. Os recursos e os valores
existem, mas levam algum tempo para serem propagados. Isso pode fazer com que sua solicitação de disponibilização on-line retorne valores vazios.
Solução
Se você encontrar essa inconsistência, aguarde alguns minutos e tente sua solicitação de exibição on-line novamente.
O uso da CPU é alto para um nó de exibição on-line
Problema
O uso da CPU para um nó de exibição on-line é alto.
Solução
Para atenuar esse problema, aumente o número de nós de exibição on-line aumentando manualmente a contagem de nós ou ativando o escalonamento automático. Mesmo que o escalonamento automático esteja ativado, o Vertex AI Feature Store precisa de tempo para reequilibrar os dados quando os nós são adicionados ou removidos. Para informações sobre como visualizar métricas de distribuição do valor do atributo ao longo do tempo, consulte Ver métricas do valor do atributo.
O uso da CPU é alto para o melhor nó de exibição on-line
Problema
Se a utilização da CPU for alta para o nó mais quente, aumente o número de nós de exibição ou altere o padrão de acesso da entidade para pseudoaleatório.
Solução
Definir o padrão de acesso à entidade como pseudoaleatório diminui a alta utilização da CPU resultante do acesso frequente de entidades localizadas próximas umas das outras no featurestore. Se nenhuma solução for eficaz, implemente um cache do lado do cliente para evitar acessar as mesmas entidades repetidamente.
A latência da exibição on-line é alta quando o QPS é baixo
Problema
O período de inatividade ou baixa atividade com QPS baixa pode resultar na expiração de alguns caches do lado do servidor. Isso pode resultar em alta latência quando o tráfego para nós de exibição on-line for retomado com QPS regular ou maior.
Solução
Para atenuar esse problema, você precisa manter a conexão ativa enviando tráfego artificial de pelo menos 5 QPS para o featurestore.
O job de ingestão em lote falha após seis horas
Problema
O job de ingestão em lote pode falhar porque a sessão de leitura expira após seis horas.
Solução
Para evitar o tempo limite, aumente o número de workers para concluir o job de ingestão dentro do limite de seis horas.
Erro Resource exceeded ao exportar valores de atributos
Problema
A exportação de um grande volume de dados pode falhar com um erro de recurso excedido se o job de exportação exceder a cota interna.
Solução
Para evitar esse erro, configure os parâmetros de intervalo de tempo, start_time
e end_time, para processar quantidades menores de dados por vez. Consulte Exportação completa para mais informações.
Vertex AI Vizier
Ao usar o Vertex AI Vizier, é possível ter os problemas a seguir.
Erro interno
Problema
O erro interno ocorre quando há um erro do sistema.
Solução
Pode ser transitório. Tente reenviar a solicitação e, se o erro persistir, entre em contato com o suporte.
Erros de permissões ao usar papéis de conta de serviço com a Vertex AI
Problema
Você recebe erros gerais de permissão ao usar papéis de conta de serviço com a Vertex AI.
Esses erros podem aparecer no Cloud Logging nos registros de componentes do produto ou de auditoria. Eles também podem aparecer em qualquer combinação dos projetos afetados.
Esses problemas podem ser causados por um ou ambos os motivos a seguir:
Uso do papel
Service Account Token Creatorquando o papelService Account Userdeveria ter sido usado ou vice-versa. Esses papéis concedem permissões diferentes em uma conta de serviço e não são intercambiáveis. Para saber mais sobre as diferenças entre os papéisService Account Token CreatoreService Account User, consulte Papéis da conta de serviço.Você concedeu permissões de uma conta de serviço em vários projetos, o que não é permitido por padrão.
Solução
Para resolver o problema, tente uma ou mais das seguintes opções:
Determine se a função
Service Account Token CreatorouService Account Useré necessária. Para saber mais, leia a documentação do IAM para os serviços da Vertex AI e outras integrações de produtos que você está usando.Se você tiver concedido permissões a uma conta de serviço em vários projetos, ative a vinculação de contas de serviço entre projetos verificando se
iam.disableCrossProjectServiceAccountUsage. não é aplicada. Para garantir queiam.disableCrossProjectServiceAccountUsagenão seja aplicado, execute o seguinte comando:gcloud resource-manager org-policies disable-enforce \ iam.disableCrossProjectServiceAccountUsage \ --project=PROJECT_ID