Esta página mostra como configurar o Google Kubernetes Engine (GKE) para recolher registos e métricas para clusters Ray em execução no Google Kubernetes Engine (GKE), bem como ver registos e métricas do Ray no Cloud Logging e Cloud Monitoring.
Para mais informações sobre o Ray e o KubeRay, consulte a vista geral do Ray no Google Kubernetes Engine (GKE).
Antes de começar
Antes de começar, certifique-se de que realizou as seguintes tarefas:
- Ative a API Google Kubernetes Engine. Ative a API Google Kubernetes Engine
- Se quiser usar a CLI gcloud para esta tarefa,
instale-a e, em seguida,
inicialize-a. Se instalou anteriormente a CLI gcloud, execute o comando
gcloud components update
para obter a versão mais recente. As versões anteriores da CLI gcloud podem não suportar a execução dos comandos neste documento.
Requisitos e limitações
- Tem de ativar o registo do sistema e da carga de trabalho num cluster do GKE existente antes de ativar a recolha de registos para clusters do Ray.
- Se ativar a recolha de registos para clusters do Ray num cluster do GKE existente, o GKE só recolhe registos de pods do Ray criados recentemente e não de pods do Ray existentes.
- Para clusters GKE padrão, tem de ativar o Managed Service for Prometheus do Google Cloud para ativar a recolha de métricas para clusters Ray. Para clusters do Autopilot, o Google Cloud Managed Service for Prometheus está ativado por predefinição.
- Não deve especificar um volume denominado
ray-logs
em nenhum contentor do Ray no cluster do Ray. Caso contrário, o GKE não recolhe registos.
Ative a recolha de registos para um cluster do Ray
Pode ativar a recolha de registos para clusters do Ray com clusters do GKE no modo Autopilot ou Standard novos ou existentes. Os registos do Ray que o GKE recolhe dos clusters do Ray são classificados como registos de contentores. Isto inclui todos os registos produzidos pelos nós de cabeçalho e de trabalho do cluster Ray.
Pode ativar a recolha de registos para clusters Ray através da Google Cloud consola ou da CLI gcloud.
Consola
Aceda à página do Google Kubernetes Engine na Google Cloud consola.
Clique em
Criar e, de seguida, na secção Padrão ou Autopilot, clique em Configurar.No painel de navegação, em Cluster, clique em Funcionalidades.
Na secção Operações, certifique-se de que a caixa de verificação Sistema e cargas de trabalho está selecionada.
Na secção IA e aprendizagem automática, selecione Ativar operador Ray e, de seguida, selecione Ativar recolha de registos para clusters Ray.
Clique em Criar.
Para clusters padrão, também tem de ativar o serviço gerido do Google Cloud para o Prometheus.
gcloud
Crie um cluster através da opção --addons=RayOperator
e da opção --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Substitua o seguinte:
CLUSTER_NAME
: o nome do novo cluster.LOCATION
: a localização do novo cluster, por exemplo, us-central1.
Pode ativar a recolha de registos para clusters do Ray num cluster existente usando o comando gcloud container clusters update
com a opção --addons=RayOperator
e a opção --enable-ray-cluster-logging
.
Veja os registos do Ray
Pode ver os registos recolhidos de clusters do Ray em execução no GKE através do Logging.
Aceda à página Cloud Logging na Google Cloud consola.
Abra o editor de consultas e cole a expressão no editor de consultas
Clique em Executar consulta
Pode usar as seguintes consultas de exemplo no Explorador de registos:
Nome da consulta/filtro | Expressão |
---|---|
Todos os registos do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Todos os registos de cabeçalho do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Todos os registos num cluster do Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Todos os registos de uma tarefa do Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Ative a recolha de métricas para um cluster Ray
Pode ativar a recolha de métricas para clusters Ray com clusters do GKE do Autopilot ou Standard novos ou existentes.
Depois de ativar a recolha de métricas para clusters Ray, o GKE recolhe métricas de clusters Ray existentes e novos clusters Ray. O GKE recolhe todas as métricas do sistema exportadas pelo Ray no formato Prometheus.
Pode ativar a recolha de métricas para clusters do Ray através da Google Cloud consola ou da CLI gcloud.
Consola
Aceda à página do Google Kubernetes Engine na Google Cloud consola.
Clique em
Criar e, de seguida, na secção Padrão ou Autopilot, clique em Configurar.No painel de navegação, em Cluster, clique em Funcionalidades.
Na secção Operações, certifique-se de que a caixa de verificação Sistema e cargas de trabalho está selecionada.
Na secção IA e aprendizagem automática, selecione Ativar operador Ray e, de seguida, selecione Ativar recolha de métricas para clusters Ray.
Clique em Criar.
Para clusters padrão, também tem de ativar o serviço gerido do Google Cloud para o Prometheus.
gcloud
Crie um cluster através da opção --addons=RayOperator
e da opção --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Substitua o seguinte:
CLUSTER_NAME
: o nome do novo cluster.LOCATION
: a localização do novo cluster, por exemplo, us-central1.
Pode ativar a recolha de registos para clusters do Ray num cluster existente usando o comando gcloud container clusters update
com a opção --addons=RayOperator
e a opção --enable-ray-cluster-monitoring
.
Veja as métricas do Ray
O Google Cloud Managed Service for Prometheus oferece um painel de controlo Ray on GKE Overview pré-configurado que oferece uma vista centralizada das principais métricas do Ray. Esta é a forma recomendada de começar rapidamente a monitorizar os seus clusters do Ray no GKE.
Aceda ao painel de controlo Vista geral do Ray no GKE
O painel de controlo é preenchido automaticamente quando ativa a recolha de métricas para o seu cluster do Ray.
Em alternativa, se quiser explorar métricas individuais recolhidas de clusters do Ray em execução no GKE, siga estes passos:
Aceda à página Explorador de métricas na Google Cloud consola.
No campo Selecionar uma métrica, pode pesquisar métricas específicas do Ray. Normalmente, estas métricas têm o prefixo
prometheus/ray_
. Exemplos:prometheus/ray_worker_cpu_seconds_total
ouprometheus/ray_memory_bytes_max
.Pode refinar ainda mais a sua pesquisa selecionando o tipo de recurso adequado (por exemplo,
k8s_pod
,k8s_container
) e filtrando por etiquetas relevantes para o seu cluster Ray (por exemplo,ray.io/cluster
).
O que se segue?
- Saiba mais sobre o Ray no Kubernetes.
- Explore a documentação do KubeRay.