Controlo de versões do Dataproc

O Dataproc usa imagens para associar conectores úteis e componentes do Apache Spark e Apache Hadoop num pacote que pode ser implementado num cluster do Dataproc. Google Cloud Estas imagens contêm o sistema operativo base (Debian ou Ubuntu) para o cluster, juntamente com os componentes essenciais e opcionais necessários para executar tarefas, como o Spark, o Hadoop e o Hive. Estas imagens são atualizadas periodicamente para incluir novas melhorias e funcionalidades. A gestão de versões do Dataproc permite-lhe selecionar conjuntos de versões de software quando cria clusters.

Como funciona o controlo de versões

Quando é criada uma imagem, é-lhe atribuído um número de versão da imagem no seguinte formato:

version_major.version_minor.version_sub_minor-os_distribution

As seguintes distribuições de SO são mantidas:

Código de distribuição do SO Distribuição do SO
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Consulte as versões de imagens antigas para ver as distribuições de SO suportadas anteriormente.

A prática recomendada é especificar a versão da imagem major.minor para ambientes de produção ou quando a compatibilidade com versões específicas de componentes é importante. As distribuições de SO e subminor são automaticamente definidas para a versão semanal mais recente.

Selecionar versões

Quando cria um novo cluster do Dataproc, é usada por predefinição a versão mais recente da imagem Debian disponível. Pode selecionar uma versão de imagem do Debian, Rocky Linux ou Ubuntu quando cria um cluster (consulte a lista de versões de imagens do Dataproc). Quando especificar imagens baseadas no Debian, pode omitir o sufixo do código de distribuição do SO, por exemplo, especificando 2.0 para selecionar a imagem 2.0-debian10. O sufixo do SO tem de ser usado para selecionar uma imagem baseada no Rocky Linux ou no Ubuntu, por exemplo, especificando 2.0-ubuntu18.

comando gcloud

Quando usar o comando gcloud dataproc clusters create, pode usar o argumento --image-version para especificar uma versão de imagem para o novo cluster.

Exemplo de imagem do Debian:

gcloud dataproc clusters create CLUSTER_NAME \
    --image-version=2.0 \
    --region=REGION

Exemplo de imagem do Ubuntu:

gcloud dataproc clusters create CLUSTER_NAME \
    --image-version=2.0-ubuntu18 \
    --region=REGION

A prática recomendada é omitir a versão secundária para que seja usada a versão secundária mais recente. No entanto, se necessário, pode especificar a versão subminor, por exemplo, 2.0.20.

Pode verificar a sua versão atual com a CLI Google Cloud.

gcloud dataproc clusters describe CLUSTER_NAME \
    --region=REGION

API REST

Pode especificar o campo SoftwareConfig imageVersion como parte de um pedido da API cluster.create.

Exemplo

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Consola

Abra a página do Dataproc Criar um cluster. O painel Configurar cluster está selecionado. Os campos Tipo de imagem e Versão na secção Controlo de versões mostram a imagem que vai ser usada quando criar o cluster. A data de lançamento da imagem também é apresentada. Inicialmente, a imagem predefinida, a versão mais recente do Debian disponível, é apresentada como selecionada. Clique em Alterar para apresentar uma lista de imagens disponíveis. Pode selecionar uma imagem padrão ou personalizada para usar no cluster.

Quando são criadas novas versões

Periodicamente, são criadas novas versões principais para incorporar uma ou mais das seguintes opções:

  • Principais lançamentos para:
    • Spark, Hadoop e outros componentes de Big Data
    • Google Cloud conetores
  • Alterações ou atualizações importantes à funcionalidade do Dataproc

As novas versões de pré-visualização (com o sufixo -RC) são lançadas antes do lançamento de uma nova versão principal:

  • As imagens de pré-visualização não se destinam a utilização em cargas de trabalho de produção.
  • As versões dos componentes de imagens de pré-visualização podem ser atualizadas para a versão do componente mais recente disponível na versão de imagem de GA pós-pré-visualização.

As novas versões secundárias são criadas periodicamente para incorporar um ou mais dos seguintes elementos:

  • Versões e atualizações menores para:
    • Spark, Hadoop e outros componentes de Big Data
    • Google Cloud conetores
  • Alterações ou atualizações menores à funcionalidade do Dataproc

Quando é criada uma nova versão secundária, a respetiva imagem Debian torna-se a predefinição para a versão principal e representa o lançamento mais recente da versão principal.

As novas versões subminor são criadas periodicamente para incorporar um ou mais dos seguintes elementos:

  • Patches ou correções para um componente na imagem
  • Atualizações de versões subalternativas de componentes

Versão da imagem e compatibilidade com o Dataproc

As versões de imagens secundárias são suportadas durante 24 meses após o lançamento inicial da DG (disponibilidade geral). Durante este período, os clusters que usam estas versões de imagens são elegíveis para apoio técnico (para receber correções, recrie o cluster usando a versão de imagem subprincipal suportada mais recente). Após o fecho da janela de apoio técnico, os clusters que usam as versões de imagens não são elegíveis para apoio técnico.

Versões antigas de imagens

Distribuições de SO suportadas anteriormente

As seguintes distribuições de SO eram suportadas anteriormente:

Código de distribuição do SO Distribuição do SO Última aplicação de patches (fim do apoio técnico)
debian9 Debian 9 10 de julho de 2020
deb8 Debian 8 26 de outubro de 2018

Versões de imagens sem distribuição de SO explícita

Antes de 16 de agosto de 2018, as versões de imagens eram criadas com o Debian 8 e omitiam o código de distribuição do SO. São especificados no seguinte formato:

version_major.version_minor.version_sub_minor

Versões 0.1 e 0.2

As versões de imagens lançadas como versões alfa ou beta antes da disponibilidade geral da versão 1.0 do Dataproc não estão sujeitas à Política de apoio técnico do Dataproc.

Notas importantes sobre o controlo de versões

  • As versões de imagens contêm os seguintes componentes:
  • Os clusters do Dataproc não são atualizados automaticamente quando são lançadas novas versões de imagens.
    • Recomendações:
    • Execute clusters com a versão de imagem subminor mais recente. Os metadados da imagem incluem uma etiqueta previous-subminor, que está definida como true se o cluster não estiver a usar a versão subminor mais recente da imagem.
      • Para ver os metadados da imagem:
        1. Execute o seguinte comando gcloud compute images list --filter para listar o nome do recurso de uma imagem do Dataproc.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. Execute o seguinte comando gcloud compute images describe para ver os metadados da imagem.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • Teste e valide se as suas aplicações são executadas com êxito em clusters criados com novas versões de imagens, especialmente quando usa novas versões principais de imagens.