O Dataproc usa imagens para associar conectores úteis e componentes do Apache Spark e Apache Hadoop num pacote que pode ser implementado num cluster do Dataproc. Google Cloud Estas imagens contêm o sistema operativo base (Debian ou Ubuntu) para o cluster, juntamente com os componentes essenciais e opcionais necessários para executar tarefas, como o Spark, o Hadoop e o Hive. Estas imagens são atualizadas periodicamente para incluir novas melhorias e funcionalidades. A gestão de versões do Dataproc permite-lhe selecionar conjuntos de versões de software quando cria clusters.
Como funciona o controlo de versões
Quando é criada uma imagem, é-lhe atribuído um número de versão da imagem no seguinte formato:
version_major.version_minor.version_sub_minor-os_distribution
As seguintes distribuições de SO são mantidas:
Código de distribuição do SO | Distribuição do SO |
---|---|
debian12 | Debian 12 |
debian10 | Debian 10 |
debian11 | Debian 11 |
rocky8 | Rocky Linux 8 |
rocky9 | Rocky Linux 9 |
ubuntu18 | Ubuntu 18.04 LTS |
ubuntu20 | Ubuntu 20.04 LTS |
ubuntu22 | Ubuntu 22.04 LTS |
Consulte as versões de imagens antigas para ver as distribuições de SO suportadas anteriormente.
A prática recomendada é especificar a versão da imagem major.minor
para ambientes de produção ou quando a compatibilidade com versões específicas de componentes é importante. As distribuições de SO e subminor são automaticamente
definidas para a versão semanal mais recente.
Selecionar versões
Quando cria um novo cluster do Dataproc, é usada por predefinição a versão mais recente da imagem Debian disponível. Pode selecionar uma versão de imagem do Debian, Rocky Linux ou Ubuntu quando cria um cluster (consulte a lista de versões de imagens do Dataproc).
Quando especificar imagens baseadas no Debian, pode omitir o sufixo do código de distribuição do SO, por exemplo, especificando 2.0
para selecionar a imagem 2.0-debian10
.
O sufixo do SO tem de ser usado para selecionar uma imagem baseada no Rocky Linux ou no Ubuntu, por exemplo, especificando 2.0-ubuntu18
.
comando gcloud
Quando usar o comando gcloud dataproc clusters create
, pode usar o argumento --image-version
para especificar uma versão de imagem para o novo cluster.
Exemplo de imagem do Debian:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --region=REGION
Exemplo de imagem do Ubuntu:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0-ubuntu18 \ --region=REGION
A prática recomendada é omitir a versão secundária para que seja usada a versão secundária mais recente. No entanto, se necessário, pode especificar a versão subminor, por exemplo, 2.0.20
.
Pode verificar a sua versão atual com a CLI Google Cloud.
gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION
API REST
Pode especificar o campo SoftwareConfig
imageVersion
como parte de um pedido da API
cluster.create.
Exemplo
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "2.0" } } }
Consola
Abra a página do Dataproc Criar um cluster. O painel Configurar cluster está selecionado. Os campos Tipo de imagem e Versão na secção Controlo de versões mostram a imagem que vai ser usada quando criar o cluster. A data de lançamento da imagem também é apresentada. Inicialmente, a imagem predefinida, a versão mais recente do Debian disponível, é apresentada como selecionada. Clique em Alterar para apresentar uma lista de imagens disponíveis. Pode selecionar uma imagem padrão ou personalizada para usar no cluster.
Quando são criadas novas versões
Periodicamente, são criadas novas versões principais para incorporar uma ou mais das seguintes opções:
- Principais lançamentos para:
- Spark, Hadoop e outros componentes de Big Data
- Google Cloud conetores
- Alterações ou atualizações importantes à funcionalidade do Dataproc
As novas versões de pré-visualização (com o sufixo -RC
) são lançadas antes do lançamento
de uma nova versão principal:
- As imagens de pré-visualização não se destinam a utilização em cargas de trabalho de produção.
- As versões dos componentes de imagens de pré-visualização podem ser atualizadas para a versão do componente mais recente disponível na versão de imagem de GA pós-pré-visualização.
As novas versões secundárias são criadas periodicamente para incorporar um ou mais dos seguintes elementos:
- Versões e atualizações menores para:
- Spark, Hadoop e outros componentes de Big Data
- Google Cloud conetores
- Alterações ou atualizações menores à funcionalidade do Dataproc
Quando é criada uma nova versão secundária, a respetiva imagem Debian torna-se a predefinição para a versão principal e representa o lançamento mais recente da versão principal.
As novas versões subminor são criadas periodicamente para incorporar um ou mais dos seguintes elementos:
- Patches ou correções para um componente na imagem
- Atualizações de versões subalternativas de componentes
Versão da imagem e compatibilidade com o Dataproc
As versões de imagens secundárias são suportadas durante 24 meses após o lançamento inicial da DG (disponibilidade geral). Durante este período, os clusters que usam estas versões de imagens são elegíveis para apoio técnico (para receber correções, recrie o cluster usando a versão de imagem subprincipal suportada mais recente). Após o fecho da janela de apoio técnico, os clusters que usam as versões de imagens não são elegíveis para apoio técnico.
Versões antigas de imagens
Distribuições de SO suportadas anteriormente
As seguintes distribuições de SO eram suportadas anteriormente:
Código de distribuição do SO | Distribuição do SO | Última aplicação de patches (fim do apoio técnico) |
---|---|---|
debian9 | Debian 9 | 10 de julho de 2020 |
deb8 | Debian 8 | 26 de outubro de 2018 |
Versões de imagens sem distribuição de SO explícita
Antes de 16 de agosto de 2018, as versões de imagens eram criadas com o Debian 8 e omitiam o código de distribuição do SO. São especificados no seguinte formato:
version_major.version_minor.version_sub_minor
Versões 0.1 e 0.2
As versões de imagens lançadas como versões alfa ou beta antes da
disponibilidade geral da versão 1.0
do Dataproc
não estão sujeitas à
Política de apoio técnico do Dataproc.
Notas importantes sobre o controlo de versões
- As versões de imagens contêm os seguintes componentes:
- Componentes principais instalados em todos os clusters, como o Spark, o Hadoop e o Hive
- Componentes opcionais que especifica quando cria um cluster
- Os clusters do Dataproc não são atualizados automaticamente quando são lançadas novas versões de imagens.
- Recomendações:
- Execute clusters com a versão de imagem subminor mais recente.
Os metadados da imagem incluem uma etiqueta
previous-subminor
, que está definida comotrue
se o cluster não estiver a usar a versão subminor mais recente da imagem.- Para ver os metadados da imagem:
- Execute o seguinte comando
gcloud compute images list --filter
para listar o nome do recurso de uma imagem do Dataproc.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12
)" - Execute o seguinte comando
gcloud compute images describe
para ver os metadados da imagem.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Execute o seguinte comando
- Para ver os metadados da imagem:
- Teste e valide se as suas aplicações são executadas com êxito em clusters criados com novas versões de imagens, especialmente quando usa novas versões principais de imagens.