Resolver problemas de instalação do pacote PyPI

Airflow gerenciado (Geração 3) | Airflow gerenciado (Geração 2) | Airflow gerenciado (Geração 1 legada)

Nesta página, explicamos como solucionar conflitos de dependência ao instalar pacotes PyPI personalizados.

Os problemas mais comuns com os pacotes PyPI que podem ocorrer no Airflow gerenciado são conflitos de dependência.

Quando você especifica um novo pacote PyPI personalizado a ser instalado, esse pacote ou a versão dele podem causar conflitos de dependência com outros pacotes PyPI personalizados ou pacotes pré-instalados no ambiente. Nesse caso, a operação de atualização do ambiente falha com um erro.

Erros de build do Cloud Build e no cluster

Se ocorrer um problema com os pacotes, você receberá uma mensagem de erro de acordo com a maneira como o ambiente está implantado:

  • Cloud Build. Uma mensagem de erro e um link para o registro do Cloud Build. Exemplo:

    UPDATE operation on this environment failed 25 minutes ago with the
    following error message:
    Failed to install PyPI packages.  Check the Cloud Build log at ...
    
  • Builds no cluster. Uma mensagem de erro e o local dos registros do build. Exemplo:

    UPDATE operation on this environment failed 17 minutes ago with the
    following error message:
    Failed to install PyPI packages.  Check the in-cluster build logs for
    details. They can be found in the Environment logs under the build-log-*
    log name.
    

Veja a mensagem de erro detalhada

Quando uma instalação de pacote falha, o pip informa a mensagem de erro detalhada. Essa mensagem de erro fica nos registros do build.

Localizar o erro de pip nos registros do Cloud Build

Clique no link da mensagem de erro do Cloud Build ou localize os registros do build:

  1. Localize os registros do build:

    1. No Google Cloud console, acesse a página Histórico de builds.

      Acesse o histórico de builds

    2. Selecione o build com falha para ver os registros.

  2. No registro do build, localize a mensagem de erro de pip. Exemplo:

    ERROR: apache-airflow-backport-providers-google 2021.2.5 has requirement
    google-cloud-logging<3.0.0,>=2.1.1, but you'll have google-cloud-logging
    1.15.0 which is incompatible.
    

Localize o erro pip nos registros de criação no cluster.

  1. Localize os registros do build:

    1. No Google Cloud console, acesse a página Ambientes.

      Acessar "Ambientes"

    2. Selecione o ambiente.

    3. Abra a guia Registros.

    4. Selecione Todos os registros > Registros do Composer > Builds > Imagem do worker e do programador.

    5. Na lista suspensa Gravidade, selecione Informações.

  2. Nos registros exibidos:

    1. Localize a mensagem de erro installer.sh. Exemplo:

      The command '/bin/sh -c bash installer.sh $COMPOSER_PYTHON_VERSION
      fail' returned a non-zero code: 1
      
    2. As mensagens de informações anteriores detalham o erro pip. Exemplo:

      apache-airflow-backport-providers-google 2021.2.5 has requirement
      google-cloud-logging<3.0.0,>=2.1.1, but you have
      google-cloud-logging 1.15.0.
      

Tempos limite durante a instalação do pacote Python

Nas versões recentes, o utilitário pip mudou o comportamento ao tentar atender às dependências. Se as dependências especificadas não puderem ser atendidas, o pip vai passar por todas as versões disponíveis de um pacote.

Quando você instala um pacote, o seguinte acontece:

  1. Se o pacote já estiver pré-instalado no ambiente e as dependências do Python especificadas não exigirem mudanças, o pacote permanecerá como está.

    Exemplo: aiodebug==2.3.0 está instalado e você especifica aiodebug ou aiodebug>=2.

  2. Se o pacote ainda não estiver instalado no ambiente ou não atender às dependências do Python especificadas, o pip vai tentar usar a versão mais recente que atenda às dependências. Essa é a versão mais recente do pacote se você não especificou uma versão ou a versão mais recente do pacote que atende às restrições especificadas.

    Exemplo: se você especificar aiodebug, a versão mais recente será instalada (2.*.*). Se você especificar aiodebug<2, a versão 1.*.* será instalada.

    Se essa versão causar conflitos de dependência com pacotes pré-instalados, o pip vai passar por todas as versões disponíveis do pacote para tentar atender à dependência especificada. Quando isso acontecer, as seguintes mensagens vão aparecer no registro do build:

    INFO: pip is looking at multiple versions of PYTHON_PACKAGE_NAME
    to determine which version is compatible with other requirements.
    This could take a while.
    

    Antes da mudança, o pip falhava com um conflito de dependência sem verificar outras versões.

Passar por todas as versões disponíveis pode levar muito tempo e levar a um downgrade de pacotes ou a um tempo limite durante a instalação do pacote Python.

Os pacotes pré-instalados no Airflow gerenciado são atualizados regularmente para as versões mais recentes por motivos de segurança. Portanto, um tempo limite também pode ocorrer quando você faz upgrade de um ambiente para uma versão mais recente do Airflow gerenciado.

Possíveis soluções :

  • Atualize regularmente as dependências personalizadas do Python.

  • Use PythonVirtualenvOperator para isolar snippets de código que exigem pacotes conflitantes.

Conflitos com pacotes PyPI pré-instalados

Alguns conflitos de pacotes ocorrem entre pacotes PyPI personalizados que você instala e os pacotes pré-instalados.

É possível conferir a lista completa de pacotes pré-instalados da sua versão do Airflow gerenciado na página Versões do Airflow gerenciado.

Para resolver esse problema, faça o seguinte:

  • Instale uma versão diferente do pacote PyPI personalizado.

  • Instale uma versão diferente do pacote pré-instalado. Para fazer isso, instale um pacote PyPI personalizado com o nome do pacote pré-instalado e especifique a versão necessária. Não é recomendável fazer downgrade de pacotes pré-instalados.

  • Confira se as versões mais recentes do Airflow gerenciado usam uma versão diferente do pacote pré-instalado. É possível verificar possíveis conflitos de pacotes PyPI antes de fazer upgrade do ambiente para uma versão mais recente do Airflow gerenciado.

  • Use PythonVirtualenvOperator para isolar snippets de código que exigem pacotes conflitantes.

Servidor de metadados indisponível ao instalar pacotes PyPI

Se o ambiente usar um arquivo personalizado pip.conf, você poderá enfrentar um problema quando nenhum novo pacote PyPI puder ser instalado no ambiente. Nos registros do Cloud Build relacionados ao erro de instalação do pacote, você pode conferir a seguinte mensagem de aviso:

WARNING: Compute Engine Metadata server unavailable on attempt 3 of 3. Reason:
timed out
WARNING: Authentication failed using Compute Engine authentication due to
unavailable metadata server.

Esse problema é causado por um arquivo pip.conf que não permite acesso ao índice de pacotes padrão em https://pypi.org/simple. Por exemplo, se o arquivo pip.conf permitir apenas a instalação de pacotes de um repositório personalizado do Artifact Registry devido ao parâmetro index-url redefinido, a instalação de pacotes do índice de pacotes padrão não estará disponível.

Para resolver esse problema, verifique se o índice de pacotes https://pypi.org/simple foi adicionado ao arquivo pip.conf. Por exemplo, se o índice de pacotes principal estiver definido no parâmetro index-url, adicione o https://pypi.org/simple índice no parâmetro extra-index-url.

A seguir