Gerenciar conexões do Airflow

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Nesta página, descrevemos como gerenciar conexões do Airflow no ambiente e acessar essas conexões nos DAGs.

Sobre as conexões do Airflow

As conexões do Airflow armazenam credenciais e outras informações de conexão, como nomes de usuários, strings de conexão e senhas. Seus DAGs usam conexões para se comunicar e acessar recursos no Google Cloud e em outros serviços dos seus DAGs.

Os operadores do Airflow nos seus DAGs usam uma conexão padrão para o operador ou você especifica um nome de conexão personalizado.

Sobre a segurança da conexão

A maioria dos operadores do Airflow não aceita credenciais diretamente. Em vez disso, elas usam conexões do Airflow.

Quando você cria um novo ambiente, o Cloud Composer gera uma chave fernet permanente e exclusiva para o ambiente e protege os extras de conexão por padrão. É possível conferir o fernet_key na página Configuração da interface do Airflow.

Para mais informações sobre como as conexões e senhas são protegidas no Airflow, consulte Como proteger conexões e Como mascarar dados sensíveis na documentação do Airflow.

Sobre os tipos de conexão

O Airflow usa conexões de diferentes tipos para se conectar a serviços específicos. Por exemplo, o Google Cloud tipo de conexão se conecta a outros serviços em Google Cloud. Como outro exemplo, o tipo de conexão do S3 se conecta a um bucket do Amazon S3.

Para adicionar um tipo de conexão ao Airflow, instale um pacote PyPI com esse tipo de conexão. Alguns pacotes vêm pré-instalados no ambiente. Por exemplo, é possível usar a conexão do pacote apache-airflow-providers-google sem instalar pacotes PyPI personalizados.

Conexões pré-configuradas

O Cloud Composer configura as seguintes conexões padrão no seu ambiente. É possível usar essas conexões para acessar recursos no seu projeto sem precisar configurá-los.

  • google_cloud_default
  • bigquery_default
  • google_cloud_datastore_default
  • google_cloud_storage_default

Adicionar uma conexão no Secret Manager

É possível armazenar uma conexão no Secret Manager sem adicioná-la ao Airflow. Recomendamos usar essa abordagem ao armazenar credenciais e outras informações sensíveis.

Para adicionar uma conexão no Secret Manager:

  1. Configure o Secret Manager para seu ambiente.

  2. Adicione um secret com o nome que corresponde ao padrão das conexões.

    Por exemplo, airflow-connections-example_connection. Nos seus DAGs, use o nome da conexão sem o prefixo: example_connection.

  3. Adicione parâmetros para a conexão:

    Formato JSON

    Adicione a representação JSON da sua conexão como o valor do secret. Exemplo:

    {
      "conn_type": "mysql",
      "host": "example.com",
      "login": "login",
      "password": "password",
      "port": "9000"
    }
    

    Para mais informações sobre o formato de conexão JSON, consulte a documentação do Airflow.

    Formato do URI

    Adicione a representação de URI da sua conexão como o valor do segredo:

    • O secret precisa armazenar uma representação de URI da conexão. Por exemplo, mysql://login:password@example.com:9000.

    • O URI precisa ser codificado por URL. Por exemplo, uma senha que tenha um símbolo de espaço precisa ser codificada em URL da seguinte maneira: mysql://login:secret%20password@example.com:9000.

    O Airflow tem um método de conveniência para gerar URIs de conexão. Um exemplo de como codificar um URL complexo com extras em JSON está disponível na documentação do Airflow.

  4. Verifique se todos os parâmetros de conexão foram lidos corretamente do Secret Manager.

Adicionar uma conexão no Airflow

Como alternativa ao armazenamento de conexões no Secret Manager, é possível armazená-las no Airflow.

Para adicionar uma conexão no Airflow:

CLI do Airflow

Execute o comando da CLI do Airflow connections add com a Google Cloud CLI. Exemplo:

gcloud composer environments run ENVIRONMENT_NAME \
  --location LOCATION \
  connections add -- \
    --conn-type "mysql" \
    --conn-host "example.com" \
    --conn-port "9000" \
    --conn-login "login" \
    --conn-password "password" \
    example_connection

Também é possível usar o argumento --conn-uri:

gcloud composer environments run ENVIRONMENT_NAME \
  --location LOCATION \
  connections add -- \
    --conn-uri "mysql://login:password@example.com:9000" \
    example_connection

Substitua:

  • ENVIRONMENT_NAME: o nome do ambiente;
  • LOCATION: a região em que o ambiente está localizado.

IU do Airflow

Siga a documentação do Airflow sobre como criar conexões.

Verificar se o Airflow lê uma conexão corretamente

É possível executar o comando da CLI do Airflow connections get pela Google Cloud CLI para verificar se uma conexão foi lida corretamente. Por exemplo, se você armazenar uma conexão no Secret Manager, isso vai permitir verificar se todos os parâmetros de uma conexão são lidos pelo Airflow de um secret.

gcloud composer environments run ENVIRONMENT_NAME \
    --location LOCATION \
    connections get \
    -- CONNECTION_NAME

Substitua:

  • ENVIRONMENT_NAME pelo nome do ambiente
  • LOCATION pela região em que o ambiente está localizado;
  • CONNECTION_NAME pelo nome da conexão. Se a conexão estiver armazenada no Secret Manager, use o nome sem o prefixo. Por exemplo, especifique example_connection em vez de airflow-connections-example_connection_json.

Exemplo:

gcloud composer environments run example-environment \
    --location us-central1 \
    connections get \
    -- example_connection -o json

Usar conexões do Airflow nos seus DAGs

Nesta seção, mostramos como acessar sua conexão de um DAG.

Usar uma conexão do Secret Manager

Use o nome da conexão sem o prefixo. Por exemplo, se o secret se chamar airflow-connections-aws_s3, especifique aws_s3.

transfer_dir_from_s3 = S3ToGCSOperator(
    task_id='transfer_dir_from_s3',
    aws_conn_id='aws_s3',
    prefix='data-for-gcs',
    bucket='example-s3-bucket-transfer-operators',
    dest_gcs='gs://us-central1-example-environ-361f4221-bucket/data/from-s3/')

Se você armazenar uma conexão padrão no Secret Manager, poderá omitir o nome da conexão. Consulte a documentação do Airflow para um operador específico e confira o nome da conexão padrão usado por ele. Por exemplo, o operador do Airflow S3ToGCSOperator usa a conexão aws_default por padrão. É possível armazenar essa conexão padrão em um secret chamado airflow-connections-aws_default.

Usar uma conexão armazenada no Airflow

Use o nome da conexão, conforme definido no Airflow:

transfer_dir_from_s3 = S3ToGCSOperator(
    task_id='transfer_dir_from_s3',
    aws_conn_id='aws_s3',
    prefix='data-for-gcs',
    bucket='example-s3-bucket-transfer-operators',
    dest_gcs='gs://us-central1-example-environ-361f4221-bucket/data/from-s3/')

Para usar a conexão padrão de um operador, omita o nome da conexão. Consulte a documentação do Airflow para um operador específico e confira o nome da conexão padrão usada por ele. Por exemplo, o operador S3ToGCSOperator do Airflow usa a conexão aws_default por padrão.

Solução de problemas

Se o ambiente não conseguir acessar o secret armazenado no Secret Manager:

  1. Verifique se o Secret Manager está configurado no seu ambiente.

  2. Confira se o nome da conexão no Secret Manager corresponde à conexão usada pelo Airflow. Por exemplo, para uma conexão chamada example_connection, o nome do secret é airflow-connections-example_connection.

  3. Verifique se o Airflow lê uma conexão corretamente.

A seguir