Criar um conector de origem do Pub/Sub

Os conectores de origem do Pub/Sub transmitem mensagens do Pub/Sub para o Kafka. Isso permite integrar o Pub/Sub aos seus aplicativos e pipelines de dados baseados no Kafka.

O conector lê mensagens de uma assinatura do Pub/Sub, converte cada mensagem em um registro do Kafka e grava os registros em um tópico do Kafka. Por padrão, o conector cria registros do Kafka da seguinte forma:

A chave de registro do Kafka é null.
O valor do registro do Kafka são os dados da mensagem do Pub/Sub como bytes.
Os cabeçalhos de registro do Kafka estão vazios.

No entanto, é possível configurar esse comportamento. Para mais informações, consulte Configurar o conector.

Antes de começar

Antes de criar um conector de origem do Pub/Sub, verifique se você tem o seguinte:

Um tópico do Pub/Sub com uma assinatura.
Um cluster do Serviço gerenciado para Apache Kafka.
Um tópico do Kafka no cluster do Kafka.
Um cluster do Connect. Ao criar o cluster do Connect, defina o cluster do Managed Service para Apache Kafka como o cluster principal do Kafka.

Papéis e permissões necessárias

Para receber as permissões necessárias para criar um conector de origem do Pub/Sub, peça ao administrador para conceder a você o papel do IAM Editor do conector gerenciado do Kafka (roles/managedkafka.connectorEditor) no projeto que contém o cluster do Connect. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para criar um conector de origem do Pub/Sub. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para criar um conector de origem do Pub/Sub:

Conceda a permissão para criar um conector no cluster pai do Connect: managedkafka.connectors.create

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Para mais informações sobre a função de editor do conector gerenciado do Kafka, consulte Funções predefinidas do Serviço Gerenciado para Apache Kafka.

Se o cluster do Serviço gerenciado para Apache Kafka estiver no mesmo projeto que o cluster do Connect, não serão necessárias outras permissões. Se o cluster do Connect estiver em um projeto diferente, consulte Criar um cluster do Connect em um projeto diferente.

Conceder permissões de leitura do Pub/Sub

A conta de serviço do Managed Kafka precisa ter permissão para ler mensagens da assinatura do Pub/Sub. Conceda os seguintes papéis do IAM à conta de serviço no projeto que contém a assinatura do Pub/Sub:

Assinante do Pub/Sub (roles/pubsub.subscriber)
Leitor do Pub/Sub (roles/pubsub.viewer)

A conta de serviço do Kafka gerenciado tem o seguinte formato: service-PROJECT_NUMBER@gcp-sa-managedkafka.iam.gserviceaccount.com. Substitua PROJECT_NUMBER pelo número do projeto.

Criar um conector de origem do Pub/Sub

Console

No console do Google Cloud , acesse a página Conectar clusters.

Acessar o Connect Clusters
Clique no cluster do Connect em que você quer criar o conector.
Clique em Criar conector.
Para o nome do conector, insira uma string.

Para conferir as diretrizes de nomeação de um conector, consulte Diretrizes de nomeação de um recurso do Serviço gerenciado para Apache Kafka.
Em Plug-in do conector, selecione Origem do Pub/Sub.
Na lista Assinatura do Cloud Pub/Sub, selecione uma assinatura do Pub/Sub. O conector extrai mensagens dessa assinatura. A assinatura é mostrada como um nome de recurso completo: projects/{project}/subscriptions/{subscription}.
Na lista Tópico do Kafka, selecione o tópico em que as mensagens são gravadas.
Opcional: na caixa Configurações, adicione propriedades de configuração ou edite as propriedades padrão. Para mais informações, consulte Configurar o conector.
Selecione a Política de reinicialização da tarefa. Para mais informações, consulte Política de reinicialização de tarefas.
Clique em Criar.

gcloud

Execute o comando gcloud managed-kafka connectors create:
```
gcloud managed-kafka connectors create CONNECTOR_ID \
    --location=LOCATION \
    --connect-cluster=CONNECT_CLUSTER_ID \
    --config-file=CONFIG_FILE
```
Substitua:
- CONNECTOR_ID: o ID ou nome do conector. Para conferir as diretrizes de nomeação de um conector, consulte Diretrizes de nomeação de um recurso do Serviço gerenciado para Apache Kafka. O nome de um conector é imutável.
- LOCATION: o local do cluster do Connect.
- CONNECT_CLUSTER_ID: o ID do cluster do Connect em que o conector é criado.
- CONFIG_FILE: o caminho para um arquivo de configuração YAML ou JSON.

Confira um exemplo de arquivo de configuração:

connector.class: "com.google.pubsub.kafka.source.CloudPubSubSourceConnector"
cps.project: "PROJECT_ID"
cps.subscription: "PUBSUB_SUBSCRIPTION_ID"
kafka.topic: "KAFKA_TOPIC_ID"
value.converter: "org.apache.kafka.connect.converters.ByteArrayConverter"
key.converter: "org.apache.kafka.connect.storage.StringConverter"
tasks.max: "3"

Substitua:

PROJECT_ID: o ID do projeto do Google Cloud em que a assinatura do Pub/Sub está localizada.
PUBSUB_SUBSCRIPTION_ID: o ID da assinatura do Pub/Sub de onde os dados serão extraídos.
KAFKA_TOPIC_ID: o ID do tópico do Kafka em que os dados são gravados.

As propriedades de configuração cps.project, cps.subscription e kafka.topic são obrigatórias. Para outras opções de configuração, consulte Configurar o conector.

Terraform

É possível usar um recurso do Terraform para criar um conector.

resource "google_managed_kafka_connector" "example-pubsub-source-connector" {
  project         = data.google_project.default.project_id
  connector_id    = "my-pubsub-source-connector"
  connect_cluster = google_managed_kafka_connect_cluster.default.connect_cluster_id
  location        = "us-central1"

  configs = {
    "connector.class"  = "com.google.pubsub.kafka.source.CloudPubSubSourceConnector"
    "name"             = "my-pubsub-source-connector"
    "tasks.max"        = "3"
    "kafka.topic"      = "GMK_TOPIC_ID"
    "cps.subscription" = "CPS_SUBSCRIPTION_ID"
    "cps.project"      = data.google_project.default.project_id
    "value.converter"  = "org.apache.kafka.connect.converters.ByteArrayConverter"
    "key.converter"    = "org.apache.kafka.connect.storage.StringConverter"
  }

  provider = google-beta
}

Para saber como aplicar ou remover uma configuração do Terraform, consulte Comandos básicos do Terraform.

Go

Antes de testar este exemplo, siga as instruções de configuração do Go em Instalar as bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Go do serviço gerenciado para Apache Kafka.

Para autenticar o Managed Service para Apache Kafka, configure o Application Default Credentials(ADC). Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

import (
	"context"
	"fmt"
	"io"

	managedkafka "cloud.google.com/go/managedkafka/apiv1"
	"cloud.google.com/go/managedkafka/apiv1/managedkafkapb"
	"google.golang.org/api/option"
)

// createPubSubSourceConnector creates a Pub/Sub Source connector.
func createPubSubSourceConnector(w io.Writer, projectID, region, connectClusterID, connectorID, kafkaTopic, cpsSubscription, cpsProject, tasksMax, valueConverter, keyConverter string, opts ...option.ClientOption) error {
	// TODO(developer): Update with your config values. Here is a sample configuration:
	// projectID := "my-project-id"
	// region := "us-central1"
	// connectClusterID := "my-connect-cluster"
	// connectorID := "CPS_SOURCE_CONNECTOR_ID"
	// kafkaTopic := "GMK_TOPIC_ID"
	// cpsSubscription := "CPS_SUBSCRIPTION_ID"
	// cpsProject := "GCP_PROJECT_ID"
	// tasksMax := "3"
	// valueConverter := "org.apache.kafka.connect.converters.ByteArrayConverter"
	// keyConverter := "org.apache.kafka.connect.storage.StringConverter"
	ctx := context.Background()
	client, err := managedkafka.NewManagedKafkaConnectClient(ctx, opts...)
	if err != nil {
		return fmt.Errorf("managedkafka.NewManagedKafkaConnectClient got err: %w", err)
	}
	defer client.Close()

	parent := fmt.Sprintf("projects/%s/locations/%s/connectClusters/%s", projectID, region, connectClusterID)

	// Pub/Sub Source sample connector configuration
	config := map[string]string{
		"connector.class":  "com.google.pubsub.kafka.source.CloudPubSubSourceConnector",
		"name":             connectorID,
		"tasks.max":        tasksMax,
		"kafka.topic":      kafkaTopic,
		"cps.subscription": cpsSubscription,
		"cps.project":      cpsProject,
		"value.converter":  valueConverter,
		"key.converter":    keyConverter,
	}

	connector := &managedkafkapb.Connector{
		Name:    fmt.Sprintf("%s/connectors/%s", parent, connectorID),
		Configs: config,
	}

	req := &managedkafkapb.CreateConnectorRequest{
		Parent:      parent,
		ConnectorId: connectorID,
		Connector:   connector,
	}

	resp, err := client.CreateConnector(ctx, req)
	if err != nil {
		return fmt.Errorf("client.CreateConnector got err: %w", err)
	}
	fmt.Fprintf(w, "Created Pub/Sub source connector: %s\n", resp.Name)
	return nil
}

Java

Antes de testar esta amostra, siga as instruções de configuração do Java em Instalar as bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Java do serviço gerenciado para Apache Kafka.

Para autenticar o serviço gerenciado para Apache Kafka, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.


import com.google.api.gax.rpc.ApiException;
import com.google.cloud.managedkafka.v1.ConnectClusterName;
import com.google.cloud.managedkafka.v1.Connector;
import com.google.cloud.managedkafka.v1.ConnectorName;
import com.google.cloud.managedkafka.v1.CreateConnectorRequest;
import com.google.cloud.managedkafka.v1.ManagedKafkaConnectClient;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

public class CreatePubSubSourceConnector {

  public static void main(String[] args) throws Exception {
    // TODO(developer): Replace these variables before running the example.
    String projectId = "my-project-id";
    String region = "my-region"; // e.g. us-east1
    String connectClusterId = "my-connect-cluster";
    String connectorId = "my-pubsub-source-connector";
    String pubsubProjectId = "my-pubsub-project-id";
    String subscriptionName = "my-subscription";
    String kafkaTopicName = "pubsub-topic";
    String connectorClass = "com.google.pubsub.kafka.source.CloudPubSubSourceConnector";
    String maxTasks = "3";
    String valueConverter = "org.apache.kafka.connect.converters.ByteArrayConverter";
    String keyConverter = "org.apache.kafka.connect.storage.StringConverter";
    createPubSubSourceConnector(
        projectId,
        region,
        connectClusterId,
        connectorId,
        pubsubProjectId,
        subscriptionName,
        kafkaTopicName,
        connectorClass,
        maxTasks,
        valueConverter,
        keyConverter);
  }

  public static void createPubSubSourceConnector(
      String projectId,
      String region,
      String connectClusterId,
      String connectorId,
      String pubsubProjectId,
      String subscriptionName,
      String kafkaTopicName,
      String connectorClass,
      String maxTasks,
      String valueConverter,
      String keyConverter)
      throws Exception {

    // Build the connector configuration
    Map<String, String> configMap = new HashMap<>();
    configMap.put("connector.class", connectorClass);
    configMap.put("name", connectorId);
    configMap.put("tasks.max", maxTasks);
    configMap.put("kafka.topic", kafkaTopicName);
    configMap.put("cps.subscription", subscriptionName);
    configMap.put("cps.project", pubsubProjectId);
    configMap.put("value.converter", valueConverter);
    configMap.put("key.converter", keyConverter);

    Connector connector = Connector.newBuilder()
        .setName(
            ConnectorName.of(projectId, region, connectClusterId, connectorId).toString())
        .putAllConfigs(configMap)
        .build();

    try (ManagedKafkaConnectClient managedKafkaConnectClient = ManagedKafkaConnectClient.create()) {
      CreateConnectorRequest request = CreateConnectorRequest.newBuilder()
          .setParent(ConnectClusterName.of(projectId, region, connectClusterId).toString())
          .setConnectorId(connectorId)
          .setConnector(connector)
          .build();

      // This operation is being handled synchronously.
      Connector response = managedKafkaConnectClient.createConnector(request);
      System.out.printf("Created Pub/Sub Source connector: %s\n", response.getName());
    } catch (IOException | ApiException e) {
      System.err.printf("managedKafkaConnectClient.createConnector got err: %s\n", e.getMessage());
    }
  }
}

Python

Antes de testar esta amostra, siga as instruções de configuração do Python em Instalar as bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Python do serviço gerenciado para Apache Kafka.

Para autenticar o serviço gerenciado para Apache Kafka, configure o Application Default Credentials. Para mais informações, consulte Configurar o ADC para um ambiente de desenvolvimento local.

from google.api_core.exceptions import GoogleAPICallError
from google.cloud.managedkafka_v1.services.managed_kafka_connect import (
    ManagedKafkaConnectClient,
)
from google.cloud.managedkafka_v1.types import Connector, CreateConnectorRequest

connect_client = ManagedKafkaConnectClient()
parent = connect_client.connect_cluster_path(project_id, region, connect_cluster_id)

configs = {
    "connector.class": "com.google.pubsub.kafka.source.CloudPubSubSourceConnector",
    "name": connector_id,
    "tasks.max": tasks_max,
    "kafka.topic": kafka_topic,
    "cps.subscription": cps_subscription,
    "cps.project": cps_project,
    "value.converter": value_converter,
    "key.converter": key_converter,
}

connector = Connector()
connector.name = connector_id
connector.configs = configs

request = CreateConnectorRequest(
    parent=parent,
    connector_id=connector_id,
    connector=connector,
)

try:
    operation = connect_client.create_connector(request=request)
    print(f"Waiting for operation {operation.operation.name} to complete...")
    response = operation.result()
    print("Created Connector:", response)
except GoogleAPICallError as e:
    print(f"The operation failed with error: {e}")

Depois de criar um conector, é possível editar, excluir, pausar, interromper ou reiniciar.

Configurar o conector

Nesta seção, descrevemos algumas propriedades de configuração que podem ser definidas no conector.

Para uma lista completa das propriedades específicas desse conector, consulte Configurações do conector de origem do Pub/Sub.

Modo pull

O modo de extração especifica como o conector recupera mensagens do Pub/Sub. Estes são os modos compatíveis:

Modo pull (padrão). As mensagens são extraídas em lotes. Para ativar esse modo, defina cps.streamingPull.enabled=false.. Para configurar o tamanho do lote, defina a propriedade cps.maxBatchSize.

Para mais informações sobre o modo de extração, consulte API Pull.
Modo de pull de streaming. Permite a capacidade máxima e a menor latência ao recuperar mensagens do Pub/Sub. Para ativar esse modo, defina cps.streamingPull.enabled=true.

Para mais informações sobre o modo de extração por streaming, consulte API StreamingPull.

Se o streaming pull estiver ativado, você poderá ajustar o desempenho definindo as seguintes propriedades de configuração:
- cps.streamingPull.flowControlBytes: o número máximo de bytes de mensagem pendentes por tarefa.
- cps.streamingPull.flowControlMessages: o número máximo de mensagens pendentes por tarefa.
- cps.streamingPull.maxAckExtensionMs: o período máximo em que o conector estende o prazo de inscrição, em milissegundos.
- cps.streamingPull.maxMsPerAckExtension: o período máximo em que o conector estende o prazo de inscrição por extensão, em milissegundos.
- cps.streamingPull.parallelStreams: o número de streams para extrair mensagens da assinatura.

Endpoint do Pub/Sub

Por padrão, o conector usa o endpoint global do Pub/Sub. Para especificar um endpoint, defina a propriedade cps.endpoint como o endereço do endpoint. Para mais informações sobre endpoints, consulte Endpoints do Pub/Sub.

Registros do Kafka

O conector de origem do Pub/Sub converte mensagens do Pub/Sub em registros do Kafka. As seções a seguir descrevem o processo de conversão.

Chave de registro

O conversor de chaves precisa ser org.apache.kafka.connect.storage.StringConverter.

Por padrão, as chaves de registro são null.
Para usar um atributo de mensagem do Pub/Sub como chave, defina kafka.key.attribute como o nome do atributo. Por exemplo, kafka.key.attribute=username.
Para usar a chave de ordenação do Pub/Sub como chave, defina kafka.key.attribute=orderingKey.

Gravar cabeçalhos

Por padrão, os cabeçalhos de registro ficam vazios.

Se kafka.record.headers for true, os atributos da mensagem do Pub/Sub serão gravados como cabeçalhos de registro. Para incluir a chave de ordenação, defina cps.makeOrderingKeyAttribute=true.

Valor do registro

Se kafka.record.headers for true ou se a mensagem do Pub/Sub não tiver atributos personalizados, o valor do registro será os dados da mensagem, como uma matriz de bytes. Defina o conversor de valores como org.apache.kafka.connect.converters.ByteArrayConverter.

Caso contrário, se kafka.record.headers for false e a mensagem tiver pelo menos um atributo personalizado, o conector vai gravar o valor do registro como um struct. Defina o conversor de valores como org.apache.kafka.connect.json.JsonConverter.

O struct contém os seguintes campos:

message: os dados da mensagem do Pub/Sub, em bytes.
Um campo para cada atributo de mensagem do Pub/Sub. Para incluir a chave de ordenação, defina cps.makeOrderingKeyAttribute=true.

Por exemplo, supondo que a mensagem tenha um atributo username:

{
  "message":"MESSAGE_DATA",
  "username":"Alice"
}

Se value.converter.schemas.enable for true, o struct vai incluir a carga útil e o esquema:

{
  "schema":
    {
      "type":"struct",
      "fields": [
        {
          "type":"bytes",
          "optional":false,
          "field":"message"
        },
        {
          "type":"string",
          "optional":false,
          "field":"username"
        }
      ],
      "optional":false
    },
    "payload": {
      "message":"MESSAGE_DATA",
      "username":"Alice"
    }
}

Partições do Kafka

Por padrão, o conector grava em uma única partição no tópico. Para especificar em quantas partições o conector grava, defina a propriedade kafka.partition.count. O valor não pode exceder a contagem de partições do tópico.

Para especificar como o conector atribui mensagens a partições, defina a propriedade kafka.partition.scheme. Para mais informações, consulte Configurações do conector de origem do Pub/Sub.

A seguir

Apache Kafka® é uma marca registrada da The Apache Software Foundation ou afiliadas nos Estados Unidos e/ou em outros países.

Criar um conector de origem do Pub/Sub Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Papéis e permissões necessárias

Permissões necessárias

Conceder permissões de leitura do Pub/Sub

Criar um conector de origem do Pub/Sub

Console

gcloud

Terraform

Go

Java

Python

Configurar o conector

Modo pull

Endpoint do Pub/Sub

Registros do Kafka

Chave de registro

Gravar cabeçalhos

Valor do registro

Partições do Kafka

A seguir

Criar um conector de origem do Pub/Sub