Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cargar datos de PostgreSQL en BigQuery

Puede cargar datos de PostgreSQL en BigQuery mediante el conector de BigQuery Data Transfer Service para PostgreSQL. El conector admite instancias de PostgreSQL alojadas en tu entorno local, Cloud SQL y otros proveedores de servicios en la nube pública, como Amazon Web Services (AWS) y Microsoft Azure. Con BigQuery Data Transfer Service, puedes programar tareas de transferencia periódicas que añadan tus datos más recientes de PostgreSQL a BigQuery.

Limitaciones

Las transferencias de datos de PostgreSQL están sujetas a las siguientes limitaciones:

El número máximo de ejecuciones de transferencia simultáneas a una sola base de datos de PostgreSQL se determina en función del número máximo de conexiones simultáneas admitidas por la base de datos de PostgreSQL. El número de trabajos de transferencia simultáneos debe limitarse a un valor inferior al número máximo de conexiones simultáneas admitidas por la base de datos PostgreSQL.
Una configuración de transferencia solo puede admitir una ejecución de transferencia de datos a la vez. Si se programa una segunda transferencia de datos para que se ejecute antes de que se complete la primera, solo se completará la primera transferencia de datos y se omitirán las demás transferencias de datos que se solapen con la primera.
- Para evitar que se omitan transferencias en una misma configuración de transferencia, le recomendamos que aumente el tiempo que transcurre entre las transferencias de grandes cantidades de datos configurando la frecuencia de repetición.
Durante una transferencia de datos, el conector de PostgreSQL identifica las columnas de clave indexadas y particionadas para transferir los datos en lotes paralelos. Por este motivo, le recomendamos que especifique columnas de clave principal o que use columnas indexadas en su tabla para mejorar el rendimiento y reducir la tasa de errores en sus transferencias de datos.
- Si tiene restricciones de clave principal o indexada, solo se admiten los siguientes tipos de columna para crear lotes paralelos:
  - INTEGER
  - TINYINT
  - SMALLINT
  - FLOAT
  - REAL
  - DOUBLE
  - NUMERIC
  - BIGINT
  - DECIMAL
  - DATE
- Las transferencias de datos de PostgreSQL que no usan claves principales ni columnas indexadas no pueden admitir más de 2.000.000 de registros por tabla.

Opciones de ingestión de datos

En las secciones siguientes se ofrece información sobre las opciones de ingestión de datos al configurar una transferencia de datos de PostgreSQL.

Configuración de TLS

El conector de PostgreSQL admite la configuración de la seguridad a nivel de transporte (TLS) para cifrar las transferencias de datos a BigQuery. El conector de PostgreSQL admite las siguientes configuraciones de TLS:

Encriptar datos y verificar la CA y el nombre de host: este modo realiza una validación completa del servidor mediante TLS a través del protocolo TCPS. Encripta todos los datos en tránsito y verifica que el certificado del servidor de la base de datos esté firmado por una autoridad de certificación (CA) de confianza. Este modo también comprueba que el nombre de host al que te conectas coincide exactamente con el nombre común o con un nombre alternativo del sujeto del certificado del servidor. Este modo evita que los atacantes usen un certificado válido para un dominio diferente con el fin de suplantar la identidad de tu servidor de base de datos.
- Si el nombre de host no coincide con el nombre común o el nombre alternativo del sujeto del certificado, la conexión fallará. Debes configurar una resolución de DNS que coincida con el certificado o usar otro modo de seguridad.
- Usa este modo para disfrutar de la opción más segura y evitar ataques de intermediario (PITM).
Cifrar datos y verificar solo la autoridad de certificación: este modo cifra todos los datos mediante TLS a través del protocolo TCPS y verifica que el certificado del servidor esté firmado por una autoridad de certificación en la que confíe el cliente. Sin embargo, este modo no verifica el nombre de host del servidor. Este modo se conecta correctamente siempre que el certificado sea válido y lo haya emitido una VA de confianza, independientemente de si el nombre de host del certificado coincide con el nombre de host al que te estás conectando.
- Usa este modo si quieres asegurarte de que te conectas a un servidor cuyo certificado esté firmado por una CA de confianza, pero el nombre de host no se puede verificar o no tienes control sobre la configuración del nombre de host.
Solo cifrado: este modo cifra todos los datos que se transfieren entre el cliente y el servidor. No realiza ninguna validación de certificados ni de nombres de host.
- Este modo proporciona cierto nivel de seguridad al proteger los datos en tránsito, pero puede ser vulnerable a ataques PITM.
- Usa este modo si necesitas asegurarte de que todos los datos estén cifrados, pero no puedes o no quieres verificar la identidad del servidor. Te recomendamos que uses este modo cuando trabajes con VPCs privadas.
Sin cifrado ni verificación: en este modo no se cifra ningún dato y no se realiza ninguna verificación de certificado ni de nombre de host. Todos los datos se envían como texto sin formato.
- No recomendamos usar este modo en un entorno en el que se gestionen datos sensibles.
- Solo recomendamos usar este modo para hacer pruebas en una red aislada en la que la seguridad no sea un problema.

Certificado de servidor de confianza (PEM)

Si usas el modo Cifrar datos y verificar AC y nombre de host o el modo Cifrar datos y verificar AC, también puedes proporcionar uno o varios certificados codificados en PEM. Estos certificados son necesarios en algunos casos en los que el servicio BigQuery Data Transfer Service debe verificar la identidad de tu servidor de bases de datos durante la conexión TLS:

Si usas un certificado firmado por una AC privada de tu organización o un certificado autofirmado, debes proporcionar la cadena de certificados completa o el certificado autofirmado. Esto es necesario para los certificados emitidos por las AC internas de los servicios gestionados de proveedores de servicios en la nube, como Amazon Relational Database Service (RDS).
Si el certificado de tu servidor de bases de datos está firmado por una autoridad de certificación pública (por ejemplo, Let's Encrypt, DigiCert o GlobalSign), no tienes que proporcionar ningún certificado. Los certificados raíz de estas autoridades de certificación públicas están preinstalados y son de confianza para BigQuery Data Transfer Service.

Puede proporcionar certificados codificados en PEM en el campo Certificado PEM de confianza al crear una configuración de transferencia de PostgreSQL, con los siguientes requisitos:

El certificado debe ser una cadena de certificados válida codificada en PEM.
El certificado debe ser totalmente correcto. Si falta algún certificado en la cadena o el contenido es incorrecto, la conexión TLS fallará.
En el caso de un solo certificado, puedes proporcionar un certificado autofirmado único desde el servidor de la base de datos.
En el caso de una cadena de certificados completa emitida por una CA privada, debe proporcionar la cadena de confianza completa. Esto incluye el certificado del servidor de la base de datos y los certificados de CA intermedios y raíz.

Antes de empezar

Crea un usuario en la base de datos de PostgreSQL.
Comprueba que has completado todas las acciones necesarias para habilitar BigQuery Data Transfer Service.
Crea un conjunto de datos de BigQuery para almacenar tus datos.
Asegúrate de que tienes los roles necesarios para completar las tareas que se describen en este documento.

Roles obligatorios

Si quieres configurar notificaciones de ejecuciones de transferencias para Pub/Sub, asegúrate de que tienes el permiso de pubsub.topics.setIamPolicyGestión de Identidades y Accesos (IAM). No se necesitan permisos de Pub/Sub si solo configuras notificaciones por correo electrónico. Para obtener más información, consulta el artículo sobre las notificaciones de ejecución de BigQuery Data Transfer Service.

Para obtener los permisos que necesitas para crear una transferencia de datos de BigQuery Data Transfer Service, pide a tu administrador que te asigne el rol de gestión de identidades y accesos Administrador de BigQuery (roles/bigquery.admin) en tu proyecto. Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para crear una transferencia de datos de BigQuery Data Transfer Service. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para crear una transferencia de datos de BigQuery Data Transfer Service, se necesitan los siguientes permisos:

Permisos de BigQuery Data Transfer Service:
- bigquery.transfers.update
- bigquery.transfers.get
Permisos de BigQuery:
- bigquery.datasets.get
- bigquery.datasets.getIamPolicy
- bigquery.datasets.update
- bigquery.datasets.setIamPolicy
- bigquery.jobs.create

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Para obtener más información, consulta Conceder acceso a bigquery.admin.

Conexiones de red

Si no hay disponible ninguna dirección IP pública para la conexión de la base de datos PostgreSQL, debes configurar un adjunto de red.

Para obtener instrucciones detalladas sobre la configuración de red necesaria, consulta los siguientes documentos:

Si vas a transferir datos desde Cloud SQL, consulta el artículo Configurar el acceso a la instancia de Cloud SQL.
Si vas a transferir datos desde AWS, consulta el artículo Configurar la VPN y la conexión de red de AWSGoogle Cloud .
Si vas a transferir datos desde Azure, consulta Configurar la VPN de Azure y la conexión de red.Google Cloud

Configurar una transferencia de datos de PostgreSQL

Añada datos de PostgreSQL a BigQuery configurando una transferencia con una de las siguientes opciones:

Consola

Ve a la página Transferencias de datos.

Ir a Transferencias de datos
Haz clic en Crear transferencia.
En la sección Tipo de fuente, en Fuente, seleccione PostgreSQL.
En la sección Nombre de la configuración de transferencia, en Nombre visible, indica un nombre para la transferencia. El nombre de la transferencia puede ser cualquier valor que te permita identificarla si necesitas modificarla más adelante.
En la sección Opciones de programación, haga lo siguiente:
- Selecciona una frecuencia de repetición. Si selecciona la opción Horas, Días (opción predeterminada), Semanas o Meses, también debe especificar una frecuencia. También puedes seleccionar la opción Personalizado para crear una frecuencia de repetición más específica. Si seleccionas la opción Bajo demanda, esta transferencia de datos solo se realizará cuando la inicies manualmente.
- Si procede, selecciona la opción Empezar ahora o Empezar a una hora determinada y proporciona una fecha de inicio y un tiempo de ejecución.
En la sección Configuración de destino, en Conjunto de datos, seleccione el conjunto de datos que ha creado para almacenar sus datos o haga clic en Crear conjunto de datos y cree uno para usarlo como conjunto de datos de destino.
En la sección Detalles de la fuente de datos, haga lo siguiente:
- En Red adjunta, selecciona una red adjunta o haz clic en Crear red adjunta. Para obtener más información, consulta la sección Conexiones de red de este documento.
- En Host (Host), introduce el nombre de host o la dirección IP del servidor de la base de datos PostgreSQL.
- En Número de puerto, introduce el número de puerto del servidor de bases de datos PostgreSQL.
- En Nombre de la base de datos, introduce el nombre de la base de datos de PostgreSQL.
- En Nombre de usuario, introduce el nombre de usuario de PostgreSQL que inicia la conexión con la base de datos de PostgreSQL.
- En Contraseña, introduce la contraseña del usuario de PostgreSQL que inicia la conexión con la base de datos de PostgreSQL.
- En Modo TLS, selecciona una opción del menú. Para obtener más información sobre los modos de TLS, consulta Configuración de TLS.
- En Certificado PEM de confianza, introduce el certificado público de la autoridad de certificación (CA) que emitió el certificado TLS del servidor de la base de datos. Para obtener más información, consulta Certificado de servidor de confianza (PEM).
- Para transferir objetos de PostgreSQL, haz una de las siguientes acciones:
  - Haz clic en Examinar para seleccionar las tablas de PostgreSQL que se necesiten para la transferencia y, a continuación, haz clic en Seleccionar.
  - Introduce manualmente los nombres de las tablas de los objetos de PostgreSQL que quieras transferir.
Opcional: En la sección Opciones de notificación, haz lo siguiente:
- Para habilitar las notificaciones por correo, haz clic en el interruptor Notificaciones por correo para activarlo. Si habilitas esta opción, el administrador de la transferencia recibirá una notificación por correo cuando falle una ejecución de la transferencia.
- Para configurar las notificaciones de Pub/Sub sobre la transferencia, activa el interruptor Notificaciones de Pub/Sub. Puedes seleccionar el tema o hacer clic en Crear un tema para crear uno.
Haz clic en Guardar.

bq

Introduce el comando bq mk y proporciona la marca de creación de transferencia --transfer_config:

bq mk
    --transfer_config
    --project_id=PROJECT_ID
    --data_source=DATA_SOURCE
    --display_name=DISPLAY_NAME
    --target_dataset=DATASET
    --params='PARAMETERS'

Haz los cambios siguientes:

PROJECT_ID (opcional): su ID de proyecto. Google Cloud Si no se proporciona la marca --project_id para especificar un proyecto concreto, se usará el proyecto predeterminado.
DATA_SOURCE: la fuente de datos, que es postgresql.
DISPLAY_NAME: el nombre visible de la configuración de transferencia de datos. El nombre de la transferencia puede ser cualquier valor que te permita identificarla si necesitas modificarla más adelante.
DATASET: el conjunto de datos de destino de la configuración de transferencia de datos.
PARAMETERS: los parámetros de la configuración de transferencia creada en formato JSON. Por ejemplo: --params='{"param":"param_value"}'. Estos son los parámetros de una transferencia de PostgreSQL:
- connector.networkAttachment (opcional): nombre del adjunto de red para conectarse a la base de datos PostgreSQL.
- connector.database: el nombre de la base de datos PostgreSQL.
- connector.endpoint.host: el nombre de host o la dirección IP de la base de datos.
- connector.endpoint.port: número de puerto de la base de datos.
- connector.authentication.username: nombre de usuario de la base de datos.
- connector.authentication.password: contraseña del usuario de la base de datos.
- connector.tls.mode: especifica una configuración de TLS que se va a usar con esta transferencia:
  - ENCRYPT_VERIFY_CA_AND_HOST para cifrar los datos y verificar la AC y el nombre de host
  - ENCRYPT_VERIFY_CA para cifrar datos y verificar solo la AC
  - ENCRYPT_VERIFY_NONE solo para el cifrado de datos
  - DISABLE si no quieres usar cifrado ni verificación
- connector.tls.trustedServerCertificate: (opcional) proporcione uno o varios certificados codificados en PEM. Obligatorio solo si connector.tls.mode es ENCRYPT_VERIFY_CA_AND_HOST o ENCRYPT_VERIFY_CA.
- assets: lista de los nombres de las tablas de PostgreSQL que se van a transferir de la base de datos de PostgreSQL como parte de la transferencia.

Por ejemplo, el siguiente comando crea una transferencia de PostgreSQL llamada My Transfer:

bq mk
    --transfer_config
    --target_dataset=mydataset
    --data_source=postgresql
    --display_name='My Transfer'
    --params='{"assets":["DB1/PUBLIC/DEPARTMENT","DB1/PUBLIC/EMPLOYEES"],
        "connector.authentication.username": "User1",
        "connector.authentication.password":"ABC12345",
        "connector.database":"DB1",
        "connector.endpoint.host":"192.168.0.1",
        "connector.endpoint.port":5432,
        "connector.tls.mode": "ENCRYPT_VERIFY_CA_AND_HOST",
        "connector.tls.trustedServerCertificate": "PEM-encoded certificate"}'

API

Usa el método projects.locations.transferConfigs.create y proporciona una instancia del recurso TransferConfig.

Cuando guardas la configuración de la transferencia, el conector de PostgreSQL activa automáticamente una ejecución de la transferencia según la opción de programación que hayas elegido. En cada ejecución de la transferencia, el conector de PostgreSQL transfiere todos los datos disponibles de PostgreSQL a BigQuery.

Para ejecutar manualmente una transferencia de datos fuera de tu programación habitual, puedes iniciar una ejecución de rellenado.

Asignación de tipos de datos

En la siguiente tabla se asignan los tipos de datos de PostgreSQL a los tipos de datos de BigQuery correspondientes.

Tipo de datos de PostgreSQL	Tipo de datos de BigQuery
`array`	`STRING`
`bigint`	`INTEGER`
`bigserial`	`INTEGER`
`bit(n)`	`STRING`
`bit varying(n)`	`STRING`
`boolean`	`BOOLEAN`
`box`	`STRING`
`bytea`	`BYTES`
`character`	`STRING`
`character varying`	`STRING`
`cidr`	`STRING`
`circle`	`STRING`
`circularstring`	`STRING`
`compoundcurve`	`STRING`
`curvepolygon`	`STRING`
`date`	`DATE`
`double precision`	`FLOAT`
`enum`	`STRING`
`geometrycollection`	`STRING`
`inet`	`STRING`
`integer`	`INTEGER`
`interval`	`STRING`
`json`	`JSON`
`jsonb`	`JSON`
`line`	`STRING`
`linestring`	`STRING`
`lseg`	`STRING`
`macaddr`	`STRING`
`macaddr8`	`STRING`
`money`	`STRING`
`multicurve`	`STRING`
`multilinestring`	`STRING`
`multipoint`	`STRING`
`multipolygon`	`STRING`
`multisurface`	`STRING`
`numeric(precision, scale)/decimal(precision, scale)`	`NUMERIC`
`path`	`STRING`
`point`	`STRING`
`polygon`	`STRING`
`polyhedralsurface`	`STRING`
`range`	`STRING`
`real`	`FLOAT`
`serial`	`INTEGER`
`smallint`	`INTEGER`
`smallserial`	`INTEGER`
`text`	`STRING`
`time [ (p) ] [ without timezone ]`	`TIMESTAMP`
`time [ (p) ] with time zone`	`TIMESTAMP`
`tin`	`STRING`
`timestamp [ (p) ] [ without timezone ]`	`TIMESTAMP`
`timestamp [ (p) ] with time zone`	`TIMESTAMP`
`triangle`	`STRING`
`tsquery`	`STRING`
`tsvector`	`STRING`
`uuid`	`STRING`
`xml`	`STRING`

Solucionar problemas

Si tienes problemas para configurar la transferencia de datos, consulta Problemas de transferencia de PostgreSQL.

Precios

Para obtener información sobre los precios de las transferencias de PostgreSQL, consulta los precios de Data Transfer Service.

Siguientes pasos

Para obtener una descripción general de BigQuery Data Transfer Service, consulta ¿Qué es BigQuery Data Transfer Service?
Para obtener información sobre cómo usar las transferencias, como obtener información sobre una configuración de transferencia, enumerar configuraciones de transferencia y ver el historial de ejecuciones de una transferencia, consulta Gestionar transferencias.
Consulta cómo cargar datos con operaciones entre nubes.