Fuente por lotes de la base de datos

En esta página, se proporciona orientación para configurar el complemento de origen por lotes de la base de datos en Cloud Data Fusion.

Puedes usar esta fuente genérica siempre que necesites leer desde una base de datos. Por ejemplo, puedes usarla para crear instantáneas diarias de una tabla de base de datos genérica y escribir el resultado en BigQuery.

Configura el complemento

  1. Ve a la interfaz web de Cloud Data Fusion y haz clic en Studio.
  2. Verifica que esté seleccionado Canalización de datos: por lotes (no En tiempo real).
  3. En el menú Fuente, haz clic en Base de datos.
  4. Para configurar el complemento, mantén el puntero sobre el nodo del complemento y haz clic en Propiedades.
  5. Ingresa las siguientes propiedades. Para obtener más información sobre cada propiedad, consulta Propiedades.

    1. Ingresa una Etiqueta para el nodo de la base de datos, por ejemplo, database tables.
    2. Ingresa los detalles de la conexión. Puedes configurar una conexión nueva y única, o una conexión existente y reutilizable.

      Nueva conexión

      Para agregar una conexión única a la base de datos, sigue estos pasos:

      1. Mantén Usar conexión desactivado.
      2. Ingresa las siguientes propiedades de conexión:
        1. En el campo Nombre del controlador JDBC, ingresa el nombre del controlador, si hay uno. De lo contrario, mantén seleccionado Sin complementos de JDBC.
        2. En el campo String de conexión, ingresa la cadena de conexión de JDBC, incluido el nombre de la base de datos.
        3. Opcional: Si tu base de datos requiere autenticación, ingresa las credenciales de nombre de usuario y contraseña de la base de datos.
        4. Opcional: Si tu controlador JDBC necesita configuraciones adicionales, en el campo Argumentos de conexión, ingresa argumentos par clave-valor para la conexión.

      Conexión reutilizable

      Para reutilizar una conexión existente, sigue estos pasos:

      1. Activa Usar conexión.
      2. Haz clic en Browse connections.
      3. Selecciona la conexión.

      4. Opcional: Si no existe una conexión y deseas crear una nueva y reutilizable, haz clic en Agregar conexión y consulta los pasos en la pestaña Nueva conexión de esta página.

    3. Opcional: Para probar la conectividad, haz clic en Obtener esquema. Este esquema se usa en lugar de cualquier esquema que regrese de la consulta. Debe coincidir con el esquema que regresa de la consulta, excepto que puedes marcar los campos como anulables y puede contener un subconjunto de los campos.

    4. En el campo Importar consulta, ingresa una consulta SELECT para importar datos de la tabla especificada, por ejemplo, select id, name, email, phone from users;.

    5. Opcional: En el campo Consulta de límite , ingresa los valores mínimo y máximo para leer, por ejemplo, SELECT * FROM table WHERE $CONDITIONS.

    6. Opcional: En el campo Nombre del campo de división, ingresa el nombre del campo que genera las divisiones.

    7. Opcional: En el campo Cantidad de divisiones que se generarán , ingresa un número, por ejemplo, 2.

    8. Opcional: En el campo Tamaño de recuperación , ingresa un número, por ejemplo, 1000.

    9. Opcional: Ingresa Propiedades avanzadas, como cambiar las mayúsculas y minúsculas de los nombres de las columnas.

  6. Opcional: Haz clic en Validar y soluciona los errores que se encuentren.

  7. Haz clic en Cerrar. Las propiedades se guardan y puedes continuar compilando tu canalización de datos en Cloud Data Fusion Studio.

Propiedades

Propiedad Macro habilitado Obligatorio Descripción
Etiqueta No El nombre del nodo en tu canalización de datos.
Usar conexión No No Busca una conexión a la fuente. Si se selecciona Usar conexión, no necesitas proporcionar credenciales.
Conexión Nombre de la conexión que se usará. Si se selecciona Usar conexión, aparece este campo. La conexión proporciona información sobre la base de datos y la tabla.
Nombre del controlador JDBC El controlador JDBC que se usará.
El valor predeterminado es Sin complementos de JDBC.
String de conexión Cadena de conexión de JDBC, incluido el nombre de la base de datos.
Nombre de usuario No Identidad del usuario para conectarse a la base de datos. Es obligatorio para las bases de datos que necesitan autenticación. Es opcional para las bases de datos que no requieren autenticación.
Contraseña No Contraseña que se usará para conectarse a la base de datos especificada. Es obligatorio para bases de datos que necesitan autenticación. Es opcional para las bases de datos que no requieren autenticación.
Argumentos de conexión No Una lista de pares clave-valor o etiqueta-valor de cadenas arbitrarias como argumentos de conexión. Para los controladores JDBC que necesitan configuración adicional, estos argumentos se pasan al controlador JDBC como argumentos de conexión en el siguiente formato: key1=value1;key2=value.
Nombre de referencia No Un nombre que identifica de forma única esta fuente para el linaje y la anotación de metadatos. Por lo general, es el nombre de la tabla o la vista.
Obtener esquema No No El esquema de los registros que genera la fuente. Se usa en lugar del esquema que muestra la consulta. Debe coincidir con el esquema que regresa de la consulta, excepto que te permite marcar los campos como anulables y puede contener un subconjunto de los campos.
Importar consulta La consulta SELECT para importar datos de la tabla especificada. Puedes especificar una cantidad arbitraria de columnas para importar o importar todas las columnas con *. La consulta debe contener la $CONDITIONS cadena. Por ejemplo, SELECT * FROM table WHERE $CONDITIONS. La cadena $CONDITIONS se reemplaza por el límite de campo splitBy especificado en el campo Consulta de límite. La cadena $CONDITIONS no es obligatoria si el campo Cantidad de divisiones está configurado en 1.
Consulta de límite No La consulta de límite que muestra el mínimo y el máximo de los valores de la columna de división. Por ejemplo, SELECT MIN(id),MAX(id) FROM table. No es obligatorio si la cantidad de divisiones está configurada en 1.
Nombre del campo de división No El nombre del campo que se usa para generar divisiones. No es obligatorio si la cantidad de divisiones que se generarán está configurada en 1.
Cantidad de divisiones que se generarán No Cantidad de divisiones que se generarán.
El valor predeterminado es 1.
Tamaño de recuperación No La cantidad de filas que se recuperarán a la vez por división. Un tamaño de recuperación mayor puede hacer que la importación sea más rápida, con la desventaja de un mayor uso de memoria.
El valor predeterminado es 1000.
Habilitar confirmación automática No No Indica si se debe habilitar la confirmación automática para las consultas que ejecuta esta fuente. Mantén esta opción configurada en False , a menos que uses un controlador JDBC que cause un error cuando se ejecuta la operación de confirmación.
El puerto predeterminado es False.
Mayúsculas y minúsculas del nombre de la columna No Establece las mayúsculas y minúsculas de los nombres de las columnas que muestra la consulta. Puedes elegir mayúsculas o minúsculas. De forma predeterminada, o para cualquier otra entrada, los nombres de las columnas no se modifican y se usan las mayúsculas y minúsculas que muestra la base de datos. Configurar esta propiedad proporciona previsibilidad del uso de mayúsculas y minúsculas del nombre de la columna en diferentes bases de datos, pero puede causar conflictos de nombres de columnas si varios nombres de columnas son iguales cuando se ignoran las mayúsculas y minúsculas.
El valor predeterminado es Sin cambios.
Nivel de aislamiento de transacción No El nivel de aislamiento de transacción para las consultas que ejecuta este receptor. Para obtener más información, consulta el setTransactionIsolation(). El controlador JDBC de Phoenix genera una excepción si la base de datos de Phoenix no tiene habilitadas las transacciones y este campo está configurado como true. Para los controladores como ese, configura este campo como TRANSACTION_NONE.
El valor predeterminado es TRANSACTION_SERIALIZABLE.
Patrón para reemplazar No No El patrón que se reemplazará en el nombre del campo de la tabla (que se usa, por lo general, con la propiedad Reemplazar con). Si no se configura la propiedad Reemplazar con, el patrón se quita del nombre del campo.
Reemplazar con No No La cadena que se reemplaza en el nombre del campo de la tabla. También debes configurar el Patrón para reemplazar campo.
Esquema de salida No No Especifica el esquema que se genera. Solo las columnas definidas en el esquema se incluyen en el registro de salida.

Prácticas recomendadas

Verifica si hay un complemento más específico disponible para tu base de datos. Por ejemplo, si tienes una fuente de base de datos de Oracle, usa el complemento de origen por lotes de la base de datos de Oracle, ya que está diseñado para funcionar con el esquema de Oracle.

¿Qué sigue?