Migración de Snowflake a BigQuery
En este documento, se proporciona una introducción sobre cómo migrar de Snowflake a BigQuery. En las siguientes secciones, se presentan las herramientas de migración para ayudarte a realizar una migración a BigQuery y se describen algunas diferencias entre Snowflake y BigQuery para ayudarte a planificar tu migración.
Migra flujos de trabajo de Snowflake a BigQuery
Cuando planifiques una migración a BigQuery, considera los diferentes flujos de trabajo que tienes en Snowflake y cómo podrías migrarlos de forma individual. Para minimizar el impacto en tus operaciones existentes, te recomendamos que primero migres tus consultas de SQL a BigQuery y, luego, tu esquema y código.
Migra consultas en SQL
Para migrar tus consultas de SQL, el Servicio de migración de BigQuery ofrece varias funciones de traducción de SQL para automatizar la conversión de tus consultas de SQL de Snowflake a SQL de GoogleSQL, como el traductor de SQL por lotes para traducir consultas de forma masiva, el traductor de SQL interactivo para traducir consultas individuales y la API de traducción de SQL. Estos servicios de traducción también incluyen funciones mejoradas con Gemini para simplificar aún más el proceso de migración de tus consulta en SQL.
Mientras traduces tus consultas en SQL, revisa cuidadosamente las consultas traducidas para verificar que los tipos de datos y las estructuras de tablas se manejen correctamente. Para ello, te recomendamos que crees una amplia variedad de casos de prueba con diferentes situaciones y datos. Luego, ejecuta estos casos de prueba en BigQuery para comparar los resultados con los originales de Snowflake. Si hay diferencias, analiza y corrige las consultas convertidas.
Migra el esquema y el código
Para migrar el esquema y los datos de Snowflake, usa el conector de Snowflake en el Servicio de transferencia de datos de BigQuery para configurar una transferencia de datos. Cuando configures la transferencia de datos, podrás especificar tablas de Snowflake específicas para incluir y hacer que el conector detecte automáticamente el esquema de la tabla y los tipos de datos durante una transferencia.
Para obtener más información sobre cómo configurar una transferencia de datos de Snowflake, consulta Programa una transferencia de Snowflake.
Funciones de seguridad de BigQuery
Cuando migres de Snowflake a BigQuery, ten en cuenta cómoGoogle Cloud maneja la seguridad de manera diferente a Snowflake.
La seguridad en BigQuery está intrínsecamente vinculada a la administración de identidades y accesos (IAM) en Google Cloud. Los privilegios de IAM definen las operaciones permitidas en un recurso y se aplican a nivel del Google Cloud , lo que proporciona un enfoque centralizado y coherente para la administración de la seguridad. Estas son algunas funciones de seguridad clave de Google Cloud:
- Seguridad integrada: BigQuery aprovecha las funciones de seguridad de Google Cloud. Esto incluye IAM para el control de acceso detallado para una integración de seguridad sólida y sin problemas.
- Seguridad a nivel del recurso: IAM se enfoca en el control de acceso a nivel del recurso, ya que otorga permisos a usuarios y grupos para varios recursos y servicios de BigQuery. Este enfoque permite administrar de manera eficaz los derechos de acceso para que los usuarios solo tengan los permisos necesarios para realizar sus tareas.
- Seguridad de red: BigQuery se beneficia de las sólidas funciones de seguridad de red de Google Cloud, como la nube privada virtual y las conexiones privadas.
Cuando migres de Snowflake a BigQuery, ten en cuenta los siguientes requisitos de migración relacionados con la seguridad:
- Configuración de IAM: Debes configurar los roles y permisos de IAM en BigQuery para que coincidan con tus políticas de control de acceso existentes de Snowflake. Esto implica asignar roles de Snowflake a los roles y permisos de IAM de BigQuery adecuados.
- Control de acceso detallado: Si usas seguridad a nivel de la fila o la columna en Snowflake, deberás implementar controles equivalentes en BigQuery con vistas autorizadas o etiquetas de política.
- Migración de vistas y UDF: Cuando migres vistas y UDF, verifica que los controles de seguridad asociados se traduzcan correctamente a vistas autorizadas y UDF autorizadas en BigQuery.
Encriptación
BigQuery encripta tus datos en reposo y en tránsito de forma predeterminada. Si necesitas más control sobre las claves de encriptación, BigQuery admite claves de encriptación administradas por el cliente en Cloud Key Management Service. También puedes usar la encriptación a nivel de la columna.
Para mantener la seguridad de los datos durante y después de la migración a BigQuery, ten en cuenta lo siguiente:
- Administración de claves: Si necesitas claves administradas por el cliente, establece una estrategia de administración de claves en Cloud Key Management Service y configura BigQuery para que use esas claves.
- Enmascaramiento o asignación de tokens de datos: Si se trata de datos sensibles, evalúa si se requiere el enmascaramiento o la asignación de tokens de datos para protegerlos.
- Seguridad a nivel de la fila: Implementa la seguridad a nivel de la fila con vistas autorizadas, filtros de seguridad a nivel de la fila o cualquier otro método adecuado.
- Análisis de vulnerabilidades y pruebas de penetración: Realiza análisis de vulnerabilidades y pruebas de penetración periódicos para verificar la postura de seguridad de tu entorno de BigQuery.
Funciones
Los roles son las entidades a las que se les pueden otorgar y revocar privilegios en objetos que se pueden proteger.
En IAM, los permisos se agrupan en roles. IAM proporciona tres tipos de roles:
- Roles básicos: estos roles incluyen los roles de propietario, editor y visualizador. Puedes aplicar estos roles en los niveles de recursos de proyecto o servicio mediante la consola deGoogle Cloud , la API de Identity and Access Management, o
gcloud CLI. En general, para obtener la seguridad más sólida, recomendamos que uses roles predefinidos para seguir el principio de privilegio mínimo. - Roles predefinidos: estos roles proporcionan un acceso más detallado a las funciones de un producto (como BigQuery) y están diseñados para admitir casos de uso comunes y patrones de control de acceso.
- Roles personalizados: estos roles se componen de permisos especificados por el usuario.
Control de acceso
Snowflake te permite otorgar roles a otros roles, lo que crea una jerarquía de roles. IAM no admite una jerarquía de roles, pero implementa una jerarquía de recursos. La jerarquía de IAM incluye el nivel de organización, el nivel de carpeta, el nivel de proyecto y el nivel de recurso. Puedes establecer roles de IAM en cualquier nivel de la jerarquía, y los recursos heredan todas las políticas de sus recursos superiores.
BigQuery admite el control de acceso a nivel de tabla. Los permisos a nivel de tabla determinan los usuarios, grupos y cuentas de servicio que pueden acceder a una tabla o vista. Puedes otorgar a un usuario acceso a tablas o vistas específicas sin que tenga acceso al conjunto de datos completo.
Para obtener un acceso más detallado, también puedes usar el control de acceso a nivel de columna o la seguridad a nivel de la fila. Este tipo de control proporciona un acceso detallado a columnas sensibles mediante el uso de etiquetas de política o clasificaciones de datos basadas en tipos.
También puedes crear vistas autorizadas para limitar el acceso a los datos a fin de obtener un control de acceso más detallado, de modo que los usuarios especificados puedan consultar una vista sin tener acceso de lectura a las tablas subyacentes.
Migra otras funciones de Snowflake
Ten en cuenta las siguientes funciones de Snowflake cuando planifiques tu migración a BigQuery. En algunos casos, puedes usar otros servicios en Google Cloud para completar la migración.
Viaje en el tiempo: en BigQuery, puedes usar viaje en el tiempo para acceder a los datos desde cualquier punto en los últimos siete días. Si necesitas acceder a los datos después de siete días, considera exportar instantáneas programadas con regularidad.
Transmisiones: BigQuery admite la captura de datos modificados (CDC) con Datastream. También puedes usar el software de CDC, como Debezium, para escribir registros en BigQuery con Dataflow. Para obtener más información sobre cómo diseñar de forma manual una canalización de CDC con BigQuery, consulta Migra almacenes de datos a BigQuery: Cambia la captura de datos (CDC).
Tareas: BigQuery te permite programar consultas y transmisiones, o transmitir la integración en consultas con Datastream.
Funciones externas: BigQuery admite llamadas de funciones externas a través de Cloud Run Functions. También puedes usar funciones definidas por el usuario (UDF), como UDF de SQL, aunque estas funciones se ejecutan dentro de BigQuery.
Tipos de datos, propiedades y formatos de archivo admitidos
Snowflake y BigQuery admiten la mayoría de los mismos tipos de datos, aunque a veces usan nombres diferentes. Para obtener una lista completa de los tipos de datos compatibles en Snowflake y BigQuery, consulta Tipos de datos. También puedes usar herramientas de traducción de SQL, como el traductor de SQL interactivo, la API de traducción de SQL o el traductor de SQL por lotes, para traducir diferentes dialectos de SQL a GoogleSQL.
Para obtener más información sobre los tipos de datos admitidos en BigQuery, consulta Tipos de datos de GoogleSQL.
Snowflake puede exportar datos en los siguientes formatos de archivo. Puedes cargar los siguientes formatos directamente en BigQuery:
- Carga datos de CSV desde Cloud Storage.
- Carga datos de Parquet desde Cloud Storage.
- Carga datos JSON desde Cloud Storage.
- Consulta datos de Apache Iceberg.
Herramientas de migración
En la siguiente lista, se describen las herramientas que puedes usar para migrar datos de Snowflake a BigQuery. Para ver ejemplos de cómo se pueden usar estas herramientas juntas en una canalización de migración de Snowflake, consulta Ejemplos de canalizaciones de migración de Snowflake.
- Comando
COPY INTO <location>: Usa este comando en Snowflake para extraer datos de una tabla de Snowflake directamente en un bucket de Cloud Storage especificado. Para obtener un ejemplo de extremo a extremo, consulta Snowflake a BigQuery (snowflake2bq) en GitHub. - Apache Sqoop: para extraer datos de Snowflake en HDFS o Cloud Storage, envía los trabajos de Hadoop con el controlador JDBC de Sqoop y Snowflake. Sqoop se ejecuta en un entorno de Dataproc.
- JDBC de Snowflake: usa este controlador con la mayoría de las herramientas o aplicaciones cliente que son compatibles con JDBC.
Puedes usar las siguientes herramientas genéricas para migrar datos de Snowflake a BigQuery:
- El conector del Servicio de transferencia de datos de BigQuery para Snowflake (versión preliminar): Realiza una transferencia por lotes automatizada de datos de Cloud Storage a BigQuery.
- Google Cloud CLI: Esta herramienta de línea de comandos copia los archivos descargados de Snowflake en Cloud Storage.
- Herramienta de línea de comandos de bq: Interactúa con BigQuery a través de esta herramienta de línea de comandos. Entre los casos de uso comunes, se incluyen la creación de esquemas de tablas de BigQuery, la carga de datos de Cloud Storage en tablas y la ejecución de consultas.
- Bibliotecas cliente de Cloud Storage: copia los archivos descargados de Snowflake en Cloud Storage con una herramienta personalizada que use las bibliotecas cliente de Cloud Storage.
- Bibliotecas cliente de BigQuery: interactúa con BigQuery mediante una herramienta personalizada compilada sobre la biblioteca cliente de BigQuery.
- Programador de consultas de BigQuery: Programa consultas de SQL recurrentes con esta función integrada de BigQuery.
- Cloud Composer: usa este entorno de Apache Airflow completamente administrado para organizar los trabajos de carga y las transformaciones de BigQuery.
Para obtener más información sobre la carga de datos en BigQuery, consulta Carga datos en BigQuery.
Precios
Cuando planifiques tu migración de Snowflake, ten en cuenta el costo de transferir y almacenar datos, y de usar servicios en BigQuery. Para obtener más información, consulta Precios.
Es posible que se apliquen costos de salida por transferir datos fuera de Snowflake o AWS. También puede haber costos adicionales cuando se transfieren datos entre regiones o entre diferentes proveedores de servicios en la nube.
Comenzar
En las siguientes secciones, se resume el proceso de migración de Snowflake a BigQuery:
Ejecuta una evaluación de migración
En tu migración de Snowflake a BigQuery, te recomendamos que comiences ejecutando la herramienta de evaluación de migración de BigQuery para evaluar la viabilidad y los posibles beneficios de trasladar tu almacén de datos de Snowflake a BigQuery. Esta herramienta proporciona un enfoque estructurado para comprender tu entorno actual de Snowflake y estimar el esfuerzo que implica una migración exitosa.
Cuando se ejecuta la herramienta de evaluación de migración de BigQuery, se genera un informe de evaluación que contiene las siguientes secciones:
- Informe del sistema existente: Es una instantánea del sistema y el uso de Snowflake existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en TB. También se enumeran los esquemas por tamaño y se apunta al posible uso de recursos deficientes, como las tablas sin escrituras o pocas lecturas.
- Sugerencias de transformación de estado estable de BigQuery: Muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery y evitar el desperdicio.
- Plan de migración: Proporciona información sobre el esfuerzo de migración. Por ejemplo, pasar del sistema existente al estado estable de BigQuery. En esta sección, se incluye el recuento de las consultas que se tradujeron automáticamente y el tiempo estimado para trasladar cada tabla a BigQuery.
Para obtener más información sobre los resultados de una evaluación de migración, consulta Revisa el informe de Looker Studio.
Valida tu migración
Una vez que hayas migrado tus datos de Snowflake a BigQuery, ejecuta la Herramienta de validación de datos (DVT) para realizar una validación de datos en los datos de BigQuery que acabas de migrar. La DVT valida varias funciones, desde el nivel de la tabla hasta el nivel de la fila, para verificar que los datos migrados funcionen según lo previsto.